Python处理大文件

nosilence 发表于 2015-10-26 13:30:43

要将一个4G的文本文件切分开

读取文本文件大致有read() 、readline()、readlines()三种
read()会将所有内容读入到一个字符串中
readlines()将所有内容按行读取，返回一个列表，列表中每个元素是一个字符串，一个字符串是一行内容，所以可利用如下格式处理

viewplaincopy
[*]for line in f.readlines():    # 1
[*] process(line)

其实在python2.2之后，文件也是一个对象，甚至可以这样处理

viewplaincopy
[*]for line in f:             # 2
[*] process(line)

readline()每次读取一行
所以read()及readlines()效率高，但是需要内存能放的下
而后一种可以处理比较大的文件。
在处理时采用第1种方法和第2中方法，都只处理了不到200M的数据……
采用readline()

viewplaincopy
[*]line = f.readline()                #3
[*]while line:
[*] process(line)
[*] line = f.readline()

同样只处理不到200M，很怪

最终，

viewplaincopy
[*]BUFSIZE = 1024                      #4
[*]lines = f.readlines(BUFSIZE)
[*]while lines:
[*] for line in lines:
[*]    process(line)
[*] lines = readlines(BUFSIZE)

全部数据处理完毕

但是将BUFSIZE改为10240，又只是处理了不到200M……

=====================================================================================================
自己新建了一个2G左右的文件，
采用readline()不断循环，可以
采用readlines()指定读取行数循环，可以
采用第1中第2中方法，提示内存不足
这才是正常的嘛

从效率来说
采用第4种要比第3种快一些

---------------------------------------------------
估计源文件有错误，在文件中间有符号可以被识别为EOF。但是不知为何BUFSIZE为1024时又可以……
--------------------------------------------------

页: [1]

运维网's Archiver

Python处理大文件