设为首页 收藏本站
查看: 947|回复: 0

[经验分享] Python处理大文件

[复制链接]

尚未签到

发表于 2015-10-26 13:30:43 | 显示全部楼层 |阅读模式
要将一个4G的文本文件切分开


读取文本文件大致有read() readline()readlines()三种
read()会将所有内容读入到一个字符串中
readlines()将所有内容按行读取,返回一个列表,列表中每个元素是一个字符串,一个字符串是一行内容,所以可利用如下格式处理

[python] viewplaincopy

  • for line in f.readlines():       # 1  
  •     process(line)  

其实在python2.2之后,文件也是一个对象,甚至可以这样处理

[python] viewplaincopy

  • for line in f:               # 2  
  •     process(line)   

readline()每次读取一行
所以read()及readlines()效率高,但是需要内存能放的下
而后一种可以处理比较大的文件。
在处理时采用第1种方法和第2中方法,都只处理了不到200M的数据……
采用readline()

[python] viewplaincopy

  • line = f.readline()                    #3  
  • while line:  
  •     process(line)  
  •     line = f.readline()  

同样只处理不到200M,很怪

最终,

[python] viewplaincopy

  • BUFSIZE = 1024                        #4  
  • lines = f.readlines(BUFSIZE)  
  • while lines:  
  •     for line in lines:  
  •         process(line)  
  •     lines = readlines(BUFSIZE)  

全部数据处理完毕

但是将BUFSIZE改为10240,又只是处理了不到200M……

=====================================================================================================

自己新建了一个2G左右的文件,
采用readline()不断循环,可以
采用readlines()指定读取行数循环,可以
采用第1中第2中方法,提示内存不足
这才是正常的嘛

效率来说
采用第4种要比第3种快一些

---------------------------------------------------
估计源文件有错误,在文件中间有符号可以被识别为EOF。但是不知为何BUFSIZE为1024时又可以……
--------------------------------------------------

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-131011-1-1.html 上篇帖子: python 获取脚本传递参数 及参数个数 检查文件 变量 是否存在 退出脚本 . 下篇帖子: Python核心数据类型之字典15
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表