设为首页 收藏本站
查看: 2201|回复: 0

[经验分享] Python读取大文件并插入数据库

[复制链接]

尚未签到

发表于 2017-5-3 10:21:44 | 显示全部楼层 |阅读模式
把几个大的文件的内容读到数据库中。
查看了手册open方法,首先想到了seek()方法,和fread()方法读到一段内容来执行插入。
大概说一下方法吧。
一 取数据
取一段内容,以回车(\n)分隔内容为数据,批量插入数据库
如要读取文件内容如下:

abcd
efgh
ijkl
mnop


按13个字符取内容

root_path = os.path.abspath('./') + os.sep  
f = open(root_path + 'file/pass.txt', 'r')
f.seek(0)
line = f.read(13) #从文件中读取一段内容


输出如下:(回车[\n]占一个字符)

abcd
efgh
ijk


转换为数组后

L = ['abcd', 'efgh', 'ijk']

此时插入数据库内容为

['abcd', 'efgh']

将最后一条数据缓存 t = L.pop()
下一次循环得到数组为

L = ['l', 'mnop']

此时将第一条数据和缓存的数据合并

L[0] = t + L[0]

并缓存数组最后一条数据
二 插入数据
插入数据,使用批量插入
最开始的时候我拼好sql语句如:INSERT INTO XX(`a`) VALUES(1),(2),(3)...
然后调用mysql-python的方法

conn = mysql.connector.connect(host='127.0.0.1', database='xxx', user='xxx', password='xxx')
conn.cursor().execute(sql)


结果执行了大概2万多就报Lost connection to MySQL server错误了。后来我看mysql-python里面的代码原来批量插入数据有封装好的方法是

conn.cursor().execute(sql)
data = [
('Jane','555-001'),
('Joe', '555-001'),
('John', '555-003')
]
stmt = "INSERT INTO employees (name, phone) VALUES (%s,%s)"
cursor.executemany(stmt, data)


注意以上两点后,上代码:

#encoding:utf-8
'''
Created on 2013-1-27
@author: JinHanJiang
'''

'''
create table
CREATE TABLE `Passwords` (
`id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT 'id主键',
`pass` varchar(64) NOT NULL COMMENT '密码',
`md5` varchar(32) DEFAULT NULL COMMENT '32位md5值',
PRIMARY KEY (`id`),
UNIQUE KEY `pass` (`pass`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 COMMENT='密码'
'''
import os
import re
import time
from datetime import datetime
import hashlib
import mysql.connector
import random
root_path = os.path.abspath('./') + os.sep  
f = open(root_path + 'file/f1.txt', 'r')
fields = ['pass', 'md5']

def writeDB(params):
try:
fields = '(`' + '`, `'.join(params['fields']) + '`)'
stmt = "INSERT IGNORE INTO Passwords"+fields+" VALUES (%s,%s)"
conn = mysql.connector.connect(host='127.0.0.1', database='password', user='root', password='admin')
conn.cursor().executemany(stmt, params['datas'])
conn.cursor().close()
conn.close()
except Exception as e:
print e

pos = 0
buff = 1024 * 1024
last = ''
dstart = datetime.now()
print "Program Start At: " + dstart.strftime('%Y-%m-%d %H:%M:%S')
while 1:
f.seek(pos)
line = f.read(buff) #从文件中读取一段内容
datas = []
if not line:
if '' is not last:
data = (last, hashlib.md5(last).hexdigest().upper())
datas.append(data)
params = {'fields': fields, 'datas': datas}
writeDB(params)
break; #如果内容为空跳出循环
pos += buff #计算取下一段内容长度
buff = pos
lines = re.split("\n", line) #以回车(\n)分隔内容到数组中
lines[0] = str(last) + str(lines[0])
last = lines.pop()  #将数组最后一条数据剔除,并存到last变量中,到下次循环再处理
for lin in lines:
lin = lin.rstrip() #去除内容末尾的回车字符
if not lin:
continue
data = (lin, hashlib.md5(lin).hexdigest().upper())
datas.append(data) #封装内容
if len(datas) > 0:
params = {'fields': fields, 'datas': datas}
writeDB(params)
time.sleep(random.random()) #让Cpu随机休息0 <= n < 1.0 s
f.close()
dend = datetime.now()
print "Program End At:%s Time span %s"%(dend.strftime('%Y-%m-%d %H:%M:%S'), dend - dstart);

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-372438-1-1.html 上篇帖子: 隐藏于Python内的设计之禅彩蛋 下篇帖子: Groovy学习笔记——实现Python风格的String format
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表