设为首页 收藏本站
查看: 461|回复: 0

[经验分享] mysql 百万级数据插入更新速度问题

[复制链接]

尚未签到

发表于 2016-10-18 10:04:13 | 显示全部楼层 |阅读模式
大家好^^

我现在正在作毕业设计 题目是构建一个搜索引擎

现在已经实现了crawler,代码全是自己写的,没有参开其他的open source,所以完全没有学习人家的开源的思想,比如nutch,然后再所以没有用文件作url的库,用的是mysql 5.0的innodb表,数据库中一共有12张表,分别是vUrls(以访问的url),urls_0到urls_10(这11张表代表了11中不同权重的未访问的url)。(还是自己懒,写文件还要多代码,现在已经代码比较乱了)。

表结构:
1. 未访问表中有MD5和url字段,其中MD5字段是char(32)类型、主键,url是TEXT类型。
2. 已访问表中有ID(自增、主键),MD5和url(类型同上)

操作主要集中在未访问表上,己访问表现在只是用来看看,程序中还是放在内存中。(以下未经说明针对未访问表)

程序中开了多线程通过socket下载网页,一个线程专门解析hyberlink,一个线程专门储存网页(文件形式),开了11个线程(11个权重)并发将解析出来的超链存入数据库。

1. 存入数据库前,这些url先放入一个阻塞队列,满100个时,batch进数据库。
2. 为了削去重复的url我在程序中使用了 replace语句,保证插入数据库的url是唯一的。
3. 有两个队列轮流充满待访问的url共socket提取下载,当一个空的时候另一个从数据库中提取 <100 个url充满。这样轮流让socket线程提取,轮流充满,保证socket线程不断。这里的逻辑是从权重最大的表开始看看如果记录条数>0(select count(*)),就select...limit 100 ,只取一张表的数据,不管取出的记录有没有100个,有就行,然后根据MD5把这些记录删掉.程序稳定后(我指uv.url表中的数据量 > 100,最多也就程序运行开始后十几秒的事),就都是batch出100个了。

现在的问题是:
在下载了 >10^5 张网页的时候(最大的权重url表中的行 >10^6),数据库GRUD速度明显跟不上了,因为innodb是锁行的,所以一个时候并发的查询多的时候会锁较长时间,这时候线程会waiting,有次测试 ,竟然数据库被索直到timeout。

然后自己看mysql的manual,优化,改了buffer-pool-size,又把死锁退出的时间调长了点,说实话,数据库这东西的优化是细活,硬活,而且我一直没存过海量,实在是看不出,也想不出什么好的优化方法。

大家看看,都来讨论讨论。

PS 1:
1. 其实要是search一个区域的网站的话,比如我们学校的所有网站的所有网页,我想能下载下150000张的网页,就够了吧(说错了 别扔我)。但是我想把毕设做得好些,想搞定网页数据量 10^6 的(天网那群人写的那本什么书上写到原始的天网就单机下载索引了 10^6 个网页)
2. 请问大家这样用数据库的方案可行不?(我指有教学性质的 单机版的 毕业设计式的 SE)

PS 2:
我使用数据库做urlDB的原因其实就是与其自己写代码控制urlDB,不如相信数据库的能力,比如并发的管理,GRUD的优化能力 etc. 没想到现在竟然反被束缚了,其导致的后果就是网页的下载速度从占满带宽到由于数据库的查询访问而将到 <20% 的地步。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-287837-1-1.html 上篇帖子: MySQL 5.5版本下my.ini内[mysqld]项中不能再写default-character-set=utf8 下篇帖子: 使用Flex,Java,Json更新Mysql数据【高级篇】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表