设为首页 收藏本站
查看: 1223|回复: 0

[经验分享] 记录使用Python+Webpy+Android做一个网站应用的过程 五----中文编码

[复制链接]

尚未签到

发表于 2017-5-7 15:18:54 | 显示全部楼层 |阅读模式
应该在昨天就写出这篇文章,偷懒了,直到现在才敲起键盘
这两天最主要的工作就是实现抓取文章,提取正文,以及存储到数据库这样一个过程。
关于抓取文章,提取正文,主要是应用了 beautifulsoup这样一个第三方的解析包来做。鼓捣了一阵还算顺利拿下来了一个网站的主页文章。
关于 beautifulsoup 的性能还没做测试,至少目前用不到,以后需要的再说。
遇到一个很头疼的问题就是关于中文编码的问题。关于中文编码的问题在过程中遇到了两个门槛。
1, 我把取到的中文放到了一个dict对象content里面面。然后就是做测试做了一个content.items()。输出的是编码,而不是汉字。当时就跟纳闷,一顿google,没有找到直接对这个问题做解释的,倒是对python的unicode编码问题了解了一些。但是如果直接
print content.values()[0] 的话还是能够正确输出中文。我的理解可能是因为直接使用 content.items() 的时候python并没有像使用的时候做编码的转化。所以直接输出的是编码字符。而且自此后我在python module的第一行都加上了# -*- coding: utf-8 -*-
2, 接着遇到的问题就是把中文存到mysql数据库的问题。导致有问题的是多方面的,我把整个过程写下来,希望对其他人有些许帮助
    在往数据库写数据的时候python代码报错,显示latin1无法解析某某位置的码。我第一个反应是mysql数据库的编码问题。(在此插一句,我用的mysql是免安装版本的,在使用过程中遇到了各种问题,各种。。。建议初学者还是能选择mysql安装版。)
查看schema,果然是latin1的编码,遂更改了schema和各个table的编码到utf8
再试,一样的错误。。开始有点崩溃。又一顿google,得出了要更改MySQLdb源代码的建议。个人觉得这种方法有可能解决问题,但未必是从根本上来解决。除非是真没辙了才会考虑这种方案。
    但我报错的代码和那个帖子位置不一样,我还是试着在那行代码hardcode了"utf-8"再试,代码不再报错,可以插入数据库。但中文都是乱码。再次崩溃
    此时我想起在初始化dbconnection的时候没有设置charset值。遂又set为"utf-8",再试,再次报错。。。又一顿整,意识到应该改为"utf8",代码不再报错,另外我把hardcode的那行代码改回去,代码也不再报错,可以插入到数据库,不过中文依然是乱码。很崩溃。
    这时我就开始怀疑这个免安装版本的mysql有问题。网上又下载了安装版的。一顿折腾,错误依旧。所以能改的地方都改了,就是乱码。开始绝望了。。
    我开始仔细看table的导出的sql create statement,终于让我注意到了一个细节。
原来因为我最先的时候数据库编码默认为latin1,结果在建立表的时候,mysql自动为每一列也加上了charset latin1。也就是说虽然我更改了schema和table的编码到utf8但每一列的编码依旧是latin1。马上全部改为utf8。再试,终于能在table里看到熟悉的方块字了。。。
自此,中文编码的问题算是告了一个段落了。
后来想了想,如果一开始我就是用的mysql安装版的话,它会自动提示选择什么默认的编码,我当然会选择utf8,这样的话,中文编码的问题解决起来就不会耗费这么大的精力了。
不过我相信一句话,努力不会白费的,虽然耗费了很多时间,但学到的东西也更多,也有了更多的积累。
以下是我参考的的文章:感谢他们的经验分享
http://bbs.chinaunix.net/archiver/tid-1163613.html
http://blog.csdn.net/fengye515/archive/2009/02/14/3890894.aspx

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-374330-1-1.html 上篇帖子: Python 监控 DB 服务器信息(cpu, 磁盘,进程,alert log) 脚本 下篇帖子: python写的批量操作远程主机脚本(命令执行,上传、下载文件)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表