xixi 发表于 2015-12-28 11:35:49

perl抓取网页遇到的编码问题

  使用Perl的LWP模块抓取搜房网站列表页时,输出的是乱码。仔细检查:


[*]搜房网网页,的确是GBK编码。
[*]Perl程序文件,输出文件也都是GB2312格式,即使是输出的CMD终端,也是GBK环境。
  上网多放查找,找到解决方案:



    my %opts = (charset_strict=> 1,         
default_charset => 'cp936',
);
$content = $response->decoded_content( %opts );
  据说是LWP模块在识别编码上,是有问题的,要手动选择。
  参考链接:http://bbs.iyunv.com/thread-4085860-1-1.html
页: [1]
查看完整版本: perl抓取网页遇到的编码问题