sakko51150 发表于 2017-5-19 07:09:57

神奇的perl-第六个任务(8)

  本神奇的Perl系列为刘兴(http://deepfuture.iteye.com/)原创,未经笔者授权,任何人和机构不能转载
  4.获取网页
  如何取得ip来源地区?不用重新发明轮子,我们使用外部工具。
  在GOOGLE搜索“ip查询”,可搜索到很多提供此项服务的网站,选择http://www.ip138.com/进行ip查询,在IP地址或者域名栏内输入221.226.19.186。IP地址做为参数通过get模式传入http://www.ip138.com/ips.asp。
  通过http://www.ip138.com/ips.asp?ip= 117.32.251.242&action=2&action=2,获得对应地区。
  下面, 我们试着编写Perl程序来自动完成查询IP的功能,首先要解决的问题是如何获取网页。有了LWP::Simple模块的支持,我们不用直接解析HTML协议,完成 这项工作变得十分简单。
  我们使用get子程序来获取网页,该子程序会将获取的网页做为一个标量返回,我们能轻易发现,地区字符串“陕西省西安市”这个字符串位于“本站主数据:”之后,空格之前,对于某些IP地址,无法查询接入提供商,因此地区字符串也可能位于“</li>”之前。
为保证多平台字符编码兼容性,将“本站主数据:”做为变量在正则表达式中使用,程序以UTF8编码保存,使用decode('utf8',"本站主数据:")以UTF8解码。
先定义解码后的标量:
$sjts =decode('utf8',"本站主数据:");
然后再通过正则模式串/$sjts(\S+?)(<\/li>|\s)/)进行匹配。


  #perl4-12.pl
  use strict;   
  use warnings;   
  use LWP::Simple; 
  use Encode;
  use Utf2Gbk;
  .............
  ...........
  $url='http://www.ip138.com/ips.asp?ip='.$ip.'&action=2&action=2';  
  $sjts=decode('utf8',"本站主数据:");
  $page=get($url);#获取网页
  if (sysisutf8()){#判断当前系统用的编码,sysisutf8是Utf2Gbk模块的导出子程序
  binmode(STDOUT, ':encoding(utf8)'); 
  }
  else{
  binmode(STDOUT, ':encoding(gbk)'); 
  }
  print $1 if $page=~m/$sjts(.+?)(<\/li>|\s)/;
页: [1]
查看完整版本: 神奇的perl-第六个任务(8)