神奇的perl-第六个任务(8)
本神奇的Perl系列为刘兴(http://deepfuture.iteye.com/)原创,未经笔者授权,任何人和机构不能转载4.获取网页
如何取得ip来源地区?不用重新发明轮子,我们使用外部工具。
在GOOGLE搜索“ip查询”,可搜索到很多提供此项服务的网站,选择http://www.ip138.com/进行ip查询,在IP地址或者域名栏内输入221.226.19.186。IP地址做为参数通过get模式传入http://www.ip138.com/ips.asp。
通过http://www.ip138.com/ips.asp?ip= 117.32.251.242&action=2&action=2,获得对应地区。
下面, 我们试着编写Perl程序来自动完成查询IP的功能,首先要解决的问题是如何获取网页。有了LWP::Simple模块的支持,我们不用直接解析HTML协议,完成 这项工作变得十分简单。
我们使用get子程序来获取网页,该子程序会将获取的网页做为一个标量返回,我们能轻易发现,地区字符串“陕西省西安市”这个字符串位于“本站主数据:”之后,空格之前,对于某些IP地址,无法查询接入提供商,因此地区字符串也可能位于“</li>”之前。
为保证多平台字符编码兼容性,将“本站主数据:”做为变量在正则表达式中使用,程序以UTF8编码保存,使用decode('utf8',"本站主数据:")以UTF8解码。
先定义解码后的标量:
$sjts =decode('utf8',"本站主数据:");
然后再通过正则模式串/$sjts(\S+?)(<\/li>|\s)/)进行匹配。
#perl4-12.pl
use strict;
use warnings;
use LWP::Simple;
use Encode;
use Utf2Gbk;
.............
...........
$url='http://www.ip138.com/ips.asp?ip='.$ip.'&action=2&action=2';
$sjts=decode('utf8',"本站主数据:");
$page=get($url);#获取网页
if (sysisutf8()){#判断当前系统用的编码,sysisutf8是Utf2Gbk模块的导出子程序
binmode(STDOUT, ':encoding(utf8)');
}
else{
binmode(STDOUT, ':encoding(gbk)');
}
print $1 if $page=~m/$sjts(.+?)(<\/li>|\s)/;
页:
[1]