设为首页 收藏本站
查看: 866|回复: 0

[经验分享] 利用Perl解析XML文件 [转]

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2015-12-27 16:11:57 | 显示全部楼层 |阅读模式
    当在Perl中使用XML时,你会有将近五百个CPAN模块可以选择,每一个都支持整合Web服务的不同方面。此外,Perl的核心库包括多个支持XML的模块。这篇文章就关注于一个最早期且涉及最频繁的核心模块:XML::Parser.
    XML::解析器系列
    最初的Perl解析器XML::Parser::Expat由Larry Wall在几年前编写并由Clark Cooper保持延续。模块作为Expat XML parser的界面由James Clark用C语言编写且已经被一些脚本语言所采用。
    Expat是一个以事件为基础的解析器,意味着特定条件触发处理功能。例如,一个开始或结尾标记将触发适当的用户定义子程序。XML::Parser模块在Expat功能的基础上为普通应用所建构。
    注意Expat在解析之前不会使XML生效且在遇到错误出现时会失效。这些限制会使XML::Parser模块速度非常之快。
    XML::Parser简介
    任何人都可以在Perl中编写一个XML解析器。毕竟你只是处理具有已知格式的文本。但由于XML::Parser模块是用C编写的,他比任何你可以实现的纯Perl应用要更有效的多。而且既然他已经被编写出来,你就可以把时间花在其他更有用的事情上。
    XML::Parser的Expat的功能允许你定义所使用的解析器的样式。最普遍使用的样式是Tree和Stream,Tree处理XML的输入,创建含有文件中的元素和数据的成套数组,这样你就可以按照你的意愿控制这个结构。Stream将分析行为划分层级,在一个事件的开始做处理,要使用Stream,你必须在你对模块做例示并将其与描述事件出现时如何处理的子程序相关联时定义处理器。
    其它样式还包括:Sub,允许你特定地对一种XML标记定义其功能。Debug,将文件显示未标准输出。Object,与Tree相似但是返回对象。你也可以通过在XML::Parser类中定义一个子类来设定一个客制样式。
    这个例子中,我将使用XML::Parser类来创建一个Stream解析。我将带出一个将XML文件解析为标准输出的简单脚本程序,你可以在表A中看到脚本程序(xmlparse.pl),在表B中看到XML文件(data.xml)。这里,由于这是一个命令行脚本,我选择不解析URL元素。要执行这个脚本程序,在命令提示下,键入:
    perl xmlparse.pl data.xml
    脚本先参照适当的模块:
    use XML::Parser;
    接着,从命令提示输入抓取文件:
    my $xmlfile = shift;die "Cannot find file \"$xmlfile\""
    unless -f $xmlfile;
    脚本设置一些初始变量:
    $count = 0;$tag = "";
    然后是创建解析器实例:
    my $parser = new XML::Parser;
    现在我们定义事件处理器。我设置了开始标记,结束标记,特性数据的处理器。而仅仅因为是例子,我还加入了一个缺省处理器,它将对全部进行解析而不被其他事件处理器的定义所明显覆盖。如果你计划丢弃额外数据,缺省处理器将自动执行而不需要定义。
$parser->setHandlers( Start => \&startElement,

    End => \&endElement,
    Char => \&characterData,
    Default => \&default);
脚本的主要部分通过指示解析器实例而变得紧凑来通过XML数据文件:

    $parser->parsefile($xmlfile);
    剩下的就是定义在每个事件情况下如何进行处理。
    当脚本程序遇到一个开始标记时将执行这个子程序,这在上面的setHandlers方式中进行了定义。我选择跳过去并显示每个元素中我感兴趣的文本。
    接下来我定义的变量自动地被XML::Parser模块所传递。对于开始标记处理器,这些变量代表解析器实例,标记名和标记可能会有的属性数组。如果标记没有属性,则一个空数组将被传递至子程序。
sub startElement {

    my( $parseinst, $element, %attrs ) = @_;
    SWITCH: {
    if ($element eq "article") {
    $count++;
    $tag = "article";
    print "Article $count:\n";
    last SWITCH;
    }
    if ($element eq "title") {
    print "Title: ";
    $tag = "title";
    last SWITCH;
    }
    if ($element eq "summary") {
    print "Summary: ";
    $tag = "summary";
    last SWITCH;
    }
    }}
在XML数据文件中遇到一个结束标记,endElement子程序就会被调用。这里,我要提供一些线中断。在这里被XML::Parser所传递的变量是解析器实例和标记名称。
sub endElement {

    my( $parseinst, $element ) = @_;
    if ($element eq "article") {
    print "\n\n";
    } elsif ($element eq "title") {
    print "\n";
    }}
由于我们处在命令行,我使用特性数据处理器来去掉可能已经包括在XML数据文件中的任一行和标签格式并选择显示内容(如果他来自一个标题或摘要标记)。
sub characterData {

    my( $parseinst, $data ) = @_;
    if (($tag eq "title") || ($tag eq "summary")) {
    $data =~ s/\n|\t//g;
    print "$data";
    }}
最后,我定义了一个子程序来处理所有可能遇到的其它类型的元素。其中包括特性编码定义,文件类型定义和评注。所有不被开始标记,结束标记和特性数据事件处理器所明确覆盖的都包括在这里面。
sub default {

    my( $parseinst, $data ) = @_;
    # you could do something here}
    小结
    你对XML::Parser的Expat功能熟悉之后,你可以将其作为接触几百个可用的CPAN XML模块的跳板。我们这里的Stream样式是唯一一个可用的XML::Parser模块中的解析类型。你可能会发现其他的会更适合你的工作任务。Perl几乎从第一个工程方案推出时就具有XML功能,不论你的需要如何,他都是一个很好的选择。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-157080-1-1.html 上篇帖子: Win8.1下Perl PPM启动问题 下篇帖子: Small Perl for forget
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表