设为首页 收藏本站
查看: 729|回复: 0

[经验分享] awk, python, perl文本处理效率对比(zz)

[复制链接]

尚未签到

发表于 2015-12-27 07:49:19 | 显示全部楼层 |阅读模式
  转载,比较结果不一定正确,比较设计不一定科学.
  以下3个文件依次是用python、awk和perl写的脚本,做同一件事情:

diff.sh f1 f2
f1和f2每一行的第一个字段(以空格分割)为key,如果f2某一行的key在f1中不存在,则输出f2该行。
比如:
a.dat的内容是
1 a
2 a
b.dat的内容是
1 b
3 b
那么diff.sh a.dat b.dat则输出
3 b
代码:
  #!/usr/bin/python
import sys
if len(sys.argv) != 3:
    print "Usage: " + sys.argv[0] + "file1 file2";
    sys.exit(-1);
file1 = sys.argv[1]
file2 = sys.argv[2]
list1 = {};
for line in open(file1):
    list1[line.split()[0]] = 1;
for line in open(file2):
    key = line.split()[0];
    if key not in list1:
        sys.stdout.write(line)
  #!/bin/sh
if [[ $# < 2 ]];then
    echo "Usage: $0 file1 file2"
    exit
fi
function do_diff()
{
    if [[ $# < 2 ]];then
        echo "Usage: $0 file1 file2"
        return 1
    fi
    if [[ ! -f $1 ]];then
        echo "$1 is not file"
        return 2
    fi
    if [[ ! -f $2 ]];then
        echo "$2 is not file"
        return 3
    fi
    awk '
        BEGIN{FS=OFS=" "}
        ARGIND == 1 {
            arr[$1] = 1;
        }
        ARGIND == 2 {
            if (!($1 in arr)) {
                print $0;
            }
        }
    ' $1 $2
}
do_diff $1 $2

  #!/usr/bin/perl -w
exit if (1 > $#ARGV);
my %map_orig;
my $file_orig = shift @ARGV;
open FH, "<$file_orig" or die "can't open file: $file_orig";
while (<FH>) {
        chomp;
        #$map_orig{$_} = 1;
        my ($filed) = split /\s+/;
        $map_orig{$filed} = 1;
}
close (FH);
my $file_diff = shift @ARGV;
open FH, "<$file_diff" or die "can't open file: $file_diff";
while (<FH>) {
        chomp;
        my ($filed) = split /\s+/;
        print "$_\n" if (!defined$map_orig{$filed});
}
close (FH)


测试方法:time diff.xx f1 f2 > out
测试文件f1有107375330行,每一行格式为:
key value(两个字段)
文件大小为2.2G
f2有473951行,每一行的格式也是:
key value(两字段)
文件大小为5.9M

测试结果:
diff.py的时间为3m24.687s = 205s
diff.sh的时间为3m39.762s = 220s
diff.pl的时间为5m49.478s = 349s

结果显示awk和python的性能差不多,perl则要明显差些。看来python的dict优化得很好,居然能赶上awk的性能,很出乎我的意料。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-156777-1-1.html 上篇帖子: perl实现监控linux 下篇帖子: Perl相关文章
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表