设为首页 收藏本站
查看: 671|回复: 0

[经验分享] 为何Python这么快

[复制链接]

尚未签到

发表于 2017-4-25 11:21:20 | 显示全部楼层 |阅读模式
  问题的提出是源于 这位兄弟的BLOG,在他的这个实现中,Python具有相当不错的性能,不但优于帖子中的C实现性能,也优于随后的跟贴中众多的C++实现的性能。
  在经过了多次尝试,我还是很难找出一个优于Python性能的实现。这不是一件正常的事情,Python的性能注定不会优于C/C++,这是因为Python是解释执行的,解释的过程必然会消耗CPU时间,所以我查阅了Python的源码试图找出为何Python对于这个任务有如此好的性能的原因。
  任务描述如下
  对于一个78W行的文本文件,每一行是一个Email地址,文件中存在有重复的行,任务的要求是尽可能快的从这个文本文件生成一个无重复的Email的文本文件

一些相关的实现,可以参看这个地址  有如下的三个问题需要注意


  • 对于这种大量的字符串比较,直接使用字符串比较函数是严重妨碍性能的
  • IO性能是要注意的
  • 尽可能的少使用占用内存
  在我的尝试中,发现重复调用 ofstream::operator<< 是比较影响性能的,而使用 fprintf或使用copy 等 STL 算法输出到则性能好的多。使用一种好的Hash算法是影响程序性能的关键。任务中的EMail字符串总是具有[a-z]*[0-9]*@([a-z]*/.)+[a-z]* 的形式,例如 joson123@sina.com.cn joson72345@sina.com.cn 的格式。
  在$PySrc/Objects/dictobject.c 中,对Python的Hash机制作了一些描述,总的来说,Python的Hash机制对于这种连续型的字符串有相当好的离散度,对于这个 78W 例子,python_hash() % 780000能够很均匀的分散到各个值,最大的冲突数为 8。 以下是按照类似 Python的 Hash算法实现的 C++ 版本的结果

E:/Workspace/Temp/Email>my
经过了1687.5000毫秒
E:/Workspace/Temp/Email>my
经过了1718.7500毫秒
E:/Workspace/Temp/Email>my
经过了1671.8750毫秒
E:/Workspace/Temp/Email>my
经过了1656.2500毫秒
E:/Workspace/Temp/Email>py_email.py
2.82014641526
E:/Workspace/Temp/Email>py_email.py
2.74879181572
E:/Workspace/Temp/Email>py_email.py
2.76348586203
E:/Workspace/Temp/Email>dir *.txt
2006-03-28  13:09        19,388,869 email.txt
2006-03-29  22:51        17,779,266 email_new.txt (py_email.py 写出)
2006-03-29  22:50        17,779,266 email_new_my.txt (my.exe 写出)

py_email.py 的实现参看这里 my.cpp 实现如下 使用 cl /O2 /EHsc /D_CRT_SECURE_NO_DEPRECATE my.cpp 编译
#include <cstdio>
#include <windows.h>  
using namespace std;

#define c_mul(a, b) (a * b & 0xFFFFFFFF)
size_t python_hash(const char * str)
{
size_t value = str[0] << 7;
size_t len = 0;
while(*str != 0)
{
value = c_mul(1000003, value) ^ *str++;
len++;
}
value = value ^ len;
if (value == (size_t)-1)
value = (size_t)-2;
return value;
}
size_t hash(const char * str, size_t seed = 1)
{
size_t h = 0, g;  
size_t len = 0;
while (*str)
{  
h = (h << 4) + *str++;  
if ((g = (h & 0xF0000000))) {  
h = h ^ (g >> 24);  
h = h ^ g;  
h = h ^ seed;
}  
len++;
}  
return h;  
}

#define MAX_TABLE_SIZE (780000)
#define MAX_CONFI 9
struct hash_item
{
size_t items[MAX_CONFI];
size_t item_count;
hash_item()
{
item_count = 0;
}
bool check_has(const char * str)
{
size_t key = hash(str);
for(size_t i = 0; i < item_count; i++)
{
if (items == key)
return true;
}
items[item_count++] = key;
return false;
}
};

int main( void )
{
__int64 t1, t2;
GetSystemTimeAsFileTime( (LPFILETIME)&t1 );
FILE * fin = fopen("email.txt", "r");
FILE * fout = fopen("email_new_my.txt", "w+");
size_t hash_key_a = 0;
size_t hash_key_b = 0;
size_t pos_x = 0;
size_t pos_y = 0;
const char * buffer = NULL;
char line[255];
fgets(line, 255, fin);
hash_item * table = new hash_item[MAX_TABLE_SIZE];
while(!feof(fin))
{
buffer = line;
hash_key_a = python_hash(buffer);
pos_x = hash_key_a % MAX_TABLE_SIZE;
if (!table[pos_x].check_has(buffer))
fprintf(fout, "%s", buffer);
fgets(line, 255, fin);
}
GetSystemTimeAsFileTime( (LPFILETIME)&t2 );
printf( "经过了%I64d.%04I64d毫秒/n", (t2-t1)/10000, (t2-t1)%10000 );
fclose(fin);
fclose(fout);
delete [] table;
}

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-369053-1-1.html 上篇帖子: 过滤未知字符 python 下篇帖子: Python 扯淡的Map-Reduce
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表