设为首页 收藏本站
查看: 785|回复: 0

[经验分享] 【代码】PHP 分析函数similar_text()的原理

[复制链接]

尚未签到

发表于 2017-4-7 09:02:03 | 显示全部楼层 |阅读模式
PHP有个计算两个字符串相似度的函数similar_text(),可以得出一个百分比来表示两个字符串的相似程度。效果如下:


1
similar_text('aaaa', 'aaaa', $percent);
2
var_dump($percent);
3
//float(100)
4
similar_text('aaaa', 'aaaabbbb', $percent);
5
var_dump($percent);
6
//float(66.666666666667)
7
similar_text('abcdef', 'aabcdefg', $percent);
8
var_dump($percent);
9
//float(85.714285714286)



利用这个函数,可以用来做模糊搜索的功能,或者其他需要模糊匹配的功能。最近我在验证码识别研究中的特征匹配一步上涉及到了这个函数。



但这个函数具体使用了怎样的算法呢?我研究了他的底层实现,总结为三步:



(1)找出两个字符串中相同部分最长的一段;

(2)再用同样的方法在剩下的两段中分别找出相同部分最长的一段,以此类推,直到没有任何相同部分;

(3)相似度 = 所有相同部分的长度之和 * 2 / 两个字符串的长度之和;



我研究的源代码版本是PHP 5.4.6,相关的代码位于文件php-5.4.6/ext/standard/string.c的第2951~3031行。以下是我加过注释后源代码。

01
//找出两个字符串中相同部分最长的一段
02
static void php_similar_str(const char *txt1, int len1, const char *txt2, int len2, int *pos1, int *pos2, int *max)
03
{
04
char *p, *q;
05
char *end1 = (char *) txt1 + len1;
06
char *end2 = (char *) txt2 + len2;
07
int l;
08
09
*max = 0;
10
//以第一个字符串为基准开始遍历
11
for (p = (char *) txt1; p < end1; p++) {
12
//遍历第二个字符串
13
for (q = (char *) txt2; q < end2; q++) {
14
//发现有字符相同,继续循环找,l为相同部分的长度
15
for (l = 0; (p + l < end1) && (q + l < end2) && (p[l] == q[l]); l++);
16
//冒泡方法找出最长的一个l,并记住相同部分的开始位置
17
if (l > *max) {
18
*max = l;
19
*pos1 = p - txt1;
20
*pos2 = q - txt2;
21
}
22
}
23
}
24
}
25
26
//计算两个字符串的相同部分的总长度
27
static int php_similar_char(const char *txt1, int len1, const char *txt2, int len2)
28
{
29
int sum;
30
int pos1, pos2, max;
31
32
//找出两个字符串相同部分最长的一段
33
php_similar_str(txt1, len1, txt2, len2, &pos1, &pos2, &max);
34
//这里是对sum的初始赋值,也是对max值的判断
35
//如果max为零,表示两个字符串没有任何相同的字符,也就会跳出if
36
if ((sum = max)) {
37
//对前半段递归,相同段长度累加
38
if (pos1 && pos2) {
39
sum += php_similar_char(txt1, pos1,
40
txt2, pos2);
41
}
42
//对后半段递归,相同段长度累加
43
if ((pos1 + max < len1) && (pos2 + max < len2)) {
44
sum += php_similar_char(txt1 + pos1 + max, len1 - pos1 - max,
45
txt2 + pos2 + max, len2 - pos2 - max);
46
}
47
}
48
49
return sum;
50
}
51
52
//PHP函数定义
53
PHP_FUNCTION(similar_text)
54
{
55
char *t1, *t2;
56
zval **percent = NULL;
57
int ac = ZEND_NUM_ARGS();
58
int sim;
59
int t1_len, t2_len;
60
61
//检查参数合法性
62
if (zend_parse_parameters(ZEND_NUM_ARGS() TSRMLS_CC, "ss|Z", &t1, &t1_len, &t2, &t2_len, &percent) == FAILURE) {
63
return;
64
}
65
66
//如果有第三个参数
67
if (ac > 2) {
68
convert_to_double_ex(percent);
69
}
70
71
//如果两个字符串长度都为0,返回0
72
if (t1_len + t2_len == 0) {
73
if (ac > 2) {
74
Z_DVAL_PP(percent) = 0;
75
}
76
77
RETURN_LONG(0);
78
}
79
80
//调用上面的函数,计算两个字符串的相似度
81
sim = php_similar_char(t1, t1_len, t2, t2_len);
82
83
//可以看到percent的计算公式
84
if (ac > 2) {
85
Z_DVAL_PP(percent) = sim * 200.0 / (t1_len + t2_len);
86
}
87
88
RETURN_LONG(sim);
89
}


  另外,PHP还提供了另外一个计算字符串相似度的函数levenshtein(),通过计算两个字符串的编辑距离来表示字符串相似度,这也是一种很常见的算法。levenshtein()的性能相比similar_text()要好一些,因为通过前面的代码分析可以看到,similar_text()的复杂度是O(n^3),n表示最长字符串的长度,而levenshtein()的复杂度为O(m*n),m与n分别为两个字符串的长度。
  

  以上是本文关于PHP 分析函数similar_text()的原理,希望本文对广大php开发者有所帮助,感谢阅读本文。更多有关php技术问题欢迎加群探讨:304224365 ,验证码:csl,不写验证不予通过。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-361281-1-1.html 上篇帖子: PHP中Push(推送)技术的探讨 (转载) 下篇帖子: php实现六种常见的排序算法
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表