设为首页 收藏本站
查看: 1481|回复: 0

[经验分享] PHP 抽取网页标题并剔除不相关的seo关键字

[复制链接]

尚未签到

发表于 2017-4-13 13:04:56 | 显示全部楼层 |阅读模式
场景描述:
  过往我们在抽取网页标题的时候,都会直接抽取 之间的内容. 但实际情况是这样,例如javaeye 的一篇文章 http://www.iteye.com/news/21643 ,  的内容为 "10年软件开发教会我最重要的10件事 - 非技术 - ITeye资讯", 但实际引用中我们期望的标题应该为 "10年软件开发教会我最重要的10件事". 所以标题后面堆砌了很多不相关的关键字(应该是为了  seo 吧). 所以我们希望过滤掉这些关键字. 有下面的方法可以参考:

1. 查找 h1 等标签.(分析sina news 一些网站之后, 觉得不可行,会有很多干扰)
2. 从全文去标题后,将 之间的内容切割(按 _ | -)为 a1,a2,a3,a4,然后从最长的词组a3开始从全文查找. 如果查找成功,那么开始向左边迭代查询 a2,a1,直到查询失败为止 。左侧失败后,再继续向右迭代,同理. (这里我采用的是这种方法)


<?php
/**
* @author pqcc <struts.ec@mgail.com>
* @date: 2011-06-18
* Description: 给定一个网页内容,提取网页的标题. 提取的标题不包括 seo 关键字.
* e.g: 一篇新闻标题的从<title>直接抽取结果为 "大学英语四六级本周六开考 909万人参考_新浪教育_新浪网",
*       但我们希望的结果是:"大学英语四六级本周六开考 909万人参考".
* 适用范围:  文章最终页标题的提取, 不包括专题页等.
*/
class TitlePurify{
private $matches_preg = '[-_\s|—]';
function getTitle($contents){/*{{{*/
$preg = "/<title[^>]*>([\w|\t|\r|\W]*?)<\/title>/i";
preg_match($preg, $contents, $matches);
if(count($matches)<=1){
return "标题抽取失败";
}
$title = $matches[1];
return $this->trimTitle($title, $contents);
}/*}}}*/
function trimMeta($contents){/*{{{*/
// 首先去除 <title> 内容, <meta> 内容.
$preg       = "/<title[^>]*>([\w|\t|\r|\W]*?)<\/title>/i";
$contents   = preg_replace($preg, '', $contents);
$preg       = "/<meta[^>]*>/i";
$contents   = preg_replace($preg, '', $contents);
return $contents;
}/*}}}*/

// 获取长度最长的 item 所处的index.
function getMaxIndex($titles){/*{{{*/
$maxItemIndex   = 0;
$maxLength      = 0;
$loop           = 0;
foreach($titles as $item){
if(strlen($item)>$maxLength){
$maxLength      = strlen($item);
$maxItemIndex   = $loop;
}        
$loop++;
}
return $maxItemIndex;
}/*}}}*/
function trim($title, $titles, $contents, $maxItemIndex){/*{{{*/
//@todo : 此处可优化contents
// 如果查找成功. result = tempTitle.
$tempTitle  = $titles[$maxItemIndex];
$result     = $tempTitle;
$count      = count($titles);
// while 从当前index 向左进行迭代(直到到达第一个或者匹配失败才中止).
$leftIndex  = $maxItemIndex-1;
while(true && $leftIndex>=0){
// tempTitle+左一个.
preg_match("/({$this->matches_preg}+{$tempTitle})/i", $title, $matches);
if(count($matches)>1){
// temp 用于匹配失败后,进行回滚.
$temp       = $titles[$leftIndex] . $matches[1];
$tempTitle  = $titles[$leftIndex] . $matches[1];
// 继续拿着 tempTitle 去匹配.
preg_match("/$tempTitle/i", $contents, $matches);
// 如果查找失败....
if(count($matches)<1){
$tempTitle = $temp;
break;
}else{
$result = $tempTitle;
}
}else{ // 正常情况下, 不会出现该情况.
break;
}
$leftIndex--;
}
// match(current[i-1].[|-].tempTitle), 如果成功, tempTitle = match 成功的值,继续.
// while 左边失败后, 从右边开始.
$rightIndex = $maxItemIndex+1;
while(true && ($rightIndex<=$count)){
preg_match("/({$tempTitle}{$this->matches_preg}+)/i", $title, $matches);
if(count($matches)>1){
// temp 用于匹配失败后,进行回滚.
$temp       =  $matches[1] . $titles[$rightIndex];
$tempTitle  =  $matches[1] . $titles[$rightIndex];
// 继续拿着 tempTitle 去匹配.
preg_match("/$tempTitle/i", $contents, $matches);
// 如果查找失败....
if(count($matches)<1){
$tempTitle = $temp;
break;
}else{
$result = $tempTitle;
}
}else{ // 正常情况下, 不会出现该情况.
break;
}
$rightIndex++;
}
return $result;
}/*}}}*/
function trimTitle($title, $contents){/*{{{*/
$contents = $this->trimMeta($contents);   
// 配置切割标题的规则.
$titles = preg_split("/$this->matches_preg/i", $title);
$count          = count($titles);
//var_dump($titles);exit;
// 将当前最长的 item 从全文查找.
$maxItemIndex = $this->getMaxIndex($titles);
$tempTitle   = $titles[$maxItemIndex];
preg_match("/$tempTitle/i", $contents, $matches);
// 如果查找失败....
if(count($matches)<1){
return $title;
}
return $this->trim($title, $titles, $contents, $maxItemIndex);
}/*}}}*/
}
// -------------   test code ------------------------------
function convertEncoding($contents){
preg_match("/charset=([\w|\-]+);?/i", $contents, $match);
$charset = isset($match[1])? $match[1] : 'UTF-8';
$contents = mb_convert_encoding($contents, 'UTF-8', $charset);
return $contents;
}
$url = 'http://china.nba.com/news/4/2011/0617/61383331/10451.html';
$contents = file_get_contents($url);
$contents = convertEncoding($contents);
$startTime  = microtime();
$purify     = new TitlePurify();
$title      = $purify->getTitle($contents);
$endTime    = microtime();
echo "标题:        $title ";
echo "cost: " . ($endTime-$startTime);
?>

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-364528-1-1.html 上篇帖子: php生成SessionID和图片校验码的思路和实现 下篇帖子: PHP应用客户端传复杂参数,JSON vs jQuery.param
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表