设为首页 收藏本站
查看: 803|回复: 0

[经验分享] [转]一个用php写的中文分词类

[复制链接]

尚未签到

发表于 2017-4-10 09:19:09 | 显示全部楼层 |阅读模式
  
一个用php写的中文分词类


  • <?php
  • classSegmentation{
  • var$options=array('lowercase'=>TRUE,
  • 'segment_english'=>FALSE);
  • var$dict_name='Unknown';
  • var$dict_words=array();
  • functionsetLowercase($value){
  • if($value){
  • $this->options['lowercase']=TRUE;
  • }else{
  • $this->options['lowercase']=FALSE;
  • }
  • returnTRUE;
  • }
  • functionsetSegmentEnglish($value){
  • if($value){
  • $this->options['segment_english']=TRUE;
  • }else{
  • $this->options['segment_english']=FALSE;
  • }
  • returnTRUE;
  • }
  • functionload($dict_file){
  • if(!file_exists($dict_file)){
  • returnFALSE;
  • }
  • $fp=fopen($dict_file,'r');
  • $temp=fgets($fp,1024);
  • if($temp===FALSE){
  • returnFALSE;
  • }else{
  • if(strpos($temp,"\t")!==FALSE){
  • list($dict_type,$dict_name)=explode("\t",trim($temp));
  • }else{
  • $dict_type=trim($temp);
  • $dict_name='Unknown';
  • }
  • $this->dict_name=$dict_name;
  • if($dict_type!=='DICT_WORD_W'){
  • returnFALSE;
  • }
  • }
  • while(!feof($fp)){
  • $this->dict_words[rtrim(fgets($fp,32))]=1;
  • }
  • fclose($fp);
  • returnTRUE;
  • }
  • functiongetDictName(){
  • return$this->dict_name;
  • }
  • functionsegmentString($str){
  • if(count($this->dict_words)===0){
  • returnFALSE;
  • }
  • $lines=explode("\n",$str);
  • return$this->_segmentLines($lines);
  • }
  • functionsegmentFile($filename){
  • if(count($this->dict_words)===0){
  • returnFALSE;
  • }
  • $lines=file($filename);
  • return$this->_segmentLines($lines);
  • }
  • function_segmentLines($lines){
  • $contents_segmented='';
  • foreach($linesas$line){
  • $contents_segmented.=$this->_segmentLine(rtrim($line))."\n";
  • }
  • do{
  • $contents_segmented=str_replace('','',$contents_segmented);
  • }while(strpos($contents_segmented,'')!==FALSE);
  • return$contents_segmented;
  • }
  • function_segmentLine($str){
  • $str_final='';
  • $str_array=array();
  • $str_length=strlen($str);
  • if($str_length>0){
  • if(ord($str{$str_length-1})>=129){
  • $str.='';
  • }
  • }
  • for($i=0;$i<$str_length;$i++){
  • if(ord($str{$i})>=129){
  • $str_array[]=$str{$i}.$str{$i+1};
  • $i++;
  • }else{
  • $str_tmp=$str{$i};
  • for($j=$i+1;$j<$str_length;$j++){
  • if(ord($str{$j})<129){
  • $str_tmp.=$str{$j};
  • }else{
  • break;
  • }
  • }
  • $str_array[]=array($str_tmp);
  • $i=$j-1;
  • }
  • }

  • $pos=count($str_array);
  • while($pos>0){
  • $char=$str_array[$pos-1];
  • if(is_array($char)){
  • $str_final_tmp=$char[0];
  • if($this->options['segment_english']){
  • $str_final_tmp=preg_replace("/([\!\"\#\$\%\&\'\(\)\*\+\,\-\.\/\:\;\<\=\>\?\@\[\\\\\]\^\_\`\{\|\}\~\t\f]+)/","$1",$str_final_tmp);
  • $str_final_tmp=preg_replace("/([\!\"\#\$\%\&\'\(\)\*\+\,\-\.\/\:\;\<\=\>\?\@\[\\\\\]\^\_\`\{\|\}\~\t\f])([\!\"\#\$\%\&\'\(\)\*\+\,\-\.\/\:\;\<\=\>\?\@\[\\\\\]\^\_\`\{\|\}\~\t\f])/","$1$2",$str_final_tmp);
  • }
  • if($this->options['lowercase']){
  • $str_final_tmp=strtolower($str_final_tmp);
  • }
  • $str_final="$str_final_tmp$str_final";
  • $pos--;
  • }else{
  • $word_found=0;
  • $word_array=array(0=>'');
  • if($pos<4){
  • $word_temp=$pos+1;
  • }else{
  • $word_temp=5;
  • }
  • for($i=1;$i<$word_temp;$i++){
  • $word_array[$i]=$str_array[$pos-$i].$word_array[$i-1];
  • }

  • for($i=($word_temp-1);$i>1;$i--){

  • if(array_key_exists($word_array[$i],$this->dict_words)){
  • $word_found=$i;
  • break;
  • }
  • }
  • if($word_found){
  • $str_final="$word_array[$word_found]$str_final";
  • $pos=$pos-$word_found;
  • }else{
  • $str_final="$char$str_final";
  • $pos--;
  • }
  • }
  • }
  • return$str_final;
  • }
  • }
  • ?>
  来源参考:
http://www.phpchina.cn/code/2006/0607/381.html
http://www.xuchao.cn/?play=reply&id=851

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-362706-1-1.html 上篇帖子: PHP正则表达式的使用--去掉非打印字符 下篇帖子: PHP字符串单字节操作——substr真的好慢
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表