设为首页 收藏本站
查看: 571|回复: 0

[经验分享] mysql全文索引中文问题的解决(转)

[复制链接]

尚未签到

发表于 2018-10-2 07:32:42 | 显示全部楼层 |阅读模式
  MySQL从3.23.23开始就逐渐支持全文索引和搜寻。
  全文索引就是建index,全文搜寻就是去查index。
  LIKE是用Regular Expression去做查询。
  MySQL全文索引是一种index type:FULLTEXT。
  全文索引的index只能用在MyISAM表格的char、varchar和text的字段上。
  全文索引的index可以在create table、alter table和create index时产生。
  create table...
  CREATE TABLE article (

  >
  >  body TEXT,
  FULLTEXT(title, body)
  ) TYPE=MYISAM;
  alter table...
  create index...
  要倒大量的数据到有全文索引index的table速度会很慢,建议先拿掉全文索引index再倒数据,倒完后再加上全文索引index。
  全文搜寻的语法:
  MATCH (col1, col2,...) AGAINST (expr [search_modifier])
  三种搜寻方式:
  IN BOOLEAN MODE
  IN NATURAL LANGUAGE MODE
  IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION / WITH QUERY EXPANSION
  IN NATURAL LANGUAGE MODE
  expr就是要搜寻的字符串。
  没有特殊字符。
  套用Stopwords。
  剔除一半row以上都有的字,譬如说,每个row都有mysql这个字的话,那用mysql去查时,会找不到任何row,这在row的数量无敌多时很有用,因为把所有row都找出来是没有意义的,这时,mysql几乎被当作是stopword;但是当row只有两笔时,是啥鬼也查不出来的,因为每个字都出现50%以上,要避免这种状况,请用IN BOOLEAN MODE。
  预设的搜寻方式。
  SELECT *
  FROM article
  WHERE MATCH(title, body)
  AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
  预设搜寻是不分大小写,若要分大小写,columne的character set要从utf8改成utf8_bin。
  预设MATCH...AGAINST是以相关性排序,由高到低。
  MATCH...AGAINST可以跟所有MySQL语法搭配使用,像是JOIN或是加上其他过滤条件。
  -- 第一种count
  SELECT COUNT(*)
  FROM article
  WHERE MATCH(title, body)
  AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
  -- 第二种count
  SELECT COUNT(IF(MATCH(title, body) AGAINST ('xxx' IN NATURAL LANGUAGE MODE), 1, NULL)) AS count
  FROM article
  当符合的笔数较多时,第一种count比较慢,因为MATCH...AGAINST会先依相关性排序。
  当符合的笔数较少时,第二种count比较慢,因为第二种count会扫过所有数据。
  MATCH(title, body)里的字段必须和FULLTEXT(title, body)里的字段一模一样,如果只要单查title或body一个字段,那得另外再建一个FULLTEXT(title)或FULLTEXT(body),也因为如此,MATCH()的字段一定不能跨table,但是另外两种搜寻方式好像可以。

  SELECT>  FROM article;
  这样可以取得相关值,而且也因为没有WHERE和ORDER BY,所以不会排序。

  SELECT>  FROM article
  WHERE MATCH(title, body)
  AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
  排序又取得相关性,虽然MATCH...AGAINST用了两次,但是MySQL知道这两个MATCH...AGAINST是一样的,所以只会用一次。

  SELECT>  FROM article
  ORDER BY score desc;
  为啥不这样用就好?
  MySQL的FULLTEXT怎么断字:
  字母、数字、底线的组合视为一个字,不会把底线断字。
  会被断字的字符:空白、逗号(,)与点(.),但不用这些断字的语言,如中文,就得自行手动断字。
  可以自行实做一个断字的外挂来取代内建的断字parser。
  接受一个单引号,如aaa'bbb视为一个字,但是aaa''bbb就是两个字。
  前缀或字尾的单引号会被去掉,如'aaa或aaa'。
  全文搜寻时,stopword与少于四个字符的字符串会被忽略。
  可以覆写内建的stopword清单。
  可以修改最少四个字符的设定。
  IN BOOLEAN MODE
  expr里有特殊字符辅助特殊的搜寻语法。
  SELECT *
  FROM article
  WHERE MATCH(title, body)
  AGAINST ('+mysql -yoursql' IN BOOLEAN MODE);
  一定要有msysql,且不要有yoursql。
  IN BOOLEAN MODE的特色:
  不剔除50%以上符合的row。
  不自动以相关性反向排序。
  可以对没有FULLTEXT index的字段进行搜寻,但会非常慢。
  限制最长与最短的字符串。
  套用Stopwords。
  搜寻语法:
  +:一定要有。
  -:不可以有,但这个「不可以有」指的是在符合的row里不可以有指定的字符串,所以不能只下「-yoursql」这样是查不到任何row的,必须搭配其他语法使用。
  :(什么都没)预设用法,表示可有可无,有的话排比较前面,没有的排后面。
  >:提高该字的相关性。
  bbb  SHOW VARIABLES LIKE 'ft%';
  ft_boolean_syntax    + -> REPAIR TABLE tbl_name QUICK;
  要注意如果用过myisamchk,会导致上述的设定值回复成默认值,因为myisamchk不是用MySQL的设定值。
  解法一:将修改过得设定值加到myisamchk的参数里。
  shell> myisamchk --recover --ft_min_word_len=1 tbl_name.MYI
  解法二:两边都要设定。
  [mysqld]
  ft_min_word_len=1
  [myisamchk]
  ft_min_word_len=1
  解法三:用REPAIR TABLE、ANALYZE TABLE、OPTIMIZE TABLE与ALTER TABLE取代myisamchk语法,因为这些语法是由MySQL执行的。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-607322-1-1.html 上篇帖子: 使用 ibdata 和 frm 文件恢复 MySQL 数据库 下篇帖子: JDBC操作MySQL(crud)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表