mysql全文索引中文问题的解决（转）

ts2009 · 发表于 2018-10-2 07:32:42

　　MySQL从3.23.23开始就逐渐支持全文索引和搜寻。
　　全文索引就是建index，全文搜寻就是去查index。
　　LIKE是用Regular Expression去做查询。
　　MySQL全文索引是一种index type：FULLTEXT。
　　全文索引的index只能用在MyISAM表格的char、varchar和text的字段上。
　　全文索引的index可以在create table、alter table和create index时产生。
　　create table...
　　CREATE TABLE article (

　　>
　　>　　body TEXT,
　　FULLTEXT(title, body)
　　) TYPE=MYISAM;
　　alter table...
　　create index...
　　要倒大量的数据到有全文索引index的table速度会很慢，建议先拿掉全文索引index再倒数据，倒完后再加上全文索引index。
　　全文搜寻的语法：
　　MATCH (col1, col2,...) AGAINST (expr [search_modifier])
　　三种搜寻方式：
　　IN BOOLEAN MODE
　　IN NATURAL LANGUAGE MODE
　　IN NATURAL LANGUAGE MODE WITH QUERY EXPANSION / WITH QUERY EXPANSION
　　IN NATURAL LANGUAGE MODE
　　expr就是要搜寻的字符串。
　　没有特殊字符。
　　套用Stopwords。
　　剔除一半row以上都有的字，譬如说，每个row都有mysql这个字的话，那用mysql去查时，会找不到任何row，这在row的数量无敌多时很有用，因为把所有row都找出来是没有意义的，这时，mysql几乎被当作是stopword；但是当row只有两笔时，是啥鬼也查不出来的，因为每个字都出现50%以上，要避免这种状况，请用IN BOOLEAN MODE。
　　预设的搜寻方式。
　　SELECT *
　　FROM article
　　WHERE MATCH(title, body)
　　AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
　　预设搜寻是不分大小写，若要分大小写，columne的character set要从utf8改成utf8_bin。
　　预设MATCH...AGAINST是以相关性排序，由高到低。
　　MATCH...AGAINST可以跟所有MySQL语法搭配使用，像是JOIN或是加上其他过滤条件。
　　-- 第一种count
　　SELECT COUNT(*)
　　FROM article
　　WHERE MATCH(title, body)
　　AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
　　-- 第二种count
　　SELECT COUNT(IF(MATCH(title, body) AGAINST ('xxx' IN NATURAL LANGUAGE MODE), 1, NULL)) AS count
　　FROM article
　　当符合的笔数较多时，第一种count比较慢，因为MATCH...AGAINST会先依相关性排序。
　　当符合的笔数较少时，第二种count比较慢，因为第二种count会扫过所有数据。
　　MATCH(title, body)里的字段必须和FULLTEXT(title, body)里的字段一模一样，如果只要单查title或body一个字段，那得另外再建一个FULLTEXT(title)或FULLTEXT(body)，也因为如此，MATCH()的字段一定不能跨table，但是另外两种搜寻方式好像可以。

　　SELECT>　　FROM article;
　　这样可以取得相关值，而且也因为没有WHERE和ORDER BY，所以不会排序。

　　SELECT>　　FROM article
　　WHERE MATCH(title, body)
　　AGAINST ('xxx' IN NATURAL LANGUAGE MODE);
　　排序又取得相关性，虽然MATCH...AGAINST用了两次，但是MySQL知道这两个MATCH...AGAINST是一样的，所以只会用一次。

　　SELECT>　　FROM article
　　ORDER BY score desc;
　　为啥不这样用就好？
　　MySQL的FULLTEXT怎么断字：
　　字母、数字、底线的组合视为一个字，不会把底线断字。
　　会被断字的字符：空白、逗号（,）与点（.），但不用这些断字的语言，如中文，就得自行手动断字。
　　可以自行实做一个断字的外挂来取代内建的断字parser。
　　接受一个单引号，如aaa'bbb视为一个字，但是aaa''bbb就是两个字。
　　前缀或字尾的单引号会被去掉，如'aaa或aaa'。
　　全文搜寻时，stopword与少于四个字符的字符串会被忽略。
　　可以覆写内建的stopword清单。
　　可以修改最少四个字符的设定。
　　IN BOOLEAN MODE
　　expr里有特殊字符辅助特殊的搜寻语法。
　　SELECT *
　　FROM article
　　WHERE MATCH(title, body)
　　AGAINST ('+mysql -yoursql' IN BOOLEAN MODE);
　　一定要有msysql，且不要有yoursql。
　　IN BOOLEAN MODE的特色：
　　不剔除50%以上符合的row。
　　不自动以相关性反向排序。
　　可以对没有FULLTEXT index的字段进行搜寻，但会非常慢。
　　限制最长与最短的字符串。
　　套用Stopwords。
　　搜寻语法：
　　+：一定要有。
　　-：不可以有，但这个「不可以有」指的是在符合的row里不可以有指定的字符串，所以不能只下「-yoursql」这样是查不到任何row的，必须搭配其他语法使用。
　　：（什么都没）预设用法，表示可有可无，有的话排比较前面，没有的排后面。
　　>：提高该字的相关性。
　　bbb SHOW VARIABLES LIKE 'ft%';
　　ft_boolean_syntax + -> REPAIR TABLE tbl_name QUICK;
　　要注意如果用过myisamchk，会导致上述的设定值回复成默认值，因为myisamchk不是用MySQL的设定值。
　　解法一：将修改过得设定值加到myisamchk的参数里。
　　shell> myisamchk --recover --ft_min_word_len=1 tbl_name.MYI
　　解法二：两边都要设定。
　　[mysqld]
　　ft_min_word_len=1
　　[myisamchk]
　　ft_min_word_len=1
　　解法三：用REPAIR TABLE、ANALYZE TABLE、OPTIMIZE TABLE与ALTER TABLE取代myisamchk语法，因为这些语法是由MySQL执行的。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] mysql全文索引中文问题的解决（转）

浏览过的版块

扫码加入运维网微信交流群