MySQL-5.1.11~12 全文检索分词插件

[b][size=3][color=black]概要及说明[/color][/size][/b]

经过不停的尝试和努力,以当时最新的 mysql 5.1.11-beta 为基础,制作的分词插件已经测试成功,现在发布如下。

mysql 5.1.x 本身的架构作了修改,所以增加分词直接以插件形式方式作就可以了,为了其中的 SEGMENT() 作为 UDF 来开发,但MySQL 本身的缺陷设计导致了自定义函数无法捕获参数的 charset info,于是为了“完美”起见,我还是对其中几个核心文件稍作了改动(不影响MYSQL的其它任何功能和架构)。

使用这个插件的效果是您可以在 MySQL 5.1.x 的 MyISAM 表中建立支持中文分词的全文索引,这个分词算法非常简单,基本上就是一个正向最大匹配法。特别要提醒的是 MySQL 5.1.13 及后续版本改动很大,该补丁可能无法直接使用,请注意。
[list][*]纯补丁安装包下载:[color=#800080][url=http://www.hightman.cn/down/ft-hightman-M5-0.1.tgz]http://www.hightman.cn/down/ft-hightman-M5-0.1.tgz[/url][/color] (17KB, 无词典)[*]完整安装文件下载:[color=#0000ff][url=http://www.hightman.cn/down/mysql-5.1.11-hi1.tgz]http://www.hightman.cn/down/mysql-5.1.11-hi1.tgz[/url][/color] (22MB, 无词典)[*]附加的词典档下载:[url=http://www.hightman.cn/down/wordlist-all.tgz]http://www.hightman.cn/down/wordlist-all.tgz[/url] (3.4MB 含utf8,gbk,big5)[/list][size=3][b]安装及使用方法[/b][/size]

这是一个简单的分词插件, 包括一个 FTPARSER, 和 1个 SEGMENT() 函数. (注: 以下示例中的 x 表示某个具体的版本号):
1. 下载取得文件包:
wget [color=#800080][url=http://www.hightman.cn/down/ft-hightman-M5-0.1.tgz]http://www.hightman.cn/down/ft-hightman-M5-0.1.tgz[/url][/color]
[color=#800080][/color]
2. 解压文件包
tar xvzf ft-hightman-M5-0.x.tgz
解压后您大概看到以下文件列表
ft-hightman-M5-0.x.patch
ft_hightman/

3. 将 ft_hightman/ 整个目录移入, mysql-5.1.x/plugin/ 目录

4. 将 ft-hightman-M5-0.x.patch 拷入 mysql-5.1.x/ 目录

5. 进入 mysql-5.1.x/ 目录, 运行下面命令针对旧文件打补丁
patch -p1 < ft-hightman-M5-0.x.patch 6. 仍在源码目录中, 依次运行如下命令 aclocal automake autoconf 7. 命令执行可能有点慢, 请耐心等待, 如有错误或警告请忽略它... 8. 按原先的方法编译、安装 mysql 5.x 9. 在编译时请增加: --with-plugins=fthightman 来开启该插件 ./configure --prefix=/home/soft/mysql5 --with-charset=gbk --with-extra-charsets=all --with-plugins=fthightman make make install 10. 编译完后准备启动程序, 请在 $prefix/share/mysql 目录下建立要用的词典文件: utf8 字符集对应的词典: wordlist-utf8.txt 和 stopwords-utf8.txt gbk/gb2312 对应的词典: wordlist-gbk.txt 和 stopwords-gbk.txt big5 字符集对应的词典: wordlist-big5.txt 和 stopwords-big5.txt 其它字符集请适当修改 plugin/ft_hightman/hightman_parser.c 中关于 wordlist[] 的定义 其中 wordlist-xxx.txt 的格式为每行一个词条信息, 由词和词频组成, 词与词频之间用\t或空格分开 而 stopwords-xxx.txt 是停用不作索引的词表, 则不需词频, 每行一个词. 提示: 如果您的数据库只用其中一种编码的话, 那么 utf8,gbk,big5只需要其中一种, 插件会根据当前的校正字符集(字段级)来采用相应的词典.... [b][color=#ff0000]特别提醒,如果您的mysql5安装在自定义目录, 请在启动 mysql 前或脚本里加上以下句话: ($prefix为安装目录,请勿照抄!!) export LD_LIBRARY_PATH=$prefix/lib/mysql[/color][/b] 11. 用命令行方式进入 MySQL 界面, 执行如下命令安装插件: INSTALL PLUGIN fthightman SONAME 'myhightman.so'; 12. 命行建立函数 CREATE FUNCTION segment RETURNS STRING SONAME 'myhightman.so'; 13. 测试简单的 SEGMENT() 看看: SET NAMES 'gbk'; SELECT SEGMENT('I am hightman,我是一个中国人') AS result; SET NAMES 'utf8'; SELECT SEGMENT('I am hightman,鎴戞槸涓€涓?腑鍥戒汉') AS result; 14. 假设服务器字符集是 GBK, 这里我们测试 1个表, 以 UTF-8 字符集建表,同样可以试着改用 gbk 字符集建表看看效果 CREATE TABLE `test_utf8` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `title` varchar(200) DEFAULT NULL, `body` mediumtext, PRIMARY KEY (`id`), FULLTEXT KEY `ft_utf8` (`title`,`body`) [b][color=#ff0000]WITH PARSER fthightman[/color][/b] ) ENGINE=MyISAM DEFAULT CHARSET=utf8; INSERT INTO `test_utf8` VALUES (1, 'MySQL Tutorial', 'DBMS stands for DataBase ...'); INSERT INTO `test_utf8` VALUES (2, 'How To Use MySQL Efficiently', 'After you went through a ...'); INSERT INTO `test_utf8` VALUES (3, 'Optimising MySQL', 'In this tutorial we will show ...'); INSERT INTO `test_utf8` VALUES (4, '1001 MySQL Tricks', '1. Never run mysqld as root. 2. ...'); INSERT INTO `test_utf8` VALUES (5, 'MySQL vs. YourSQL', 'In the following database comparison ...'); INSERT INTO `test_utf8` VALUES (6, 'MySQL Security', 'When configured properly, MySQL ...'); INSERT INTO `test_utf8` VALUES (7, '中国测试', '这样可以吗'); INSERT INTO `test_utf8` VALUES (8, '疯狂测中国测试', '这样总应该可以吗'); INSERT INTO `test_utf8` VALUES (9, '中国语言测试', '这样又是行不行呢'); INSERT INTO `test_utf8` VALUES (10, '我爱china', 'china是我的祖国'); SELECT * FROM test_utf8 WHERE MATCH(title,body) AGAINST ('中国'); SELECT * FROM test_utf8 WHERE MATCH(title,body) AGAINST ('+中国 -疯狂' IN BOOLEAN MODE); SELECT SEGMENT(title) FROM test_utf8;

MySQL-5.1.11~12 全文检索分词插件》上有21条评论

  1. netbull

    安装时存在以下问题:
    mysql> INSTALL PLUGIN fthightman SONAME ‘myhightman.so’;
    ERROR 1062 (23000): Duplicate entry ‘fthightman’ for key ‘PRIMARY’
    mysql> CREATE FUNCTION segment RETURNS STRING SONAME ‘myhightman.so’;
    ERROR 1125 (HY000): Function ‘segment’ already exists
    mysql> CREATE TABLE `test_utf8` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `title` varchar(200) DEFAULT NULL, `body` mediumtext, PRIMARY KEY (`id`), FULLTEXT KEY `ft_utf8` (`title`,`body`) WITH PARSER fthightman ) ENGINE=MyISAM DEFAULT CHARSET=utf8;
    ERROR 1128 (HY000): Function ‘fthightman’ is not defined
    mysql>
    另:
    特别提醒,如果您的mysql5安装在自定义目录, 请在启动 mysql 前或脚本里加上以下句话: ($prefix为安装目录,请勿照抄!!)
    export LD_LIBRARY_PATH=$prefix/lib/mysql
    启动 mysql 前的脚本具体是那个,我在mysqld_safe中加的export LD_LIBRARY_PATH=/usr/local/mysql5/lib/mysql
    对下载的mysql-5.1.11-hi1.tgz编译后在=/usr/local/mysql5/下没有发现mysql.server,这是扎回事?请指点

    回复
  2. bergdog

    具体错误:
    我用mysql.server启动失败,然后我直接用/usr/local/bin/mysqld_safe –user=root启动,报错,错误如下:
    [root@rdtest-1 bin]# mysqld_safe –user=root
    touch: creating `/usr/local/var/rdtest-1.err’: No such file or directory
    chown: failed to get attributes of `/usr/local/var/rdtest-1.err’: No such file or directory
    Starting mysqld daemon with databases from /usr/local/var
    /usr/local/bin/mysqld_safe: line 401: /usr/local/var/rdtest-1.err: No such file or directory
    /usr/local/bin/mysqld_safe: line 1: /usr/local/var/rdtest-1.err: No such file or directory
    STOPPING server from pid file /usr/local/var/rdtest-1.pid
    tee: /usr/local/var/rdtest-1.err: No such file or directory
    070703 13:53:16 mysqld ended
    tee: /usr/local/var/rdtest-1.err: No such file or directory

    回复
  3. bergdog

    弱弱的问一句,这个版本还需要配置以下信息吗?
    ft_wordlist_charset = utf8
    ft_wordlist_file = /usr/local/share/mysql/wordlist-gbk.txt
    ft_stopword_file = /usr/local/share/mysql/stopwords-gbk.txt
    ft_min_word_len = 2
    ft_nlq_match_percent = 80
    ft_nlq_match_maxnum = 5000
    当我不配置这些信息的时候mysql能够正常启动,但是如果我将这些信息加入到[mysqld]中,Mysql就无法正常启动,报错如下:
    [ERROR] /usr/local/libexec/mysqld: unknown variable ‘ft_wordlist_charset=utf8’

    回复
  4. atlascn

    我进行到./configure –prefix=/usr/local/mysql/ –with-charset=gbk –with-extra-charsets=all –with-plugins=fthightman这步时报错,报错信息是:
    configure: error: unknown plugin: fthightman,
    前面的步骤都没出错,是正常进行的,请问是什么原因呢?我mysql版本是mysql-5.1.12-beta。

    回复
  5. laohoo

    晕死.今天又出问题了

    我configure.make.make install都没问题.

    到这一步就不行了.郁闷

    mysql> INSTALL PLUGIN fthightman SONAME ‘myhightman.so’;
    ERROR 2013 (HY000): Lost connection to MySQL server during query

    mysql> show databases;
    ERROR 2006 (HY000): MySQL server has gone away
    No connection. Trying to reconnect…
    Connection id: 2
    Current database: *** NONE ***
    +——————–+
    | Database |
    +——————–+
    | information_schema |
    | cluster |
    | mysql |
    | test |
    +——————–+
    4 rows in set (0.17 sec)
    mysql>

    好像执行这一步时就把MYSQL执行死掉了

    [[i] 本帖最后由 laohoo 于 2007-7-11 01:53 编辑 [/i]]

    回复
  6. atlascn

    1、 # cd /usr/soft
    2、 # tar xvzf mysql-5.1.11-hi1.tgz
    3、 # mv mysql-5.1.11-hi1 mysqlsource
    4、 # cd mysqlsource
    5、 # aclocal
    6、 # automake
    7、 # autoconf
    8、 # ./configure –prefix=/usr/local/mysql –with-charset=gbk –with-extra-charsets=all –with-plugins=fthightman
    9、 # make
    10、# make install

    11、# cp support-files/my-luge.cnf /etc/my.cnf
    12、# cd /usr/local/mysql
    13、# bin/mysql_install_db –user=mysql
    14、# chown -R root .
    15、# chown -R mysql var
    16、# chgrp -R mysql .
    (此时可用/usr/local/mysql/bin/mysqld_safe –user=mysql & 来启动mysql,停止用:bin/mysqladmin shutdown)

    17、# cd /usr/soft
    18、# tar xvzf wordlist-all.tgz
    19、# cd wordlist
    20、# cp *.* /usr/local/mysql/share/mysql/

    21、编辑/usr/local/mysql/share/mysql/mysql.server文件,在export PATH后加
    export LD_LIBRARY_PATH=/usr/local/mysql/lib/mysql

    22、cp /usr/local/mysql/share/mysql/mysql.server /etc/init.d/mysql
    23、chmod +x /etc/init.d/mysql
    24、chkconfig –add mysql (此时可以用 /etc/init.d/mysql start|stop 来停止启动mysql)

    25、/etc/init.d/mysql start
    24、# /usr/local/mysql/bin/mysql

    25、mysql>SET PASSWORD FOR ‘root’@’localhost’ = PASSWORD(‘newpwd’);
    26、mysql>SET PASSWORD FOR ‘root’@’localhost.localdomain’ = PASSWORD(‘newpwd’);
    27、mysql>delete from mysql.user where user=”;
    27、mysql>flush privileges;

    28、# /etc/init.d/mysql stop
    29、# /etc/init.d/mysql start
    30、# bin/mysql -u root -p

    25、mysql> INSTALL PLUGIN fthightman SONAME ‘myhightman.so’;
    26、mysql> CREATE FUNCTION segment RETURNS STRING SONAME ‘myhightman.so’;

    测试:
    CREATE TABLE `test_utf8` (
    `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
    `title` varchar(200) DEFAULT NULL,
    `body` mediumtext,
    PRIMARY KEY (`id`),
    FULLTEXT KEY `ft_utf8` (`title`,`body`) WITH PARSER fthightman
    ) ENGINE=MyISAM DEFAULT CHARSET=gbk;

    INSERT INTO `test_utf8` VALUES (1, ‘MySQL Tutorial’, ‘DBMS stands for DataBase …’);
    INSERT INTO `test_utf8` VALUES (2, ‘How To Use MySQL Efficiently’, ‘After you went through a …’);
    INSERT INTO `test_utf8` VALUES (3, ‘Optimising MySQL’, ‘In this tutorial we will show …’);
    INSERT INTO `test_utf8` VALUES (4, ‘1001 MySQL Tricks’, ‘1. Never run mysqld as root. 2. …’);
    INSERT INTO `test_utf8` VALUES (5, ‘MySQL vs. YourSQL’, ‘In the following database comparison …’);
    INSERT INTO `test_utf8` VALUES (6, ‘MySQL Security’, ‘When configured properly, MySQL …’);
    INSERT INTO `test_utf8` VALUES (7, ‘中国测试’, ‘这样可以吗’);
    INSERT INTO `test_utf8` VALUES (8, ‘疯狂测中国测试’, ‘这样总应该可以吗’);
    INSERT INTO `test_utf8` VALUES (9, ‘中国语言测试’, ‘这样又是行不行呢’);
    INSERT INTO `test_utf8` VALUES (10, ‘我爱china’, ‘china是我的祖国’);

    SELECT * FROM test_utf8 WHERE MATCH(title,body) AGAINST (‘中国’);
    SELECT * FROM test_utf8 WHERE MATCH(title,body) AGAINST (‘+中国 -疯狂’ IN BOOLEAN MODE);
    SELECT SEGMENT(title) FROM test_utf8;

    回复
  7. atlascn

    我参考《MySQL-4.0.27-hi4 完整安装包发布及安装说明(推荐)》中的方法,在/etc/my.cnf 中加入:
    ft_wordlist_charset = gbk
    ft_wordlist_file = /usr/local/mysql/share/mysql/wordlist-gbk.txt
    ft_stopword_file = /usr/local/mysql/share/mysql/stopwords-gbk.txt
    ft_min_word_len = 2
    ft_nlq_match_percent = 80
    ft_nlq_match_maxnum = 5000
    后,mysql就不能启动,将其他行注释掉,只剩ft_min_word_len=2这行时才能启动:
    #ft_wordlist_charset = gbk
    #ft_wordlist_file = /usr/local/mysql/share/mysql/wordlist-gbk.txt
    #ft_stopword_file = /usr/local/mysql/share/mysql/stopwords-gbk.txt
    ft_min_word_len = 2
    #ft_nlq_match_percent = 80
    #ft_nlq_match_maxnum = 5000
    但仍不能搜索单个字符

    回复
  8. hightman

    [quote]原帖由 [i]atlascn[/i] 于 2007-7-18 09:46 发表 [url=http://www.hightman.cn/bbs/redirect.php?goto=findpost&pid=353&ptid=18][img]http://www.hightman.cn/bbs/images/common/back.gif[/img][/url]
    我参考《MySQL-4.0.27-hi4 完整安装包发布及安装说明(推荐)》中的方法,在/etc/my.cnf 中加入:
    ft_wordlist_charset = gbk
    ft_wordlist_file = /usr/local/mysql/share/mysql/wordlist-gbk.txt
    ft_st … [/quote]

    你编译时有没有打开这项功能呢 –enable-hightman-mbft

    回复
  9. atlascn

    今天又装了一遍,编译时加上了–enable-hightman-mbft,但仍不能搜单个汉字;ft_min_word_len 改为2了,测试表和fulltext重建了,还是不行。
    情况还是和15楼的一样。
    我测试用的是mysql-5.1.11-hi1.tgz。

    回复
  10. hightman

    如果这个字与其它字组成了词,那当然就搜索不到了!!

    必须是不成词的单字啊,分词检索不就这样子吗

    回复
  11. atlascn

    我有一个表,表名叫oldallurls,没建fulltext时用myisamchk检查:
    [root@localhost mysql]# bin/myisamchk /usr/local/mysql/var/elanw/oldallurls.MYI
    Checking MyISAM file: /usr/local/mysql/var/elanw/oldallurls.MYI
    Data records: 99 Deleted blocks: 0
    – check file-size
    – check record delete-chain
    – check key delete-chain
    – check index reference
    – check data record references index: 1
    – check data record references index: 2
    – check record links

    然后建fulltext:alter table oldallurls add FULLTEXT KEY `ft_oldurls` (`urlName`,`titleUrlName`,`description`) WITH PARSER fthightman

    然后在用myisamchk检查:
    [root@localhost mysql]# bin/myisamchk /usr/local/mysql/var/elanw/oldallurls.MYI
    myisamchk: error: 138 when opening MyISAM-table ‘/usr/local/mysql/var/elanw/oldallurls.MYI’

    这时检查的结果就出错了。此时表的fulltext还能用,但当数据量很大时,update一些字段会经常出现下图所示的错误:
    错误
    SQL 查询:

    SHOW INDEX FROM `oldallurls3` ;

    MySQL 返回:

    #145 – Table ‘./elanw/oldallurls3’ is marked as crashed and should be repaired

    出现这个错误后,表就崩溃了,用repair table修复。修复后用myisamchk检查还是有错。去掉fulltext后就行了。

    经过我反复安装确实有这样的问题,楼主,是不是[url=http://www.hightman.cn/bbs/viewthread.php?tid=18]MySQL-5.1.11~12 全文检索分词插件[/url]这个有bug呢?有空看看吧,我已经被折磨的不行了

    [[i] 本帖最后由 atlascn 于 2007-7-21 16:32 编辑 [/i]]

    回复
  12. derekchen

    (安装手记) MySQL-5.1.11~12 全文检索分词插件
    [url]http://www.hightman.cn/bbs/viewthread.php?tid=383&extra=page%3D1[/url]

    回复

发表评论

电子邮件地址不会被公开。 必填项已用*标注