分类目录归档:搜索引擎

scws 中文分词、xunsearch 搜索引擎等

发布 xunsearch-1.0.0b 测试版

迅搜(xunsearch)是采用 C/C++ 基于 xapian 和 scws 开发的全文搜索引擎解决方案,提供 PHP 语言的开发接口。

旨在帮助一般开发者针对既有的海量数据,快速而方便地建立自己的全文搜索引擎。全文检索可以帮助您降低服务器搜索负荷、极大程度的提高搜索速度和用户体验。

支持海量数据高速检索,功能强大,简单易用,而且开源免费!代码已经全部托管在 github 上。

经过数月的努力开发,目前终于发布测试版本,该版本主要用于测试目的,可能还会存在一些 bug 或问题,不要用于生产环境。

网站还在进一步修改和调整中,请直接访问下面地址:

下载地址:http://www.xunsearch.com/download/
文档地址:http://www.xunsearch.com/doc/
GIT代码仓库:http://github.com/hightman/xunsearch/

欢迎提出各种意见和改进建议。多谢!!!

SCWS-1.1.7 发布,修正少量BUG。

下载地址
http://www.xunsearch.com/scws/download.php

主要更新记录:

1) 删除 __PARSE_XATTR__ 宏中企图修改 xattr 的内容的作法, 当 xattr 为常量字符串时会出错.
2) 调整 config.h 的包含方式移入 .c 文件而非 .h 文件
3) 增加一些PHP测试脚本, 位于phpext/scws_test.php, 精选了一些岐义较多的语句进行测试。
4) 修正 scws_has_word() 的一处内存汇露 (感谢lauxinz)
5) 修改调试模式的编译选项,去除-O2避免源码和代码无法对应。 (感谢lauxinz)

scws-1.1.6 发布

1. 修正夹杂在汉字中间的1-2个英文字符的词性为 en 而不是原来的 un 导致清除符号时消失.
2. 调整将数字后面的独立 % 纳入整词作为百分比,如 33.3% 作为整词而不再是 33.3 和 %
3. 修改连字符(-)和下划线(_)的规则,当出现在字母单词之间时视为同一词而不再强行切开,此时如果激活复合分词的 DUALITY 选项,则仍能将符号切开作为复合词。
4. 修正浮点数的识别规则,避免将IPv4地址识别为2个小数的尴尬,比如 192.168.1.1 以前会被切成 192.168 和1.1 2个数字,现在不会了。
5. libscws 安装后将所有的头文件(*.h)按装到 $prefix/include/scws 而不是以前的 $prefix/include,故采用C API开发时头部建议写 #include <scws/scws.h>

下载地址:http://www.xunsearch.com/scws/download.php

SCWS-1.1.5 发布,修正重要BUG,须升级。

2010-12-31: SCWS-1.1.5 Released.

1) 修正 xdb.c 中存在的一处缓冲区溢出, 感谢论坛网友 hovea.
2) 修正 phpext/ 中 scws_get_result() 参数解析里多了一个z 的问题,感谢网友(阿男)告知
3) 修正 scws.c 中某些字符在ignore symbol设置下无效的问题
4) 修正 1.1.4 的 xdb.c 270行处由于书写错误导致的严重错误, 1.1.4版作废应及时升为 1.1.5

下载地址:http://www.xunsearch.com/scws/download.php