logo for hightman@twomice
hightman.cn
Hightman is the same as twomice, 马明练, maminglian etc.
以自己为圆心, 兴趣爱好为长轴, 所知所觉为短轴的一个小扁椭圆.

These contents include, but aren't limited to: Internet Tech. Architecture Art. Personal Info.

Notice: 除特殊注明外, 本站均为原创, 如有转载请注明出处和作者, 谢谢!

Seekle Search

Relational Links

SCWS - 简易中文分词系统
SCWS 全称是 Simple Chinese Words Segmentation 即简易中文分词系统。
2010/01, scws-1.1.0 发布,支持加载文本词典,下载及介绍请进项目站点
http://www.ftphp.com/scws

2008/12, scws-1.0.1 发布
2008, scws-1.0.0 版正式发布, 内含文本词表及xdb转换工具.
好消息,scws-0.0.1 pre 版发布!!
Libscws C API 使用说明
SCWS-php扩展的说明及用法
SCWS - rules.ini 规则集配置文件
SCWS - 词典词性标注详解
推荐: 搭配 SCWS 面向 PHP 的全文检索解决方案 FTPHP/XUNGLE 已经可用 微笑

SCWS-php4扩展 for win32 提供下载(由 ben 移植)

它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。

本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。

切词效率测试(UTF-8编码,随机从天涯抓取了一个连载页面测试结果, 45Kb左右的文本切词时间是0.026秒, 换算完毕大概是 1.5MB文本/秒)
测试过程中开启了散字自动二元聚合, 长词自动补切为短词, 开启了人名地名数字智能识别等功能, 基本上是针对搜索引擎专用的分词配置, 效果还是比较令人满意的!!
代码:
+--[scws(scws-cli/1.0.0)]----------+
| TextLen:   45871               |
| Prepare:   0.1489    (sec)     |
| Segment:   0.0262    (sec)     |
+--------------------------------+

自2005年底首次发布尝试版以来,目前已经陆续发布的有四五个版本,将会陆续整理出来。

2010 scws-1.1.2 下载地址: (内含win32版的php5.2.x/php4.4.x的 php_scws.dll)
http://www.ftphp.com/scws/down/scws-1.1.2.tar.bz2

最新scws-1.x.x 之 php 扩展演示
G B K: http://www.ftphp.com/scws/demo/v4.php
UTF-8: http://www.ftphp.com/scws/demo/v48.php

C版简易中文分词-cscwsd-0.0.3 发布
下载地址:http://www.hightman.cn/down/cscwsd-0.0.3.tgz
演示地址:http://www.hightman.cn/demo/scws/by_server.php

PHP4版 简易中文分词(PSCWS) 第2/3版
下载地址:http://www.ftphp.com/scws/down/pscws23-20081221.tar.bz2
演示地址:http://www.ftphp.com/scws/pscws23/demo/demo.php