|
hightman.cn
Hightman is the same as twomice, 马明练, maminglian etc.
|
网志 | SCWS | CZXIU | Seekle | MyFT | 下载 | 演示 | 论坛 | 关于 |
|
以自己为圆心, 兴趣爱好为长轴, 所知所觉为短轴的一个小扁椭圆.
These contents include, but aren't limited to: Internet Tech. Architecture Art. Personal Info. Notice: 除特殊注明外, 本站均为原创, 如有转载请注明出处和作者, 谢谢!
Seekle Search
Relational Links
|
SCWS - 简易中文分词系统
SCWS 全称是 Simple Chinese Words Segmentation 即简易中文分词系统。
2010/01, scws-1.1.0 发布,支持加载文本词典,下载及介绍请进项目站点 http://www.ftphp.com/scws 2008/12, scws-1.0.1 发布 2008, scws-1.0.0 版正式发布, 内含文本词表及xdb转换工具. 好消息,scws-0.0.1 pre 版发布!! Libscws C API 使用说明 SCWS-php扩展的说明及用法 SCWS - rules.ini 规则集配置文件 SCWS - 词典词性标注详解 推荐: 搭配 SCWS 面向 PHP 的全文检索解决方案 FTPHP/XUNGLE 已经可用 ![]() SCWS-php4扩展 for win32 提供下载(由 ben 移植) 它是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词,因为词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开,所以如何准确快速的分词一直是中文分词的攻关难点。 本分词法并无太多创新成分,采用的是自己采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。 切词效率测试(UTF-8编码,随机从天涯抓取了一个连载页面测试结果, 45Kb左右的文本切词时间是0.026秒, 换算完毕大概是 1.5MB文本/秒) 测试过程中开启了散字自动二元聚合, 长词自动补切为短词, 开启了人名地名数字智能识别等功能, 基本上是针对搜索引擎专用的分词配置, 效果还是比较令人满意的!! 代码: +--[scws(scws-cli/1.0.0)]----------+自2005年底首次发布尝试版以来,目前已经陆续发布的有四五个版本,将会陆续整理出来。 2010 scws-1.1.2 下载地址: (内含win32版的php5.2.x/php4.4.x的 php_scws.dll) http://www.ftphp.com/scws/down/scws-1.1.2.tar.bz2 最新scws-1.x.x 之 php 扩展演示 G B K: http://www.ftphp.com/scws/demo/v4.php UTF-8: http://www.ftphp.com/scws/demo/v48.php C版简易中文分词-cscwsd-0.0.3 发布 下载地址:http://www.hightman.cn/down/cscwsd-0.0.3.tgz 演示地址:http://www.hightman.cn/demo/scws/by_server.php PHP4版 简易中文分词(PSCWS) 第2/3版 下载地址:http://www.ftphp.com/scws/down/pscws23-20081221.tar.bz2 演示地址:http://www.ftphp.com/scws/pscws23/demo/demo.php |
|
© Copyright 2007 TwoMice studio
| 浙ICP备08002718号 All right Reserved |