|
首页>相关研究方向>lucene/nutch> |
Lucene几种中文分词的总结 |
|
Visited times , Welcome to Data Mining Forum & Data Mining Expert |
|
|
TokenStream ts = (TokenStream)analyzer.tokenStream("", r); System.out.println("=====IK_CAnalyzer===="); System.out.println("分析方法:字典分词,正反双向搜索"); Token t; while ((t = ts.next()) != null) { System.out.println(t.termText()); } } public static void main(String[] args) throws Exception{ String str = string; System.out.println("我们测试的字符串是:"+str); Standard_Analyzer(str); CJK_Analyzer(str); Chiniese_Analyzer(str); ik_CAnalyzer(str); } } 分词结果如下: 我们测试的字符串是:中华人民共和国在1949年建立,从此开始了新中国的伟大篇章。 =====StandardAnalyzer==== 分析方法:默认没有词只有字(一元分词) 中 华 人 民 共 和 国 在 1949 年 建 立 从 此 开 始 了 新 中 国 的 数据挖掘工具 伟 大 篇 章 =====CJKAnalyzer==== 分析方法:交叉双字分割(二元分词) 中华 华人 人民 民共 共和 和国 国在 1949 年建 建立 从此 此开 开始 始了 了新 新中 中国 国的 的伟 伟大 大篇 篇章 =====chinese analyzer==== 分析方法:基本等同StandardAnalyzer(一元分词) 中 华 人 民 共 和 国 在 年 建 立 从 此 开 始 了 新 中 国 的 伟 大 篇 章 =====IK_CAnalyzer==== 分析方法:字典分词,正反双向搜索 中华人民共和国 中华人民 中华 华人 人民共和国 人民 人 共和国 共和 1949年 建立 从此 开始 新中国 中国 伟大 大篇 篇章 如果 ik_CAnalyzer(String str) 里采用 数据挖掘研究院 Analyzer analyzer = new MIK_CAnalyzer(); 那么该方法的分词结果是: 中华人民共和国 1949年 建立 从此 开始 新中国 伟大 大篇 篇章 可以看到各种分词结果各不相同,根据应用的需要可以选择合适的分词器。 关于IKAnalyzer的介绍可以参考: http://blog.csdn.net/dbigbear/archive/2007/01/24/1492380.aspx
|
| 上一页 1 2下一页 |
|
|
|
[数据挖掘专家]
[数据挖掘研究院]
[数据挖掘论坛]
[数据挖掘实验室]
|
上一篇:Lucene 基础指南(Java版)
下一篇:Lucene倒排索引原理
|
|
|
|