e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (ParseException e) {
e.printStackTrace();
}
} 数据挖掘工具
}
上面程序,检索“根据 挖掘”,首先使用QueryParser解析,提取Term为“根据”和“挖掘”,检索结果应该在提取的摘要中高亮显示这两个Term的text。
数据挖掘论坛
运行结果如下所示: 数据挖掘实验室
词库尚未被初始化,开始初始化词库.
初始化词库结束。用时:3985毫秒;
共添加195574个词语。
高亮HTML的总长度为25
★高亮显示第 1 条检索结果如下所示:
同的方法扩展,包括<font color='red'>挖掘</font>多层关联规则和多维关联规则。多层关联规则可以<font color='red'>根据</font>每个抽象层的最小支持度阈值如何定义,使用多种策略<font color='red'>挖掘</font>。如一致的支持度、递减的支持度和基于分组的支持度。冗余的多层(后代)关联规则
显示第 1 条检索结果摘要的长度为(含高亮HTML代码):174
高亮HTML的总长度为25
★高亮显示第 2 条检索结果如下所示:
数据<font color='red'>挖掘</font>(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解
显示第 2 条检索结果摘要的长度为(含高亮HTML代码):124
上面程序中,在进行分析的时候,构造Field,同时对指定原始文本进行了存储,如下所示:
Field fieldA = new Field("contents", fileTextA, Field.Store.YES,Field.Index.TOKENIZED);
这个Field.Store.YES指定的存储,但是在实际中这样会浪费存储空间,而且造成索引管理的困难,所以在实际中是直接从数据库中查询出原 始文件的文本内容,然后对这个文本进行处理,对其进行提取摘要的操作。也就是在上面String text = doc.get(fieldName);这一步,text的内容是根据Document的ID,从数据库中查询出来的,避免了IO操作,从而提高了检索速 度,而且便利了索引文件的管理。