面对互联网时代庞杂无序的海量信息,智能高效地处理及深层次综合利用信息都离不开文本挖掘技术。文本挖掘技术已成为人们挑战信息爆炸式增长与信息有效利用间矛盾的重要武器,同时也是维护国家信息内容安全所必需。
文本挖掘技术是以半结构化或非结构化的自然语言文本为对象的数据技术,它是从大规模文本数据集中发现隐藏的、潜在的、新颖的和重要的规律过程。首先从文本中提取适当的特征,将文本表示成计算机能够理解的形式,然后采用各种文本挖掘方法发现隐藏的知识模式,最后以用户可以理解和接受的形式输出,成为指导人们实践的有用的知识。
成立于1993年的北京拓尔思(TRS)信息技术股份有限公司有效结合自然语言处理技术、统计分析和机器学习技术以及语言知识库,成功实现了中文文本挖掘技术的商业化应用,推出了国内第一个实用化的中文文本挖掘软件产品————TRS文本挖掘基础件(TRS CKM),可以对 “堆积如山” 的信息进行有效的过滤、开发和利用,提取发现具有指导意义的知识,使其广泛应用于企业知识门户、信息增值服务、智能搜索引擎、数字图书馆、情报分析、信息安全和过滤、电子商务等领域和系统。
TRS CKM的主要功能是实现高效稳定、功能完备的文本挖掘底层算法,为上层中文文本挖掘应用提供已封装的方便易用的开发调用接口或服务。目前TRS CKM涵盖了TRS文本挖掘十大功能选件TRS文本分类系统、TRS文本相似性检索系统、TRS文本摘要系统、TRS文本信息过滤系统、TRS拼音检索系统、TRS相关短语检索系统、TRS(政治)常识校对系统、TRS文本聚类系统、TRS文本分词系统及文本信息抽取。
2004年,当数据挖掘在中国还没有被大量应用的时候,几个对数据挖掘有浓厚兴趣的学生搭建了一个叫“ 数据挖掘研究院 ” 的网络研讨平台,在国内率先对数据挖掘进行研究。 经过4年的发展,数据挖掘研究院已经发展成为一个注册会员超过4万人,日访问量超过8000人的数据挖掘研究基地,权威学术平台,在数据挖掘研究工作中起到非常重要的作用。
为了整体推动文本挖掘技术水平向前发展;在涉及数据挖掘、信息检索、自然语言处理等研究领域中锻炼基础知识的综合应用能力;为了寻找、发现、选拔更多的高知识型专业挖掘技术人才投入到文本挖掘事业中来,为文本挖掘技术的前进提供有力的后续保障;“ 数据挖掘研究院 ” 和TRS公司共同举办“ 2008TRS杯中国首届文本挖掘智能大赛”,为所有热爱文本挖掘技术的所有爱好者搭建一座展示其精神风貌、记录发现、表现创意的平台 。 |