lucene/nutch
- Larbin网站爬虫简明使用说明
- larbin是一种爬虫工具,我也是前段时间网上看到Larbin一种高效的搜索引擎爬虫工具一文时才知道有这么个东西,初步认定,我比较喜欢这个工具(比起nutch的crawl来说),因为它是C++写的,类似C嘛,我熟,可以自己改改,顺便学习一下C++(几年来的经验告诉我说:改别人的东西...
- 作者:互联网作品发表于:2007-04-12 01:18:08 点击:261 评论:0 查阅全文...
- 利用Lucene搜索Java源代码
- 某些网站允许软件开发社团通过发布开发者指南、白皮书、FAQs和源代码以实现信息的共享。随着信息量的增长,和几个开发者贡献出自己的知识库,于是网站提供搜索引擎来搜索站点上现有的所有信息。虽然这些搜索引擎对文本文件的搜索可以做的很好,但对开发者搜索源代码做了...
- 作者:互联网作品发表于:2007-04-12 01:17:49 点击:162 评论:0 查阅全文...
- 如何使用Lucene进行全文检索(一)
- 首先,基于一个简单的新闻系统,要想做全文检索.新闻系统的管理等在这里不在具体提出,下面列出新闻对象的类: 注:程序用会到一些工具类,不在此列出,用户可以自己实现. packagecom.jscud.website.newsinfo.bean; importjava.sql.timestamp; importcom.jscud.util.datetime;...
- 作者:互联网作品发表于:2007-04-12 01:17:10 点击:153 评论:0 查阅全文...
- 如何使用Lucene进行全文检索(二)
- 在使用lucene对相关内容进行索引时,会遇到各种格式的内容,例如html,pdf,word等等,那么我们如何从这么文档中得到我们需要的内容哪?例如html的内容,一般我们不需要对html标签建立索引,因为那不是我们需要搜索的内容.这个时候,我们就需要从html内容中解析出我们所需要的内...
- 作者:互联网作品发表于:2007-04-12 01:16:47 点击:119 评论:0 查阅全文...
- 如何使用Lucene进行全文检索(三)
- 无论是建立索引还是分析内容,都是为了用户的搜索服务. 在lucene中,如果需要使用搜索,需要使用searcher类,这是一个抽象类,它有2个子类:indexsearcher和multisearcher. indexsearcher是对一个索引进行搜索,如果你需要对多个索引进行搜索,可以使用multisearcher.下面的内容...
- 作者:互联网作品发表于:2007-04-12 01:16:21 点击:91 评论:0 查阅全文...
- Nutch爬虫工作流程及文件格式详细分析
- Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Searcher分别放在两个主机上,这样可以提升性能。 爬虫,Crawler: Crawler的重点在两个方面,Crawler的工作流程和涉及的数据文件的格式和含义。数据文件主要包括...
- 作者:互联网作品发表于:2007-04-12 01:15:47 点击:241 评论:0 查阅全文...
- nutch分布式文件系统
- 1.介绍 NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。 文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。 块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地...
- 作者:互联网作品发表于:2007-04-12 01:15:18 点击:115 评论:0 查阅全文...
- 给nutch 0.8添加中文分词(二分法)
- 本文旨在给nutch添加二分法中文分词,可以预计的结果是汉字的索引不再是一个个字分开来的,从而会大大的增加搜索的准确率 修改的文件:NutchAnalysis.jj(在nutch的analysis包里面) NutchAnalysis.jj 在TOKEN里面增加(前后有参照) |SIGRAM:CJK |CHINAWORD:(CHINESECHIN...
- 作者:互联网作品发表于:2007-04-12 01:13:50 点击:111 评论:0 查阅全文...
随机推荐

