Google API拼写检查器和缓存页面(6)

作为 Google 创建索引过程的有机组成部分,Google 要检索被建立索引的页面副本,在搜索结果中为用户提供到缓存页面的链接。主要的缺点是用户看不到更新后的内容,但一些优点也是存在的。 数据挖掘论坛

检索缓存页面通常要比检索真实页面要快些,这归功于 Google 的带宽和处理能力,而且如果出于某种原因没有实际的服务器,仍能检索缓存页面。可最重要的还是搜索项在缓存页面中突出显示,更容易看出页面的相关程度。 数据挖掘实验室

Google API 使您有可能检索缓存页面的文本: 数据挖掘研究院

import com.google.soap.search.GoogleSearch; 
import com.google.soap.search.GoogleSearchFault;

public class GoogleCacheTutorial {

public static void main (String[] args) {

try {

GoogleSearch search = new GoogleSearch();

search.setKey("00000000000000000000000000000000");

byte[] pageText = search.doGetCachedPage( "http://www-106.ibm.com/developerworks/xml/library/x-tiphdln.html"); System.out.println(new String(pageText));

} catch (GoogleSearchFault gsf) {
System.out.println("Google Search Fault: "+gsf.getMessage());
}

}

}
数据挖掘论坛

上面使用的不是 doSearch() 而是 doGetCachedPage()。结果为 byte 数组,您可以和其它任何 Java byte 数组一样使用。

数据挖掘实验室


  拼定建议

Google 搜索引擎意识到用户通常并不知道如何拼写要找的主题,所以内置一个拼写检查器,它可以分析查询、提出建议。不论什么样的搜索,都会有这样的拼写建议。 数据挖掘研究院

import com.google.soap.search.GoogleSearch; 
import com.google.soap.search.GoogleSearchFault;

public class GoogleSpellingTutorial {

public static void main (String[] args) {

String spellingRequest = args0];

try {

GoogleSearch search = new GoogleSearch();
search.setKey("00000000000000000000000000000000");

String suggestion = search.doSpellingSuggestion(spellingRequest);

if (suggestion == null) {
System.out.println("There is no suggestion in the database.");
} else {
System.out.println(suggestion);
}

} catch (GoogleSearchFault gsf) {
System.out.println("Google Search Fault: "+gsf.getMessage());
} 数据挖掘实验室

}

}
数据挖掘研究院

可以检查任何词或词组。如果没有拼写错误,或者如果引擎根本不认识某个单词,那么它将返回 null。不然的话,就会返回所建议的词或词组。

数据挖掘实验室

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:Google API筛选结果(5)
下一篇:Google API 直接使用Web服务(7)
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • Mercator: A Scalable, Extensible Web Cra
  • 什么是垂直搜索引擎(之二)
  • Writing a web crawler
  • 互联网搜索的未来
  • 国家版权局版权司副司长许超:关于搜索引擎
  • 百度数分钟内闪电裁员 企业软件事业部遭抛
  • 我对垂直搜索引擎的几点认识
  • Google Patent Filings by the Dozen
  • Manageability - Open Source Web Crawlers
  • 微软卡位第三代搜索技术 认为Google将很快
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • 谷歌宣布进军可替代能源 计划投资4.4万亿美
  • 搜索大战成Web 2.0操作系统之争
  • 7月美国搜索市场环比增长2% 雅虎微软成输家
  • 网页面向搜索引擎的搜索引擎优化
  • 史上最具技术创新的10大搜索引擎
  • Google如何预测下一届美国总统
  • 微软1亿美元收购语义搜索引擎Powerset
  • 很黄很暴力:人肉搜索引擎
  • OpenSocial只不过是Google公关骗局
  • 数据之美 百度GOOGLE统计的秘密
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静