我想在网站上加个搜索框,搜索调用别的网站上的搜索结果,还有如果调用的网站不止一个,如何把搜索的结果给重新聚合显示出来,谢谢。调用一个网站的话,直接采集过来就可以了,多个网站如果涉及分页的话比较复杂,除了采集之外,还涉及到求并集运算,如果同一个网站位于被调用的网站不同的页码上,想做到结果独立是非常耗资源的。自己做代理及做好代理缓存.
当收到搜索结果时用数据库表将其存起来,然后再从一个表中读出就汇总了1 做一个网络爬虫,爬到所需要的网页,file_get_content($url)好像就可以,不过要是有登录的话就要伪造cookie,好像pear中的http client可以办到。
2 把爬到的网页筛选出有用的信息,这个可以用正则。
3 把信息汇总好像是采集吧
我也不会
学习中 file_get_content($url)是一个比较好的方法,将对方的搜索页面抓取过来,然后在分析出结果.
如果网站是熟悉的,可以通过它提供的webservice接口来获得搜索信息.很多搜索引擎,比如google,有开放API的,你想调用查查它的API
如果你不介意在对方的网页显示出来,用apache的代理功能
如果介意,除了采集好像也没有什么好办法抓网页
正则出 搜索结果链结
数组合并最好就采集下来以后,正则,然后存入数据库,要不然,每次都采集很慢啊.嗯,没有什么大难题吧,但比较麻烦的Create By Any-Extract(WL-AE) 数据挖掘研究院