1.1 背景
当今人类已经处于一个信息极度丰富的时代,人们可以从各种各样的传播媒体获得信息,如报纸、电视、杂志、万维网等。近几年万维网已经成为一个巨大的、分布广泛的和全球性的信息服务中心,逐渐渗透到人们的日常生活,它为用户提供了数量巨大而丰富的各种信息,然而,面对复杂而庞大的万维网,多数用户在查找信息时往往觉得力不从心。如何有效地分析用户的需求,帮助用户从因特网的信息海洋中发现他/她们所要寻找或者感兴趣的资源,已经成为一项迫切而重要的研究课题。
1.1.1 Internet的发展与Web服务
WWW(World Wide Web,即万维网,简称Web)自1993年问世以来,不到10年的时间已经遍布世界各地。Web提供了大量的信息资源,涉及各种各样的主题,可以说是世界上最大的电子信息仓库。Internet的发展也使得网络用户和Web服务器的数目以惊人的速度增长。
1998年7月Internet协会(http://www.isoc.org)年会报告称,世界上250个国家中有240个提供Internet上网服务;
Internet软件协会(http://www.isc.org)的统计表明,到2002年1月,Web主机的数量已经超过了1亿4千万台。
据comScore(http://www.comscore.com)的最新统计报告,截至2002年5月14日,全球已逾3亿2千万用户使用Internet;
Web为人们提供越来越多信息的同时,其结构也变得更加复杂,对于那些Web经验不足的用户经常会 迷失 在网络空间中,面对庞大的网络空间不知何去何从。虽然Web上的信息量巨大,但是用户往往因为找不到需要的信息而发愁,面对搜索引擎返回结果中大量的超链接或者一个完全陌生的网站,从中寻找需要的信息对一般的用户而言是比较困难的任务。另一方面,在互联网市场竞争日趋激烈的今天,用户成为网站的最大财富,用户数量与架构在网站上的电子商务以及投放的广告的收入紧密相关。随着用户网络经验的增长,网站仅靠提供大量的信息已经不能完全吸引用户,用户需要质量更高、效果更好的Web服务。人们期望得到个性化的服务,希望可以根据自己的兴趣对网页的风格以及内容进行定制,同时,希望网站可以根据用户的兴趣所在,为用户推荐可能感兴趣但是尚未阅读的内容,以减少用户搜索信息的时间,这些需求就为网站的设计提出了更高的要求。在这样的市场需求下,出现了Web定制服务、推荐系统以及自适应站点等智能技术。
1. Web定制服务
ㄖ品瘢╓eb Customizaion Service):Web服务器通过与用户交互的过程收集用户的信息,服务器根据这些信息对用户请求的页面进行裁剪,使得页面的内容和风格都符合用户的要求,将该定制的页面作为请求结果返回给用户。例如:当用户注册提供定制服务的网站后,用户可以从服务器提供的选项中选取感兴趣的栏目(新闻、股票、天气预报、电视节目预报、交通状况等)以及喜欢的页面风格、布局、颜色等,以后,服务器响应该用户的请求时,就根据用户的定制信息将页面修改后返回给用户。目前,许多网站都提供定制服务,如:MyYahoo!(http://my.yahoo.com/)、MyAOL(http://my.aol.com/)、MyNetscapte(http://my.netscape.com/)、MyMSN(http://my.msn.com/)、我的新浪(http://my.sina.com.cn/)、我的网易(http://my.163.com/)等。 数据挖掘研究院
在文献[1]中提出用框架技术(Frame)实现定制服务,一个Web页面由多个框架组成,每个框架对应不同的内容。例如:对一个新闻网站,其页面框架可能包含国内、国际、科技、社会、体育等栏目,用户也可以创建新的框架结构。Web服务器在与用户的交互过程中为每个用户创建用户模型(User Model),用户模型中可以包含:用户的注册信息(姓名、email、用户标识符和口令等),颜色偏好,用户的访问历史,以及其它一些与用户相关的信息。根据每个用户的用户模型,Web服务器执行一些服务器端的程序后,为Web页面中的各个框架填充用户感兴趣的内容,最后将生成的定制页面返回用户。
杂诙ㄖ品瘢没бü允降厝Χㄋ?她所感兴趣的内容,来完成定制页面的工作。对一个大的门户网站而言,如Yahoo!(http://www.yahoo.com/),可能包含上百个选项,从这些选项中挑出感兴趣的条目,对用户来讲是个大的负担;另一方面,用户只有在很好地了解了站点,才能作出正确的选择,所以,在用户深入了解站点之前,用户可能并不知道怎样定制站点内容,因而也就不能充分享受Web站点的定制服务。
2. 推荐系统
萍鱿低常≧ecommender System):直观地讲,推荐系统就是Web服务器根据用户的喜好,为用户推荐可能感兴趣的内容或者可能购买的商品。近几年电子商务的快速发展推动的推荐系统的发展,推荐系统已经逐渐成为电子商务中的主流发展方向。例如,亚马逊(http://www.amazon.com/)、当当网站(http://www.dangdang.com/)、eBay(http://www.ebay.com/)、CDNOW(http://www.cdnow.com/)等都是包含推荐系统的电子商务网站。 数据挖掘研究院
萍鱿低晨梢晕缱由涛裢敬匆幌盗械暮么2]:能够更好地吸引新的访问者,并将访问者转变为购买者,同时可以增加客户在网站的停留时间和他们对网站的忠诚度(loyalty),另外,推荐系统可以针对不同的用户为其推荐可能感兴趣的广告,从而提高广告的效率,这一系列的变化最终将增加网站的利润。据因特网研究机构Jupiter Communications (http://www.jup.com/)报道[3],通过对25个电子商务消费网站的观察发现,这些网站在提供了推荐系统后的第一年中,平均增加了47%的新客户,利润同比增加了52%。另一个因特网研究机构Nielsen NetRating(http://www.netratings.com/)报道,与一般的电子商务网站比较,提供推荐系统的电子商务网站可以将更多的访问者变为购买者。而来自因特网咨询公司Appian(http://www.appiancorp.com/)的估计,随着电子商务中智能化的发展,由此带来的利润将大幅度增加,预计2003年将达到53亿美元。
萍鱿低车淖远潭龋―egree of Automation)指用户为了得到推荐系统的推荐是否需要显式的输入信息,而推荐系统的持久度(Degree of Persistence)指推荐系统产生推荐是基于客户当前的单个会话(Session)还是基于客户的多个会话。根据推荐系统的自动化程度和持久度这两个参数,可以将推荐推荐系统进行分类[2]:
非个性化推荐系统(Non-Personalized Recommendation)
这种推荐系统独立于用户,所有访问的用户得到的推荐结果都是相同的。这种推荐系统产生的推荐结果主要基于多数用户对于该产品的平均评价。例如:
Amazon网站(http://www.amazon.com/)的Average customer rating
eBay网站(http://www.ebay.com/)的Customer Comments
基于属性的推荐系统(Attributed-Based Recommendation)
萍鱿低车耐萍鲋饕诓返氖粜蕴卣魑没Ы型萍觯胗没У男巳ひ约颁佬形薰亍@纾?
Reel网站(http://www.reel.com/)的Movie Map
Amazon网站的Delivers
基于项目之间相关性的推荐系统(Item-to-Item Correlation Recommendation)
萍鱿低掣菘突Ц行巳さ牟吠萍鲇氪讼喙氐牟贰@纾?
Amazon网站的Customers who bought this book also bought
CDNOW网站(http://www.cdnow.com/)的Album Advisor
Movie Finder网站(http://www.moviefinder.com/)的MatchMaker
基于客户相关性的推荐系统(People-to-People Correlation Recommendation)
这种推荐系统又称作基于协同过滤(Collaborative Filtering)的推荐系统,推荐系统根据客户与其他已经购买了商品的客户之间的相关性进行推荐。例如:
Amazon网站的Book Matcher
Movie Finder网站的We Predict
可以通过多种方法实现推荐系统,常用的技术有:
关联规则(Association Rules)--根据商品之间的相互关联关系,为用户推荐相关的商品。基于关联规则的推荐是商品级(item level)的推荐。
协同过滤(Collaborative Filtering)--根据与当前用户兴趣相似的用户对商品的评价和打分,为该用户推荐可能感兴趣或者购买的商品。基于协同过滤的推荐是用户级(customer level)的推荐。
聚类(Clustering)--根据用户过去的购买行为将用户进行聚类,然后依据当前用户所在的用户组为其进行推荐。基于聚类的推荐是小组级(group level)的推荐。
信息过滤(Information Filtering)--也称作基于内容的过滤(Content-based Filtering) 数据挖掘研究院

