RSS
热门关键字:  数据挖掘  数据仓库  人工智能  搜索引擎  数据挖掘导论

数字资源利用跟踪分析方法

来源: 作者: 时间:2007-09-18 点击:

□严大香 / 苏州大学图书馆 苏州 215006

摘要:数字资源的后评估已受到图书馆界的广泛重视,数字资源利用跟踪分析属于数字资源后评估阶段的内容。本文首先阐述了对数字资源利用情况进行跟踪分析的重要性,其次着重讨论了数字资源利用跟踪分析方法,包括定量分析法和定性跟踪法。
关键词:数字资源 利用 跟踪分析 后评估 定量分析 定性分析

1 对数字资源利用情况进行跟踪分析的重要性

数字图书馆建设方兴未艾,图书馆采购的数字资源种类越来越丰富,数量也越来越多,数字资源在馆藏中已经占据重要的地位。随之而来,给数字资源的采购、续订、维护、应用等带来了一系列新课题:如何对数字资源进行选择、评价?如何使数字资源建设合理化、科学化?如何促进数字资源的价值发挥到最大化?所订购的数字资源利用情况如何?对数字资源的宣传和培训是否达到了应有的效果?读者在使用数字资源中会出现什么样的问题,等等。这些都是图书馆在数字资源建设中必须关注的问题。要了解这些问题,最有效的方法就是对数字资源的利用情况进行长期不间断地跟踪分析。
从图1所示的数字资源服务流程来看,数字资源利用的跟踪分析属于数字资源后评估阶段的内容,它之所以重要,是因为它对前几项工作具有强烈的反馈指导作用。数字资源利用跟踪分析是数字资源服务过程中一个不可缺少的重要环节,做好这一个环节,数字资源服务工作才能形成一个良性循环。

对数字资源利用情况进行跟踪分析可以促进建立科学的前评估体系,指导数字资源合理采购。即在数字资源采购过程中减少个人主观判断的成份,从而建立一套科学的评估指标体系,筛选更适合馆藏特色的数字资源,使数字资源建设更均衡、更科学、更合理,最大程度地发挥数字资源的价值和效益。 数据挖掘研究院
对数字资源利用情况进行跟踪分析可以指导数字资源的宣传和培训工作,使宣传和培训更有针对性。根据各个数据库访问量的变化趋势确定不同时期宣传培训的重点;另外,还可以根据数据库利用率的变动情况来考察每次培训和宣传的效果。
对数字资源利用情况进行跟踪分析可以及时发现并解决数字资源使用过程中的问题,促进数字资源的有效利用。如数据库中的数据是否有漏缺,网络情况是否良好,服务器是否稳定等等,这些问题都能在跟踪分析过程中及时发现并解决。 数据挖掘实验室

2 数字资源利用跟踪分析方法 数据挖掘研究院

目前国内图书馆虽然对数字资源的后评估日益重视,但大多数常常只侧重于某一个方面。如果要全面、及时地了解数字资源的利用情况,评价数字资源所取得的效益,必须采用定量分析和定性跟踪相结合的方法对数字资源利用情况进行跟踪和分析。

2.1定量分析法
定量分析法就是利用数据分析系统对数字资源利用量进行统计并从不同的角度进行分析。读者利用数字资源过程中,每天都会产生大量的访问数据。将这些数据挖掘出来,存储到分析系统中,使数字资源利用跟踪过程智能化、依据数字化。
2.1.1 依据数据库商或中间商提供的访问数据进行分析
目前,很多数据库商能提供较为详细的访问统计数据,常见的数据指标有:检索次数、登录次数、下载全文或文摘次数等。对这些统计指标的统计口径常见的有:按资源进行统计,如在某个全文期刊库中按期刊统计各刊被利用的数据;按IP地址进行统计;按时间段进行统计等。
由于数字资源来自于不同的出版商或中间商,在给图书馆员提供的使用报告中,采用的是不同的统计内容、统计标准及不同的统计格式,因此,图书馆员在分析本馆同类资源的使用情况时,遇到了麻烦,甚至无法比较。为此,牛津大学出版社Richard Gedye负责的项目小组提出了COUNTER项目,并于2003年1月正式发布了网络电子资源在线使用统计实施规范(The COUNTER Codes of Practice)第1版。2005年4月,COUNTER第二版正式发布。
COUNTER要求“遵从者”必须向用户提供符合COUNTER标准的使用统计报告,使各供应商生成的统计数据不仅具有一致性、可靠性和相互兼容性,而且能方便地记录和交换。COUNTER为出版商和中间商规范了一种详细格式,如在线期刊的报告内容必需包括:期刊名称、印刷版ISSN号、网络版ISSN号、每月每种期刊全文请求成功数量及被拒绝全文请求数量、所有期刊每月全文请求总量及被拒全文请求总量,等等;在线数据库的报告内容必需包括月检索和登录的数量、月被拒绝的检索和登录的数量、总检索及登录数量,等等[1]。COUNTER对其中的全文请求、被拒全文请求、检索、登录等均有明确的定义和说明。 数据挖掘研究院
通过COUNTER规范,图书馆员能够将来自于不同出版商或中间商但具有统一标准的统计数据导入到同一数据分析系统中,并对其进行比较和分析,从而更有把握地做出数字资源的购买决定或制定购买计划。
2.1.2 依据图书馆自行统计的访问数据进行
分析
不是所有的数据库商或中间商均能提供访问数据,或者一些数据库商并没有采用COUNTER标准提供访问数据,因而众多的访问统计数据在统计口径上常常不一致,缺乏横向可比性;另一方面,不同类型的数据库提供的统计指标也不尽相同,如全文期刊和文摘数据库的统计侧重点不一样,因而指标也不尽相同,缺乏可比性。为了全面了解图书馆所有数字资源的使用情况,使统计数据既有纵向可比性,又有横向可比性,图书馆必须采取统一口径对所有数字资源的利用情况进行统计,获得馆藏数字资源的总体使用数据,比较各数据库的访问量、使用成本等相关指标。
①基于统一检索平台的统计分析
统一检索平台是可以同时调用多个数据库并进行检索的软件系统,它将图书馆所有数字资源集成或整合到一个平台下,从而帮助用户同时检索多个数据库。通过统一检索平台,对数据库利用情况的统计除了能实现统一标准、统一口径外,还可以实现按不同资源类型(如文摘类、全文类等)进行统计、按不同学科(如社会科学类、理工类、医学类等)进行统计,从而可以从不同的角度分析馆藏数字资源的利用情况。 数据挖掘研究院
目前能实现数据库使用统计的统一检索平台很多,如:万方数据统一资源整合服务平台(Uinirms.Net)、CALIS统一检索平台、TRS资源整合门户、天宇异构资源统一检索平台(CGRS)等。
②基于自行设计软件的统计分析
虽然目前市场上统一检索平台很多,但能将所有数字资源全部纳入到平台中、检索功能完善、能有效提供使用统计数据的平台却不多,同时这些统一检索平台价格不菲。因而,目前真正将统一检索平台作为数字资源门户的图书馆并不多。为了对现有馆藏数字资源的使用情况进行统计,大多图书馆最终选择的是自行开发统计软件,如上海交通大学图书馆、复旦大学图书馆、北京师范大学图书馆、苏州大学图书馆等。
图书馆自行开发的统计软件一般都是基于jsp或者asp的图书馆网站访问统计软件,其优点是可以对所有馆藏数字资源进行统计,并且统计内容一致,从而可以进行所有数据库间的横向全面比较;其缺点是只能统计各个数据库的网页点击量,内部深层数据(如全文下载量、文摘访问量、检索次数等)无法获得。
2.1.3 基于Web数据挖掘的分析
Web使用记录挖掘的对象是读者访问Web页面后留在Web服务器上的Web日志记录和相关数据,包括所请求的URL、发出请求的IP地址和时间戳等。从中可以得到以下信息:对访问时间进行统计,可以得到服务器在某些时段的访问情况;对访问者IP进行统计,从中可以判断主要是哪些用户在访问这些资源;对访问者请求的URL进行统计,可以判断出读者对哪些资源的内容最感兴趣,对哪些不感兴趣[2]。这些日志数据对分析读者资源利用行为及规律是非常有用的。

数据挖掘研究院

2.2 定性跟踪法
从定量数据分析系统中虽然能得到很多有价值的数据和信息,但有些信息却无法从数据分析系统中得到,如读者在数字资源使用中常常会出现哪些问题,读者对数字资源有哪些具体要求,读者在使用数字资源时有哪些喜好,等等。要了解这些信息,就必须采取定性跟踪法。
2.2.1 利用Web交互技术进行跟踪
利用Web交互技术建立网上交互平台是最常用也是最有效的定性跟踪方法之一,笔者通过对苏州大学网上咨询台上的内容进行统计,76%的内容与数字资源的使用有关。Web交互技术在数字资源利用跟踪分析中的应用包括:设置BBS讨论板、设置留言板、开展网上实时咨询等,这些方法均能迅速收集到读者在使用数字资源中的反馈意见,以便于图书馆不断调整数字资源建设方案,改进数字资源服务模式。
利用Web交互技术进行跟踪分析,具有方式灵活、简单易用的特点,也是效果较好的定性分析法。如苏州大学图书馆经常为重点考察的数据库设置专门的讨论板,所谓重点考察数据库一般指试用数据库和新开通数据库。通过这些专门讨论板,可以了解读者对特定数据库的反应,如数据库内容是否与读者需求一致;检索平台读者是否能接受;系统是否稳定;读者在该数据库的使用过程最经常出现的问题是哪些,等等。对试用数据库而言,收集到的这些信息可以作为数据库订购决策的参考;对新开通数据库而言,则可以了解读者在使用过程中会出现哪些问题,以便在网上及时发布和修订数据库使用指南,并为该数据库培训提供参考信息。 数据挖掘研究院
2.2.2 采用读者调查法进行分析
读者调查法是传统的跟踪分析方法,一直以来就是图书馆员了解读者需求和图书馆服务状况的最主要工具。针对数字资源所作的调查主要用于以下几种情况:一是针对特定数据库所作的调查,主要适用于有意向购买或者准备停订的数据库,将调查得到的信息作为订购或停订的依据;二是针对某些学科所作的调查,主要是弄清这些学科的数字资源使用情况、需求情况以及数字资源保障情况,为该学科数字资源建设提供参考信息;三是全面调查,即在全校范围内针对所有数字资源所作的调查,主要了解图书馆数字资源配置及利用的整体情况,为各学科、各类型数字资源的平衡提供依据。
读者调查方法除传统的座谈会和印刷型问卷调查法外,还可以采用网上问卷调查、Email问卷调查、BBS专题调查、利用视频技术进行虚拟读者座谈会等调查方法[4]。
2.2.3 采用引文分析法进行分析
引文分析法在传统图书馆工作中,常常被用作评价馆藏结构及资源利用效果的重要方式。对数字资源利用跟踪而言,其仍然是非常有效的分析和评价方法。通过引文分析可以分析数字资源的保障情况,如电子期刊、电子图书、学位论文、会议文献、专利等各类文献的保障率;利用引文分析还可以评估馆藏电子资源的利用效益。 数据挖掘实验室
具体操作中可以采取抽样调查法抽取一定数量本馆读者所发表的典型论文,根据论文的引文情况,分析出引文中馆藏数字资源中包含的文献数量占全部引文数量之比,确定馆藏数字资源的保障率[5];分析引文中的中外文文献数量之比,考察馆藏中外文数字资源的建设比例;根据引文中馆藏数字文献数量推算本单位年引用数字文献总量,分析馆藏数字资源的利用效率,等等。 数据挖掘研究院

3 结束语

数据挖掘研究院

目前,数字资源利用跟踪分析在数字图书馆建设中已开始得到重视,但大多或以定性跟踪为主,或以定量分析为主。以定性跟踪为主则感性成份偏多,缺乏科学依据;以定量分析为主则与读者缺乏沟通,容易与现实产生差距。如果将定性跟踪法和定量分析法结合运用,得到的分析结果将更客观、更公正,对数字资源建设及相关工作的反馈指导作用也就更科学、更实用。
   
参考文献
[1] 朱兵,李春明.COUNTER与电子资源的使用评估.图书情报工作,2006,50(1):100-102
[2] 马建霞.图书馆数字资源访问统计研究.图书馆杂志,2005,24(8):25-28
[3] 马费成.信息资源开发与管理.北京:电子工业出版社,2001
[4] 戴咏梅,郑建明.网络环境下高校图书馆的读者调查方式.中国图书馆学报,2003,29(6):53-55
[5] 马建霞.图书馆数字资源后评估.情报资料工作,2005 (5):35-38 数据挖掘实验室

作者简介
严大香,女,1965年生,苏州大学图书馆信息咨询部工作,主要从事信息咨询、数字资源采购及宣传培训工作。通讯地址:江苏苏州十梓街1号 苏州大学图书馆 215006
数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?