RSS
热门关键字:  数据挖掘  人工智能  数据仓库  搜索引擎  数据挖掘导论

各种元数据格式简介

来源: 作者:unkonwn 时间:2004-12-03 点击:

1.CDWA(艺术作品描述目录)
名称:The Categories for the Description of Works of Art
简介:艺术作品描述目录(CDWA)由AITF(the Art Information Task Force)开发,主要为提供和使用艺术信息的团体(如博物馆和档案馆)描述艺术作品(包括其图像)提供结构化工具。它的描述重点在于“可动”的对象及其图像,包括来自不同时期和地理范围的油画、雕刻、陶艺、金属制品、家具、设计、表演艺术等等。该元数据有26个主要类目,每一个类目有其子类目,包括主题、记录、管理等项目。
网址:http://www.ahip.getty.edu/gii/cdwa/

  

2.CDF(频道定义格式)
名称:Channel Definition Format
简介:频道定义格式由微软公司在1997年三月提出。作为一个开放的专门说明,CDF允许网页出版商实现从任何自动传输的WEB服务器到相容的接受程序之间提供快速更新的信息集合或频道。CDF使用XML,并对XML和Web Collections进行了扩展,面向的用户是创建网页的个人或机构。它使用一个简单句法创见频道,因而除了WEB服务器和CDF适应的浏览器之外,不需要任何技术支持。


网址:http://www.w3.org/pub/WWW/TR/WD-xml-961114.html

  

3.BibTex(科技文献书目资源格式)
名称:
简介:BibTex是描述科技文献书目资源的格式,是LaTeX的一部分(LaTeX是文件打印设置系统)。BibTex是一个单独的程序,通过从一个书目数据库获取信息从而产生文件的来源列表。主要用在科学和学术界以及工业领域。
网址:ftp://ftp.shsu.edu/tex-archive/biblio/bibtext/distribs/doc/

  
数据挖掘实验室

4.CIMI(博物馆信息计算机交换标准框架)
名称:A Standards Framework for the Computer Interchange of Museum Information
简介:CIMI是博物馆信息计算机交换标准框架,完整的框架包含交换协议、交换格式、低层网络和通信以及内容数据标准。现阶段CIMI的主要计划是CHIO(Cultural Heritage Information Online,文化遗产联机信息),主要目标是提供对各类博物馆信息的记录方式,包括展览目录的全文本、展品文字解释(wall texts)、图象以及传统的文献类信息。CHIO包括两个部分:CHIO结构(包括内容数据标准及其格式)和CHIO存取(access)。前者使用SGML,后者使用Z39.50。
网址:http://www.cni.org/pub/sgml/ead

  
数据挖掘实验室

5.DC(都柏林核心元数据)
名称:Dublin Core Metadata,DC
简介:都柏林核心元数据是一个由计算机专家、网络专家和图书馆专家等人员所组成的非正式小组开发的,目的是要建立一个广泛的元数据元素集,可以描述任何网络信息资源,并足够的简单以至任何作者无需专门的培训就可以创建自己文件的元数据。DC具有创建和维护简单、广为理解的句法、系统互用性、可扩展性等特点。目前,DC已经拥有15个基本元素,并可以使用TYPE和SCHEME限定词以及LINK参照对元素进行扩展。
网址:http://www.ukoln.ac.uk/metadata/dcdot
   http://dublincore.org
   http://purl.oclc.org/dc/

  

6.EAD(编码文档描述)
名称:Encoding Archival Description,EAD
简介:编码文档描述是SGML的一个专用数据类型(DTD)。美国国会图书馆网络开发/MARC标准办公室是它的维护机构,美国档案管理员协会(SAA,the Society of American Archivists)是该标准的所有者。EAD主要用于描述档案和手稿资源(manuscripts collections),并利用网络检索和获取档案手稿类信息资源。相对于提供概括性描述和整体存取的MARC记录,EAD意在提供具体细节的描述和存取。EAD还提供“发现辅助”(美国使用“发现辅助”-finding aids-英国使用“详细目录”-detailed catalogues),力图提供一个完整、等级式的描述结构,并主要为具有知识组织和档案实践的人们所设计。高层元素主要包括:头标<eadheader>;前面事项<front mater>;档案描述<archdes>。每一个高层元素又包括多个小项以及若干细项。
网址:ftp://library.berkeley.edu/pub/sgml/ead

  
数据挖掘研究院

7.EELS(工程电子化图书馆)
名称:the Engineering Electronic Library
简介:工程电子化图书馆是瑞典大学技术图书馆的一个合作计划,为网络信息资源的质量评价提供一个信息系统。EELS使用的元数据是该计划所专有的。目前,该格式只由图书馆员与信息专家使用。EELS格式包括11个属性.
网址:http://www.ub2.lu.se/eel/eelhome.html

  

8.EEVL(爱丁堡工程虚拟图书馆)
名称:EEVL,Edinburgh Engineering Virtual Library
简介:爱丁堡工程虚拟图书馆是欧洲电子图书馆计划(eLib, the Electronic Libraries Programme)资助的计划,目的是为工程领域的高质量信息资源提供主题查询网关。它的元数据格式为该计划专有,包括22个属性,用于专门描述网络资源。
网址:http://www.eevl.ac.uk/pubs.html

  
数据挖掘研究院

9.FGDC(联邦地理数据委员会)
名称:FGDC,the Federal Geographic Data Committee
简介:联邦地理数据委员会在1992年建立了一个地理数据文件的术语和定义集合,并在1994年通过数字化地理元数据的内容标准(Content Standards for Digital Geospatial Metadata),名为CSDGM,但通常仍叫做FGDC。FGDC包括300多个元素,包括7个主要段和3个辅助段。国家地理信息交换所(National Geospatial Data Clearinghouse)作为主题化信息网关利用FGDC实现数字化地理数据的发现、评价和下载。
网址:http://www.fgdc.gov/Metadata/metahome.html

  
数据挖掘实验室

10.GILS(政府信息定位服务)
名称:the Government Information Locator Services,GILS
简介:政府信息定位服务由美国联邦政府建立,面向普通公众和政府用户提供如何定位和查找由许多政府机构产生的有用信息,因此它的用户非常广泛,许多国家的政府机构,如加拿大、澳大利亚等正密切注视美国的GILS计划。
网址:http://www.usgs.gov/public/gils/prof_v2.html

  
数据挖掘研究院

11.IAFA/WHIOS++Templates(因特网匿名FTP文件库版式)
名称:IAFA Templates,Internet Anonymous FTP Archive Templates
简介:因特网匿名FTP文件库版式是由IETE(Internet Engineering Taskforce)的IAFA研讨班设计的,目的是建立一个记录格式,可以被FTP文件库管理员用来描述来自这些文件库的各种资源。IAFA版式通过描述FTP文件内容和服务实现对FTP文件库的有效获取。最初的打算是FTP站点管理员能让每一个访问该站点的用户获得该版式描述的信息。如果FTP站点使用普通的索引和目录指南,那么类似Harvest那样的软件就能自动检索记录。现在,IAFA版式已开发出使用whois++协议实现FTP文件库的检索和获取,同时还具有在多个数据库之间搜索的能力。IAFA的支持者已经扩展了最初目标,立足设计一个足够简单的记录格式,能被参加创建网络资源的个人和机构所使用。
网址:http://info.webcrawler.com/mark/projects/iafa/iafa.txt

  

数据挖掘研究院

12.ICPSR SGML Codebook(政治和社会研究方面的校际联盟)
名称:ICPSR,Interuniversity Consortium for Political and Social Research
简介:政治和社会研究方面的校际联盟,在1995年建立了一个委员会,针对社会科学研究团体对国际性Codebook标准的需要,开发描述社会科学数据集的结构化信息集。一个Codebook通常包括结构、内容、数据文件或数据集的信息,该委员会力图覆盖社会科学中各类数据集和数据集系统,其Codebook中的元素是从社会科学调查、研究、档案和技术团体中使用的一系列使用指南和标准中选取的。
网址:http://www.lib.umich.edu/codebook.html

  
数据挖掘研究院

13.LDAP DIF(轻便型目录获取协议)
名称:LDAP,the Lightweight Directory Access Protocol
简介:轻便型目录获取协议为那些在OSI低层中无法运行目录获取协议的机器提供获取X.500目录服务的方式。LDIF,即LDAP数据交换格式(LDAP Data Interchange Format)已被网景公司采用,它声明要将LDAP结合到它的网景导航器(Netscape Navigator)中,这意味着WWW的用户将拥有一个被直接传送到用户桌面的目录搜索和检索协议,这相对于目前通过第三者进行搜索和检索工作的现状,的确是一个进步。
网址:http://www.umich.edu/~rsug

  
数据挖掘研究院

14.MARC(机读目录格式)
名称:MARC
简介:机读目录格式是图书馆描述、存储、交换、处理以及检索信息的基础,经过不断发展已被图书馆用来描述和存取电子信息资源,例如扩展MARC格式的“电子位置及提取方式字段”(即856字段,可重复)可利用MARC记录描述网络化电子资源(包括网页、电子期刊、telnet系统、FTP站点等)的特征、连接方式和提取要求。最近,有关机构还开展了MARC与SGML等元数据格式互操作性的试验。
网址:http://www.loc.gov/marc/marc.html

  
数据挖掘研究院

15.MCF(元内容框架)
名称:Meta Content Framework,MCF
简介:元内容框架,由网景公司于1997年6月提交给W3C。它是过去多项元数据工作(如XML、CDF、PICS、Web Collection)发展的结果,产生了一个“数据模型和相应的交换格式”,足够强大以适应任何应用。MCF主要应用于:描述WEB站点或频道集合的结构;贯穿email;PIM功能;分布式注解和创作;交换相关于商业的信息,如价格、存货清单、送货日期。
网址:http://www.textuality.com/mcf/NOTE-MCF-XML.html

  

数据挖掘实验室

16.PICA+(荷兰图书馆自动化中心)
名称:The Dutch Center for Library Automation,PICA
简介:荷兰图书馆自动化中心为荷兰图书馆以及许多德国图书馆网络提供共享编目、馆际互借以及文件传送等服务,建有NCC/IBL系统,它提出了基于MARC的文献数据库和其他信息资源描述格式。
网址:http://www.ukoln.ac.uk/metadata/desire

  

17.PICS(网络内容选择平台)
名称:Platform for Internet Content Selection,PICS
简介:网络内容选择平台始于1995年8月,最初用于帮助父母和老师控制儿童获取网络资源,后来作为一项技术规范,使用户能够轻松找到合适的内容又避免那些对自己或儿童不适合、不需要的内容。该规定易于创建和获取,标记各种系统以及相关的内容选择和过滤机制,从而允许不同的人和机构以最适合各自观点的方式标记网页内容。PICS技术规范最终在1996年初完成,此后PICS被结合到一系列产品中,例如基于PICS的评级服务和过滤工具被大量地开发出来。
网址:http://www.ariadne.ac.uk/issue9/pics

  
数据挖掘实验室

18.RDF(资源描述框架)
名称:Resource Description Framework,RDF
简介:资源描述框架,是一个基于组(group-based)的元数据计划,由W3C(World Wide Web Consortium)开发,通过多个致力于元数据发展的组织的共同努力,开发出一个强大、灵活的元数据框架,能运用于广泛领域,确保元数据之间互操作性。可以说,RDF是处理元数据的基础。RDF可以用于资源发现,为搜索引擎提供更强大的功能;用于编目,描述内容以及内容之间的关系;用于智能软件,实现知识共享和交流;用于内容分级,用于描述表示一个逻辑文件的“页面集”;用于描述网页的“智力属性权利”;用于表现用户“秘密爱好”以及网站“秘密政策”等等。RDF的“数字化标识”是为电子商务等应用建立“可信赖网页”的关键。元数据的用户,如搜索引擎、目录编制以及浏览器可采用RDF以改善网络资源的组织状况。
网址:http://www.w3.org/TR/REC-rdf-syntax/

  
数据挖掘研究院

19.RFC(书目记录格式)
名称:A Format for Bibliographic Records,1995
简介:RFC 1807(书目记录格式)只是一个备忘录,而不是一个标准,定义电子邮寄技术报告的书目记录格式。RFC1807取代了1992年的RFC1357。主要用于美国技术团体,格式的阅读和建立都容易,可使用任何文本编辑器,而不需要任何专门程序就可以准备和阅读书目记录。
网址:http://www.cis.ohio-state.edu/htbin/rfc/rfc1807.html

  
数据挖掘研究院

20.SGML(通用标准标记语言)
名称:Standard Generalized Markup Language,SGML
简介:通用标准标记语言作为国际标准(ISO8879,1986),利用通用方式和元标识语言(meta language)对文献内容和结构进行标记,实现对各类文献结构和内容的系统化标准化描述,从而建立起通用数字化文献。SGML文献由SGML前言(SGML prolog)和SGML例示(SGML Instance)组成,其中SGML前言包括SGML陈述(SGML Declaration)和文献类型定义(Document Type Definition,DTD)。DTD由描述标记的一系列标记定义组成,包括元素定义(element declaration)、属性定义(attribute declaration)、实体定义(entity declaration)和注释定义(notation declaration),不同类别文献将有不同的DTD。目前,SGML广泛应用于文件及元数据格式的编码,成为众多元数据格式的基础。
网址:http://www.sil.org/sgml/sgml.html

  
数据挖掘研究院

21.SOIF(概略对象交换格式)
名称:the Summary Object Interchange Format,SOIF
简介:概略对象交换格式,是科罗拉多大学Harvest体系的一部分。SOIF记录由Harvest搜集器产生,并由Harvest代理使用,用于用户搜索,提供了由Harvest搜索器找到的资源的概况。在1996年3月,网景公司宣布在其目录服务器中使用SOIF,其它搜索引擎也准备支持SOIF。
网址:http://www.harvest.transarc.com/afs/transarc.com/public/tr
-g/Harvest/user-manual/nodel51.html

  
数据挖掘研究院

22.TEL Header(文本编码计划)
名称:the Text Encoding Initiative,TEI
简介:文本编码计划的目标是定义一个表现电子化文本资料的通用格式,使研究者能交换和重复使用资源,不受软件、硬件和应用领域的限制。美欧的学术
团体已加入到该计划中,并组成多个委员会考虑编码的各个方面。TEI Header作为TEI格式中元素定义部分,基于SGML/DTD,可作为TEI文件的一部分,或作为独立的元数据存在。
网址:ftp://info.ox.ac.uk/pub/ota/TEI/doc/teij31.sgml

  

数据挖掘研究院

23.URCs(统一资源特征)
名称:URCs,Uniform Resource Characteristics/Citation
简介:统一资源特征用于识别:关于联机资源编目信息的长术语;连接元数据或描述信息的标准方式;作为将URN分解到URL的过程信息;选择资源时的应用信息。URC的目的在于全面确保电子资源的机器可检索性。
网址:http://www.acl.lanl.gov/URI

  

24.Warwick Framework(Warwick框架)
名称:Warwick Framework
简介:Warwick框架是一个集合元数据对象的结合性结构。它是在由UKOLN和OCLC联合举办的第二届元数据研讨班上提出的,用于交换元数据包。一个包(package)是用于某专门目的的元数据对象。一个基于DC的记录就可以是一个包,一个GILS记录也是一个包。这种结构是模型化的,允许不同类型的元数据类型:是可扩展的,允许新的元数据类型;是分布式的,允许参考外部元数据对象;是递归性的,允许元数据对象处理信息内容和有与之相联系的元数据对象。
网址:http://cs-tr.cs.cornell.edu:80/Dienst/Repository/2.0/B-
ody/ncstrl.cornell%2fTR96-1593/html

  
数据挖掘研究院

25.Web Collections(网站集合)
名称:Web Collections
简介:网站集合作为XML的应用之一,1997年3月向W3C提出,用于描述网页资源的性质,建立一个标准元数据框架。它主要集中在传统的HTML页面,其具体描述在文本上类似于HTML.Web Collections可有广泛用途,如网页、网页组、电子邮件提取、PIM功能、调度、内容标记以及分布式创建等等.
网址:http://www.w3.org/TR/NOTE-XMLsub-mit.html

  
数据挖掘实验室

26.XML(可扩展标记语言)
名称:eXtensible Markup Language,XML
简介:可扩展标记语言由Generic SGML编辑调查委员会(在W3C赞助下)于1996年开发出来的,由Sun Microsystem的Joe Bosak负责。XML是SGML的一个应用文档或限制格式,但不是一个固定格式,因而是“可扩展”的。XML本身不仅仅是一个标记语言,还是一个元语言,允许用户设计自己的标记语言。XML实际上定义了一个简单的SGML语言集,用现在在HTML中可能的方式实现普通SGML文件的使用、接受和处理。作为标记语言的元语言,XML可以运用到广泛的领域,MCF、RDF、Web Collections都使用XML作为基本的句法。
网址:http://www.w3.org/pub/WWW/TR/WD-xml-961114.html

数据挖掘研究院

最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
匿名?