我们将以北京生物信息中心SRS数据库查寻系统为例讲述SRS系统的使用方法,你可以打开网页http://srs.pku.edu.cn/srs6/访问北京大学生物信息中心SRS数据库查寻系统。进入SRS主页,点击“Start”按钮即可进入SRS数据库查询系统。

图5.1为北京大学生物信息中心SRS数据库查询系统
在SRS系统的主界面上可以看到北京大学生物信息中心SRS数据库系统安装的部分数据库种类和名称。
点击页面右上方“Show all”右侧的”+”号按钮,即可显示所安装的所有数据库。用鼠标点击数据库名左侧的选择框以选中需要检索的数据库后,可以用三种方式进行查询。
1. 快速查询:在页面右上方的快速检索栏中填入关键词,按回车健或点击“Quick Search”按钮,即可得到查询结果。如选择蛋白质序列数据库SWISSPROT,输入钙离子通道“calcium channel”,按回车键或点击Quick Search按钮后即得到该数据库中与钙离子通道有关的蛋白质序列的条目及其它信息。
2. 标准查询:快速查询方式简单方便,但不便于由用户限定查询条件。例如,上述查询结果中包含了部分钾离子通道序列条目,也包括了钙离子通道序列片段条目,因为在这些条目中,也出现了“calcium channel”关键词。选择标准查询方式,则可以由用户给出适当的查询条件,以缩小查询范围。
仍以蛋白质序列数据库SWISSPROT为例,选择该数据库后,点击 “Standard”按钮,则进入该数据库的标准查询页面。将页面左侧查询结合方式选择栏“combine search with”下的AND改为BUTNOT,再在查询表单中分别填入“calcium channel”、“potassium channel”和“fragment”,则可将钾离子通道和钙离子通道蛋白的序列片段滤除。同时,在序列条目显示方式栏“Use predefined view”中选择“proteinChart”(图5.2),点击页面左上方的“Submit Query”按钮,则得到以Java图形表示的蛋白质序列疏水特性图。改变用于计算平均疏水值的残基数,可以得到不同的波形图(图5.3)。
图5.2 蛋白质序列数据库SwissProt标准查询页面

图5.3 蛋白质序列数据库SwissProt疏水特性图
3. 扩展查询:标准查询方式的功能比快速查询有所增加,但并没有体现SRS的全部查询功能。而利用扩展查询方式,则可充分利用SRS系统强大的查询功能。例如,可以将输入关键词的查询范围限定在物种、说明、作者、文献等范围内,也可以限定日期和序列长度等。对EMBL数据库,还可以选择人、植物、EST等不同的子库进行检索(图5.4)。例如,选择植物“Pln”,在物种“Organism”栏填入水稻的物种名“Oryza sativa”,在序列长度“>=”栏中填入400,并把“Display per page”的缺省值由30改为10000,点击“Submit Query”,则可得到EMBL数据库中长度大于400bp的所有水稻序列条目,并在屏幕上全部列出。此外,还可以选择EMBL和SwissProt等数据库的序列特征表(feature table)中某些特殊内容,实现快速高效的检索。例如,选择蛋白质序列数据库SwissProt,进入开展查询页面,在“FtKey”栏中选择“disulfide”,不填入任何关键词而直接点击“Submit Query”,则可得到SWISSPROT中所有含二硫键的蛋白质序列条目。

图5.4 核酸序列数据库EMBL扩展查询方式页面
上述SRS的使用方法,仅仅是其中一部分。SRS系统另有许多其它功能,它设有六个常用选择按钮:TOP PAGE、QUERY、RESULTS、SESSIONS、VIEWS、DATABANKS,点击这些按钮,则可随时进入其特定的页面。
TOP PAGE:数据库选择页面,用来选择所需查询的数据库名称。用户可选择一个数据库进行查询,也可同时选择多个数据库查询。
QUERY:标准查询方式页面,用来输入查询代码、编号、物种来源、说明、文献、作者、日期、关键词等查询项目,有的数据库可以选择全文搜索(All Text)选项,适用于对数据库内容不很熟悉、对所查信息不很确切的情况。
RESULTS:查询结果管理页面,用来对查询结果作组合、链接等处理,以得到进一步的筛选结果。
SESSIONS:查询过程存储页面,可以将某次查询过程以文件形式下载到用户本地计算机上保存起来,以供下次使用;也可把本地计算机上的存放的查询过程文件上载到服务器上。
VIEWS:显示管理页面,用户可以选择和定义查询结果的显示方式,包括文本方式、表格方式、图形方式、FASTA搜索结果方式等。
DATABANKS:系统安装的数据库清单,包括数据库名称、版本、类型、数据量、建立索引的日期等。
此外,SRS系统提供了详细的联机帮助信息,任何页面下点击右上方的Help按钮,即可启动联机帮助手册。仔细阅读该手册,可熟悉SRS系统的使用方法。
SRS系统的特点
SRS系统是一个功能强大的数据库查询功能,其主要特点作有以下几个方面。
1. 统一的用户界面
SRS具有为统一的Web用户界面,用户只需安装Netscape等网络浏览器即可通过Internet查询世界各地SRS服务器上的300多个数据库。SRS支持以文本文件形式存放的各种数据库,包括序列数据库EMBL、SwissProt,结构数据库PDB,资料数据库AAIndex、Biocat、dbcat,文献数据库MedLine等。
2. 高效的查询功能
生物信息数据库种类繁多,结构各异。如何快速、高效地对各种数据库进行查询,是数据库查询系统必须解决的问题。SRS系统采用了建立数据库索引文件的手段,较好地解决了这一问题。即使是含几百万个序列的EMBL数据库,只需几分钟即可实现整库查询,得到所需结果。此外,SRS系统具有查询结果相关处理功能,每次查询结果可作为进一步查询的子数据库,并可对其进行并、交等操作,对查询结果进行组合或筛选。
3. 灵活的指针链接
通过超文本指针链接实现信息资源的有机联系,是目前Internet信息服务的主要趋势。许多生物信息数据库均包含与其它相关数据库的代码,如SwissProt数据库中的蛋白质序列包含了该序列在EMBL、PDB、Prosite、Medline等其它数据库的代码。利用超文本链接,可将这些相关数据库联系在一起。SRS采用实时方式,根据查询结果产生链接指针,而不是在原始数据库中增加超文本标记,既节省了存储空间,也便于数据库管理。
5. 方便的程序接口
将序列分析等常用程序整合到基本查询系统中,是SRS的另一个重要特点。用户可以对查询结果直接进行进一步分析处理。例如,查询所得的蛋白质序列,可立即用BLAST和FASTA查询程序进行数据库搜索,找出其同源序列;也可以用PrositeSearch程序,寻找功能位点;用ClustalW程序进行多序列比较。
6. 开放的管理模式
在管理模式上,SRS采用了开放的方式。无论是数据库还是应用程序,均可进行扩充和更新。用户可在本地机上安装自己的SRS系统,并将自己的数据库添加到SRS系统中,并可与其它数据库实现超文本链接。也可自行编写应用程序,整合到SRS系统中。
7. 统一的开发平台
SRS系统中所有数据库均以文件系统方式存放,通过预先建立索引文件实现数据库查询。因此它不依赖于Oracle、Sybase等商业数据库管理软件,便于推广使用。为建立索引文件,特别是对EMBL这样大型数据库建立索引,系统的内存和CPU资源需要满足一定的要求。
