SARS冠状病毒部分蛋白质序列的三级结构预测

芮伟, 张其鹏, 石磊, 卢铭
(北京大学医学部生物信息组, 100083)

背景与目的:

在CMBI稍早(5.1)的工作中,我们已经基于基因组序列和蛋白质初步分析,完成了SARS Coronavirus所有推测蛋白质(putative protein)的二级结构分析(点击此处查看该文)。

为进一步证实二级结构预测的结构,并且更加形象化地显示SARS冠状病毒编码的各个蛋白质,我们利用互联网上常用的三级结构预测软件,对上述诸条蛋白质序列进行了逐一的预测建模,并进行了简单的附加分析。

方法与结果:

预测工具:Swiss-Model(由SwissProt提供的目前最著名的蛋白质三级结构预测服务)

预测思想:同源比较建模 (homology comparatvie modeling)

显示及分析工具:RasMol(Window Version 2.6)、Protein Explorer(version 1.982beta,IE6.0)

分析过程:

首先,我们将前面分析得到的ORF1ab、ORF1a、ORF1b(supposed)、Protein S、M、N、E等7条氨基酸序列,逐一提交给Swiss-Model。提交时的参数选择为:Blast Limit=0.00001; Template Choice=default blast search in ExPDB; Result Option=Normal Mode。

返回的结果有如下特征:

1. 上述7个推测蛋白,除orf1ab和orf1a之外,均未能生成预测的三级结构模型。返回信息皆为:

Searching sequences of known 3D structures.
No suitable target found ==> Exit
At present, SWISS-MODEL will generate models for sequences
which respond to these criteria:
BLAST search P value :< 0.00001
Global degree of sequence identity (SIM) : < 25 %
Minimal projected model length = 25 aa.


2. orf1aborf1a预测得到的三级结构文件完全相同!且肽链长度仅为301个氨基酸。
(点击链接可下载Swiss-Model建模得到的pdb文件)

由此我们推断:
很可能Swiss-Model仅对SARS orf1ab编码的某一个在PDB中存在同源模型的序列片段进行了建模。

为证实上述推断,我们利用orf1ab的序列,进行了3DModel Blast Search。返回结果如下:

ExPDB Sequences with high scorings
download
ExPDB
Blast
Score
see Exp. Reso. Parent
PDB
Description
1lvoC 2e-64 Detail X-RAY 1.96 1lvo STRUCTURE OF CORONAVIRUS MAIN PROTEINASE REVEALS COMBINATION OF A CHYMOTRYPSIN FOLD WITH AN EXTRA ALPHA- HELICAL DOMAIN
1lvoA 2e-64 Detail X-RAY 1.96 1lvo STRUCTURE OF CORONAVIRUS MAIN PROTEINASE REVEALS COMBINATION OF A CHYMOTRYPSIN FOLD WITH AN EXTRA ALPHA- HELICAL DOMAIN
1lvoE 2e-64 Detail X-RAY 1.96 1lvo STRUCTURE OF CORONAVIRUS MAIN PROTEINASE REVEALS COMBINATION OF A CHYMOTRYPSIN FOLD WITH AN EXTRA ALPHA- HELICAL DOMAIN
1lvoB 2e-64 Detail X-RAY 1.96 1lvo STRUCTURE OF CORONAVIRUS MAIN PROTEINASE REVEALS COMBINATION OF A CHYMOTRYPSIN FOLD WITH AN EXTRA ALPHA- HELICAL DOMAIN
1lvoF 2e-64 Detail X-RAY 1.96 1lvo STRUCTURE OF CORONAVIRUS MAIN PROTEINASE REVEALS COMBINATION OF A CHYMOTRYPSIN FOLD WITH AN EXTRA ALPHA- HELICAL DOMAIN
1lvoD 2e-64 Detail X-RAY 1.96 1lvo STRUCTURE OF CORONAVIRUS MAIN PROTEINASE REVEALS COMBINATION OF A CHYMOTRYPSIN FOLD WITH AN EXTRA ALPHA- HELICAL DOMAIN

用orf1a重复上述Blast操作,返回结果相同。而其他序列则不返回任何结果。

随后,我们利用Protein Explorer和文本编辑软件查看了orf1ab预测得到的pdb文件中包涵的氨基酸序列,比对orf1ab及其putative protein序列,发现:Swiss-Model建模的氨基酸为SARS orf1ab 3241-3541aa 的一段,即: SARS nsp2 (3CL-PRO)!! 具体的蛋白质三级结构如下图所示:

Display by Wireframe Mode
Display by Cartoon Mode

下表提供了SARS orf1ab和orf1a预测结果各种不同显示模式的文件下载: (由RasMol生成)

Swiss-Model Results of SARS Coronavirus Putative orf1ab Proteins
Display Mode
File Download
stained by group
stained by structure
Wireframe
Backbone
Sticks
Spacefill
Ball & Stick
Ribbons
Strands
Cartoons

此外,为了进一步确证上述"仅存在1lvo一个建模结构模板"的情况是否属实,我们还对全基因组序列已知的其他6种冠状病毒重复了SARS的上述操作。返回结果的情况与SARS完全相同。而更重要的是:尽管建模片断的长度(300-302个AA不等)和氨基酸序列各异,但是所得到的各个atom的参数及3D模型图,几乎完全一致!!

下表列出了Swiss-Model返回的各种冠状病毒orf1ab的片段建模文件,均可下载后利用RasMol或Protein Explorer显示并比较。
Swiss-Model Results of Coronaviruses' orf1ab Proteins
Organism
Graphic
File Download
SARS Coronavirus
Human Coronavirus 229E
Murine hepatitis virus
Bovine coronavirus
Porcine epidemic diarrhea virus
Transmissible gastroenteritis virus
Avian infectious bronchitis virus

 

分析与讨论

对照由Swiss-Model预测得到的SARS nsp2蛋白三维结构,在应用Protein Explorer分析其二级结构分布情况的同时,我们可以对比回顾一下前面所做的nsp2的二级结构预测,就能够得到以下一些初步的结论:
正面观
背面观

 

1.从3D图上可以明显看出,蛋白质明显分为中段的Sheet片层结构富集区(约20-180位)和靠近C末端Helix螺旋富集区(约205至300位)两个部分。其中片层富集区又分为两个部分(约20-97/115-180位),其间(约98-115位)由一个带转角(turn/loop)的长链(coil)连接。而连接片层区与螺旋区的,是一个仅有两个转角的长coil(约115-205位)。在片层区的前端(靠近N端),还有一个带有一个小螺旋的长链(约1-20位)

2.早期PROF二级结构预测,对于末端的5个Helix和蛋白质中段(约62至180位)的sheet片层结构预测较为准确。而对于N末端(约1-20)的coil(线状)和一个helix,以及连接两个Helix富集区的线状(coil)和转角(loop/turn)结构,则预测准确性较差。

参考文献

  • The Preliminary Analysis of SARS Coronaviruses Proteins' Sequences (II) (CMBI)
  • Guex N and Peitsch MC (1997) SWISS-MODEL and the Swiss-PdbViewer: An environment for comparative protein modelling. Electrophoresis 18:2714-2723.
  • J. Barrère, J-Y Dupont and N. Salamé : Structures et fonctions des molécules biologiques. Utilisations pédagogiques des visualisations tridimensionnelles avec Rasmol. INRP, 1997, 128 pages.
  • Martz, E. 2002. Protein Explorer: Easy Yet Powerful Macromolecular Visualization, Trends in Biochemical Sciences, 27 (February):107-109. http://proteinexplorer.org

All copyright reserved by CMBI©2003

2003-5-9