SARS冠状病毒全基因组突变分析

张其鹏,石磊,芮伟,卢铭
(北京大学医学部生物信息组 100083)

背景:SARS associated Coronavirus 作为一种新的、有较强传染性和较高致死性的冠状病毒,它的变异速度和程度都引起了大家的广泛重视。其变异速度快慢和程度高低都会影响到治疗效果以及疾病的预后。

目的:通过对目前公布的5个SARS associated Coronavirus的全基因组序列进行比对分析,试图找出SARS associated Coronavirus的易变区和保守区以及突变对病毒侵袭力和毒力的影响,从序列间突变个数的差异推断SARS Cov的变异速度。

方法与结果:用ClustalW对5条基因组序列进行多序列比对,根据Marco A.et al[1],对SARS Cov基因组读码框架的预测,分析蛋白质的变异情况。我们发现一共有31个变异点,11个集中在orf1a,8个集中在orf1b,S蛋白4个,4个集中在orf3(最后一个与orf4重叠),1个在orf4,两个在M蛋白,1个在orf7,1个在orf10。这31个突变中有26个是有意突变(Table1红字所标识),详见Figure1, Table 1

结论:经过比对,发现至少在这5株SARS Cov中,变异并不是很大(Mutaion/SequenceLength<0.11%),我们可以认为在采样的时间段内,SARS Cov并没有发生较大的变异和转型,考虑到这5株病毒在同一地点较短时间取样的可能性很小,故可以推断SARS Cov的变异速度并不是很快。观察到N蛋白编码区并无变异出现,我们可以拟其为较保守区。

参考文献:

  1. Marco A. et al. The Genome Sequence of the SARS-Associated Coronavirus. ScienceExpress/ www.sciencexpress.org / 1 May 2003 / Page 1/ 10.1126/science.1085953
Figure1. Mutation distribution on whole Genome

Table 1. Mutation on whole Genome

Position in Tor2 Urbani HKU-39849 Tor2 BJ01 CUHK-W1 Relative Frequency ORF
2601: T(V) C(V) T(V) T(V) T(V) C(1)/T(4) orf1a
7746: G(P) G(P) G(P) G(P) T(P) T(1)/G(4)
7919: T(V) C(A) C(A) C(A) C(A) T(1)/A(4)
7930: G(D) A(N) G(D) G(D) G(D) A(1)/G(4)
8387: G(S) C(T) G(S) G(S) G(S) C(1)/G(4)
8417: G(R) C(T) G(R) G(R) G(R) C(1)/G(4)
8572: G(V) G(V) G(V) T(L) G(V) T(1)/G(4)
9404: T(V) T(V) T(V) C(A) C(A) A(2)/T(3)
9479: T(V) T(V) T(V) T(V) C(A) A(1)/T(4)
9854: C(A) C(A) C(A) T(V) C(A) T(1)/C(4)
10587: A(T) A(T) A(T) C(T) A(T) C(1)/A(4)
13494: G(K) A(K) G(K) G(K) G(K) A(1)/G(4) orf1b
13495: T(L) G(V) T(L) T(L) T(L) G(1)/T(4)
16622: T(L) C(P) C(P) C(P) C(P) T(1)/C(4)
17564: T(I) T(I) T(I) G(R) G(R) G(2)/T(3)
17846: C(A) C(A) C(A) C(A) T(V) T(1)/C(4)
18065: G(S) A(N) G(S) G(S) G(S) A(1)/G(4)
19064: G(S) A(N) A(N) A(N) G(S) G(2)/A(3)
19838: A(Y) A(Y) A(Y) G(C) A(Y) G(1)/A(4)
21721: G(G) G(G) G(G) A(D) A(D) A(2)/G(3) S protein
22222: T(I) T(I) T(I) C(T) C(T) C(2)/T(3)
23220: T(S) T(S) G(A) T(S) T(S) G(1)/T(4)
24872: C(L) T(L) T(L) T(L) T(L) C(1)/T(4)
25298: G(G) G(G) A(R) G(G) G(G) A(1)/G(4) orf3
25569: T(M) A(K) T(M) T(M) T(M) A(1)/T(4)
25673: A(K) A(K) A(K) C(Q) A(K) C(1)/A(4)
26050: A(P) A(P) A(P) C(P) A(P) C(1)/A(4)
26050: A(Q) A(Q) A(Q) C(P) A(Q) C(1)/A(4) orf4
26600: C(A) T(V) C(A) C(A) C(A) T(1)/C(4) M protein
26857: C(P) T(S) T(S) T(S) T(S) C(1)/T(4)
27243: C(P) C(P) C(P) T(L) C(P) T(1)/C(4) orf7
27827: T(C) T(C) T(C) C(R) C(R) C(2)/T(3) orf10
All copyright reserved by CMBI©2003

2003-5-4