目录
摘要 ................................................................. - 1 - ABSTRACT .............................................................. - 2 - 1 前 言 ............................................................ - 3 - 2 相关知识的简介 .................................................... - 5 - 2.1生物信息学简介 ................................................... - 5 - 2.2数据库简介 ....................................................... - 5 - 2.3相关分析软件及网站 ............................................... - 6 - 2.4 本研究的目的与意义 ............................................... - 6 -
3 方法与分析 ......................................................... - 7 -
3.1 ILKAP基因及蛋白质一级结构分析 ................................... - 7 - 3.1.1 ILKAP基因cDNA的成分分析 ................................... - 7 - 3.1.2 开放阅读框查找分析 .......................................... - 8 - 3.1.3 ILKAP蛋白质一级结构分析 ................................... - 10 - 3.2 ILKAP蛋白质二级结构分析 ........................................ - 10 - 3.2.1 ILKAP蛋白质二级结构 ....................................... - 10 - 3.2.2跨膜结构域分析 ............................................. - 12 - 3.2.3蛋白的卷曲螺旋结构预测 ..................................... - 12 - 3.2.4 信号肽预测 ................................................. - 13 - 3.2.5蛋白质的疏水性预测分析 ..................................... - 14 - 3.2.6 蛋白质结构域预测分析 ....................................... - 15 - 3.3 ILKAP蛋白质三级结构预测分析 .................................... - 16 - 3.4 序列相似性分析 .................................................. - 17 - 4 结论与讨论 .................................................... - 20 - 4.1 结论 ............................................................ - 20 - 4.2 讨论 ............................................................ - 20 -
ILKAP基因及蛋白质的生物信息学分析
摘要
整合素连接激酶相关丝氨酸/苏氨酸磷酸酶(integrin-linked kinase-associated serine/threonine phosphatase, ILKAP)是近年来发现的一种重要的蛋白磷酸酶。本论文利用NCBI数据库,DNAman,DNASTAR-Lasergene等相关的生物信息学软件及相应的生物信息学分析网站,对大鼠进行基因和蛋白质结构的预测和分析,结果表明:ILKAP基因序列全长1318bp,包含一个46~1224bp的开放阅读框,编码一个由392个氨基酸残基组成的蛋白质,主要由α螺旋(146个)、无规则卷曲(149个)和少量的折叠(69个)构成。ILKAP在哺乳动物中高度保守,人与大鼠、小鼠以及大鼠与小鼠之间的同源性分别高达95%、95%、97%。ILKAP蛋白具有PP2C结构域,结合结构域的功能和其他物种中的ILKAP的功能,综合分析ILKAP可能与细胞凋亡的密切联系,而凋亡信号的阻断,导致了肿瘤的发生与发展。
关键词: ILKAP,生物信息学,核酸和蛋白质分析,同源性
- 1 -
Abstract
Integrin-linked kinase-associated serine/threonine phosphatase(ILKAP) is found in recent years of a kind of important protein phosphatase. This paper use the NCBI database, DNAman, DNASTAR-Lasergene and related bioinformatics software and corresponding bioinformatics analysis website, on Rattus norvegicus gene and protein structure prediction and analysis, the results show that: The ILKAP gene sequence of the full-length 1318bp, contains a 46 ~ 1224bp open reading frame, encoding a consists of 392 amino acid residues of proteins, mainly composed of an alpha helix (146), without the rules of curling (149) and a small amount of folding (69). ILKAP in mammals is highly conserved, the homology between the man and Rattus norvegicus, Mus musculus and Rattus norvegicus and Mus musculus were as high as 95%, 95%, 97%. ILKAP protein has a PP2C domain, binding domain of the function and other species in the ILKAP function, comprehensive analysis of ILKAP may be associated with apoptosis in close contact, and apoptotic signal blocking, resulted in tumor genesis and development.
Key words:ILKAP,Bioinformatics,Nucleic acid and protein analysis,homology
- 2 -
1 前 言
整合素连接激酶相关丝氨酸/苏氨酸磷酸酶integrin-linked kinase-associated serine/threonine(ILKAP)是近年来发现的一种重要的蛋白磷酸酶。从它被发现开始就显示出其与细胞凋亡的密切联系,而凋亡信号的阻断,导致了肿瘤的发生与发展。ILKAP主要通过抑制整合素连接激1(integrin-linked kinase-1,ILK-1)的活性负调控整合素激酶信号通路,以及通过去磷酸化凋亡信号调节激酶1(apoptosis signal-regulating kinase 1,ASK1)的Thr845正调控JNK/SAPK信号通路而发挥作用。而这两条信号通路与肿瘤的发生、发展都有非常密切的关系。
ILKAP最初是在大鼠中发现的一种蛋白质,这种蛋白质与大鼠PP2Cα或PP2Cβ有30%左右的序列同源性,并且它的C端片段具有蛋白磷酸酶2C结构域,但是其N端的76个氨基酸残基是其特有的,与目前所发现的任何一种蛋白质都没有同源性。后来将其列入PP2C蛋白家族,ILKAP由392个氨基酸残基组成,相对分子量约为43kDa,包含N端特异的76个氨基酸残基以及C端的PP2C类催化结构域。ILKAP在各种组织中均有广泛的表达,尤其是在骨骼肌,肝脏,肾脏中都有高水平的表达。
ILKAP在哺乳动物中高度保守,ILKAP所包含的PP2C结构域,与PP2Cα,Cβ,PP2Cγ所包含PP2C结构域的同源性分别为31%、29%、38%,而大鼠、小鼠以及大鼠与小鼠之间的同源性分别高达95%、95%、97%。ILKAP的C端大部分片段要是PP2C结构域,并包含了PP2C结构域共有的全部11个保守的活性位点,使ILKAP具备了丝氨酸/苏氨酸蛋白磷酸酶的催化活性。研究发现,东方田鼠抗日本血吸虫抗性相关基因E77.43 ORF编码的产物为整合素连接激酶相关丝氨酸/苏氨酸磷酸酶 ,与之相互作用的蛋白为整合素连接蛋白激酶(integrin-linked protein kinase,ILK)。而现有研究表明,ILKAP在细胞生长与凋亡的调控过程中起重要作用。E77.43编码的产物可能为ILKAP基因在东方田鼠中的同源基因。
PP2C的生理功能主要是通过去磷酸化作用负调控蛋白激酶级联信号系统,从而参与细胞周期调控、信号转导、基因转录、蛋白质翻译及翻译后修饰等细胞过程。ILKAP是PP2C的成员之一,作为一种抑癌基因,在肿瘤的发生发展中有其重要作用。它的主要生理功能是介导细胞凋亡,与肿瘤的发生、发展密切相关。了解ILKAP的基因各种信息,掌握其一级结构和高级结构对研究肿瘤发生及细胞凋亡有重要作用,研究其各种生物信
- 3 -
息进行分析,并与其他物种的ILKAP进行对比,这将为各种抗癌的生物制药提供重要线索。本研究主要通过所学的生物学知识,在导师的带领和指导下,运用现代计算机技术,网络资源,相关的在线分析软件和图书馆等平台,完成ILKAP的生物学信息分析,掌握现代生物信息学分析技能。
- 4 -
2 相关知识的简介
2.1生物信息学简介
生物信息学是一门交叉学科。它包含了生物信息的获取、管理、分析、解释和应用在内的所有方面。它综合运用生物学、计算机科学和数学等多方面知识与方法,来阐明和理解大量生物数据所包含的生物学意义,并应用于解决生命科学研究和生物技术相关产业中的各种问题。
生物信息学主要有三个组成部分:建立可以存放和管理生物信息数据的数据库;研究开发科利用有效分析与挖掘生物学数据的方法、算法和软件工具;使用这些工具去分析和解释不同类型的生物学数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达及生化途径等。
生物信息学这个术语从20世纪90年代开始使用,最初主要指的是DNA、RNA及蛋白质序列的数据管理和分析。自从20世纪60年代就有了序列分析的计算机工具,但是那时并未引起人们很大的关注,直到测序技术的发展使GenBank之类的数据库中存放的序列数量出现了迅猛的增长。现在该术语已扩展到几乎覆盖各种类型的生物学数据,如蛋白质结构、基因表达和蛋白质互作等。
2.2数据库简介
据保守估计,目前世界上平均每一分钟就有一个序列增加到核酸序列数据库中,能够从飞速增长的序列数据更高效的提取信息,建立生物信息中心,通过互联网实现全球范围内的信息共享成为必然。欧美各国及日本等西方国家相继成立了生物信息资源和研究中心,如美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)、位于英国的欧洲生物信息研究所(European Bioinformatics Institute,EBI)、位于瑞士日内瓦的蛋白质专家分析系统(The Expert Protein Analysis System,ExPaSy)、日本国立遗传学研究院(National Institute Genetics,简称NIG)等。以西欧各国为主的欧洲分子生物学网络组织(European Molecular Biology network ,EMBnet),成立于1988年,是目前国际上最大的分子生物信息研究、开发和服务机构。它把欧洲乃至世界各国的生物信息中心联系在一起,实现信息共享,并合作进行开发、研究、培训。
- 5 -
2.3相关分析软件及网站
序列分离软件:GeneStudio 序列翻译软件:Editseq
序列拼接软件:DNASTAR-Lasergene v6
开发阅读框:http://www.ncbi.nlm.nih.gov/gorf/gorf.html
美国国立生物技术信息中心(NCBI):http://www. ncb.inlm. nih. gov 卷曲螺旋结构预测软件:http://www.ch.embne.torg 信号肽预测软件:http://www.cbs.dtu.dk/services/SignalP
跨膜结构预测软件:http://www.ch.embne.torg/software/TMPRED_form. html 一级结构:http://wolfpsor.tseq.cbrc.jp 二级结构:http://abs.cit.nih.gov/gor/
三级结构:www.expasy.org/swissmod/swiss-model.htm
蛋白质数据库或DNA数据库中进行相似性比较的分析(BLAST): http://blast.ncbi.nlm.nih.gov/Blast.cgi
2.4 本研究的目的与意义
一 、课题目的
( 1 )对ILKAP的基因及蛋白质氨基酸序列组成进行生物信息学分析。 ( 2 )通过本论文的实施,熟悉NCBI进行生物信息学检索。掌握重要生物信息
学分析软件,进行生物信息学分析。 二、课题意义
ILKAP作为一种抑癌基因,在肿瘤的发生发展中有其重要作用,了解ILKAP的基因各种信息,掌握其一级结构和高级结构对研究肿瘤发生及细胞凋亡有重要作用。
通过所学的生物学知识,在导师的带领和指导下,运用现代计算机技术,网络资源,相关的在线分析软件和图书馆等平台,掌握现代生物信息学分析技能。
ILKAP是一种蛋白磷酸酶,与细胞调亡密切相关,研究其各种生物信息进行分析,并与其他物种的ILKAP进行对比,这将为各种抗癌的生物制药提供重要线索。
- 6 -
3 方法与分析
3.1 ILKAP基因及蛋白质一级结构分析
3.1.1 ILKAP基因cDNA的成分分析
先在NCBI中检索出ILKAP的核酸序列,然后采用DNASTAR软件中的Editseq程序,分析cDNA的碱基组成。结果如下: (1)碱基序列
>lcl|NM_022606.1_gene_1 [gene=Ilkap] [location=1..1318]
CGCCGCCCAGGCTAGCGCGAGCCTCCGCTCCATCGCCCCGCCGCCATGGACCTATTCGGGGACTTGCCGG
AGCCCGAGCGCCCGCCGCGGCCGTCTGCCGGGAAAGAAGCACAGGAAGGACCCGTGCTCTTCGAGGACCT
GCCCCCGACCAGCAGTACTGACTCAGGATCTGGGGGACCTTTACTCTTTGATGGTCTTCCACCTGCTGGC
AGCGGCAATTCAGGTTCTCTTGCCACATCAGGCTCCCAGGTGGTGAAGAACGAAGGAAAAGGAGCAAAGA
GGAAAGCCCCTGAGGAAGAGAAGAATGGCGGTGAAGAGCTTGTGGAAAAGAAAGTTTGTAAAGCCTCTTC
GGTGATCTTTGGTTTGAAAGGCTACGTGGCAGAGCGGAAGGGTGAGAGGGAGGAGATGCAGGACGCCCAT
GTCATCCTGAATGATATCACTCAGGAGTGTAATCCTCCATCATCTCTCATTACTCGGGTTTCATACTTTG
CTGTTTTTGATGGACATGGAGGAATTCGAGCCTCGAAATTTGCTGCACAGAATTTGCACCAGAACTTAAT
CAGGAAATTTCCTAAAGGAGATGTAATCAGTGTGGAGAAGACTGTGAAGAGGTGCCTGCTAGATACTTTT
AAGCACACCGATGAAGAGTTCCTGAAACAGGCTTCAAGCCAGAAGCCTGCCTGGAAAGACGGGTCCACTG
CCACGTGTGTCCTGGCTGTGGACAACATCCTGTATATCGCCAACCTTGGAGATAGTCGGGCAATCCTGTG
- 7 -
(2)碱基成分
Total number of bases is 1318
% A = 24.51 [323] % G = 29.36 [387] % T = 22.23 [293] % C = 23.90 [315] % A+T = 46.74 [616] % C+G = 53.26 [702]
BASE COUNT 323 a 315 c 387 g 293 t
3.1.2 开放阅读框查找分析
对ILKAP拼接全长cDNA序列用NCBI
ORFfinder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)进行开放阅读框分析,输入检索号即可。见图1,大鼠ILKAP基因的开放阅读框为46~1224bp。
46 atggacctattcggggacttgccggagcccgagcgcccgccgcgg
M D L F G D L P E P E R P P R
91 ccgtctgccgggaaagaagcacaggaaggacccgtgctcttcgag
P S A G K E A Q E G P V L F E
136 gacctgcccccgaccagcagtactgactcaggatctgggggacct
D L P P T S S T D S G S G G P
181 ttactctttgatggtcttccacctgctggcagcggcaattcaggt
L L F D G L P P A G S G N S G
226 tctcttgccacatcaggctcccaggtggtgaagaacgaaggaaaa
S L A T S G S Q V V K N E G K
271 ggagcaaagaggaaagcccctgaggaagagaagaatggcggtgaa
G A K R K A P E E E K N G G E
316 gagcttgtggaaaagaaagtttgtaaagcctcttcggtgatcttt
- 8 -
E L V E K K V C K A S S V I F
361 ggtttgaaaggctacgtggcagagcggaagggtgagagggaggag
G L K G Y V A E R K G E R E E
406 atgcaggacgcccatgtcatcctgaatgatatcactcaggagtgt
M Q D A H V I L N D I T Q E C
451 aatcctccatcatctctcattactcgggtttcatactttgctgtt
N P P S S L I T R V S Y F A V
496 tttgatggacatggaggaattcgagcctcgaaatttgctgcacag
F D G H G G I R A S K F A A Q
541 aatttgcaccagaacttaatcaggaaatttcctaaaggagatgta
N L H Q N L I R K F P K G D V
586 atcagtgtggagaagactgtgaagaggtgcctgctagatactttt
I S V E K T V K R C L L D T F
631 aagcacaccgatgaagagttcctgaaacaggcttcaagccagaag
K H T D E E F L K Q A S S Q K
676 cctgcctggaaagacgggtccactgccacgtgtgtcctggctgtg
P A W K D G S T A T C V L A V
721 gacaacatcctgtatatcgccaaccttggagatagtcgggcaatc
D N I L Y I A N L G D S R A I
766 ctgtgtcgatataacgaggaaagtcaaaagcatgcagccttaagc
L C R Y N E E S Q K H A A L S
811 ctcagcaaagagcacaatccaactcagtatgaagagcgcatgagg
L S K E H N P T Q Y E E R M R
856 atacagaaggctggaggcaatgtcagagatggccgtgtcttgggt
I Q K A G G N V R D G R V L G
901 gtgctggaggtatcccgctccattggagatgggcagtacaagcgt
V L E V S R S I G D G Q Y K R
946 tgcggggtcacatccgtgcctgatatcagacgctgccagttgacc
C G V T S V P D I R R C Q L T
991 cccaatgacaggttcattttgctggcttgtgatgggctcttcaag
P N D R F I L L A C D G L F K
1036 gtctttaccccagaagaagctgtgaacttcatcttgtcctgcctt
V F T P E E A V N F I L S C L 1081 gaggatgagaagatccagacccgagaagggaagcctgctgttgat
E D E K I Q T R E G K P A V D
1126 gcccgctatgaagctgcatgcaacaggctggctaacaaggcagtg
A R Y E A A C N R L A N K A V
1171 cagcggggctcggcagataacgtgacggtgatggtggtgaggata
Q R G S A D N V T V M V V R I
1216 ggacactga 1224
G H * 图1 ILKAP ORF预测图
- 9 -
3.1.3 ILKAP蛋白质一级结构分析 (1)氨基酸序列
利用 DNASTAR软件中的Editseq程序,放入基因序列,选中开放阅读框检索出氨基酸序列,结果如下:
MDLFGDLPEPERPPRPSAGKEAQEGPVLFEDLPPTSSTDSGSGGPLLFDGLPPAGSGNSGSLATSGSQVVKNEGKGAKRK
APEEEKNGGEELVEKKVCKASSVIFGLKGYVAERKGEREEMQDAHVILNDITQECNPPSSLITRVSYFAVFDGHGGIRAS
KFAAQNLHQNLIRKFPKGDVISVEKTVKRCLLDTFKHTDEEFLKQASSQKPAWKDGSTATCVLAVDNILYIANLGDSRAI
LCRYNEESQKHAALSLSKEHNPTQYEERMRIQKAGGNVRDGRVLGVLEVSRSIGDGQYKRCGVTSVPDIRRCQLTPNDRF
ILLACDGLFKVFTPEEAVNFILSCLEDEKIQTREGKPAVDARYEAACNRLANKAVQRGSADNVTVMVVRIGH
(2)基因所编码蛋白质的特征分析
利用http://wolfpsor.tseq.cbrc.Jp将所得的氨基酸进行分析,发现氨基酸数:392;理论PI 6.68;负电荷数:54;正电荷数:53;分子式:C1859H2992N542O585S14总原子数:5992;估计半衰期:30h;不稳定指数:42.19;脂肪指数:78.11;总平均亲水性:-0.484。
(3)氨基酸组成 见表1
表1氨基酸组成成分 氨基酸 数 量 百分率 氨基酸 数 量 百分率 Ala (A) 31 7.9% Leu (L) 32 8.2% Arg (R) 24 6.4% Lys (K) 28 7.1% Asn (N) 17 4.3% Met (M) 4 1.0% Asp (D) 22 5.6% Phe (F) 14 3.6% Cys (C) 10 2.6% Pro (P) 21 5.4% Gln (Q) 15 3.8% Ser (S) 29 7.4% Glu (E) 32 8.2% Thr (T) 16 4.1% Gly (G) 35 8.9% Trp (W) 1 0.3% His (H) 7 1.8% Tyr (Y) 7 1.8% Ile (I) 17 4.3% Val (V) 29 7.4%
3.2 ILKAP蛋白质二级结构分析
3.2.1 ILKAP蛋白质二级结构
进入网站http://abs.cit.nih.gov/gor/,输入氨基酸序列于框中,提交,结果见图2。
- 10 -
MDLFGDLPEPERPPRPSAGKEAQEGPVLFEDLPPTSSTDSGSGGPLLFDGLPPAGSGNSGSLATSGSQVV
hhhetccccccccccccccccccccceeeeccccccccccccccceeetcccccccccccccccchhhhh
KNEGKGAKRKAPEEEKNGGEELVEKKVCKASSVIFGLKGYVAERKGEREEMQDAHVILNDITQECNPPSS
hhhcttccccchhhhhhhhhhhhhhhhhhtccheeehhhhhhhhtcchhhhhhhhhhhhhhccccccccc
LITRVSYFAVFDGHGGIRASKFAAQNLHQNLIRKFPKGDVISVEKTVKRCLLDTFKHTDEEFLKQASSQK
ccccceeeeeectttcchhhhhhhhhhhhhhhhhcccccccchhhhhhhhhhhhhhhhhhhhhhhhhtcc
PAWKDGSTATCVLAVDNILYIANLGDSRAILCRYNEESQKHAALSLSKEHNPTQYEERMRIQKAGGNVRD
ccccttccheeeeeetteeeeecccccheeeeetccccccceeeeeeccccccchhhhhhhhhttceeet
GRVLGVLEVSRSIGDGQYKRCGVTSVPDIRRCQLTPNDRFILLACDGLFKVFTPEEAVNFILSCLEDEKI
tceeeeeehhhhttccccccceeecccccceeeccttcheeeeetttcheeccchhhhhhhhhhhhhhhh QTREGKPAVDARYEAACNRLANKAVQRGSADNVTVMVVRIGH Hccccccchhhhhhhhhhhhhhhhhhttcccceeeeeeeecc
注:H代表螺旋,E代表折叠,C代表卷曲结构。 Alpha helix (Hh) α螺旋 : 146 is 37.24% Random coil (Cc) 无规卷曲 : 149 is 38.01% Extended strand (Ee) β折叠片 : 69 is 17.60%
图2 ILKAP蛋白二级结构预测结果
α螺旋又称3.613-螺旋,它是由氢键封闭的13元环,每圈螺旋占3.6个氨基酸。α螺旋由于与溶剂的作用或中间有脯氨酸等也会发生弯曲。不同的残基对于α螺旋中间部位及N端或C端出现的倾向性不同。β折叠片是带状的β折叠股间形成氢键而构成的,
- 11 -
在氨基酸序列上往往是不连续的,几乎所有的β折叠片在沿着β折叠股的方向均发生右手的扭曲,在β折叠股间形成左手的扭曲,某些残基倾向于出现β折叠中,β-转角是由第一个残基的C=O与第四个残基的N-H氢键结合而形成一个紧密的环无规卷曲泛指那些不能被归入明确的二级结构的多肽区段。 预测结果显示,组成ILKAP蛋白的392个氨基酸中,146个氨基酸可能形成α螺旋结构,69个氨基酸可能形成β折叠片,149个氨基酸可能形成无规卷曲。ILKAP蛋白以三种形式存在,α螺旋,β-折叠,无规则卷曲。其中α螺旋,无规则卷曲占主要地位。
3.2.2跨膜结构域分析
进入网站http://www.cbs.dtu.dk/services/TMHMM-2.0/,输入氨基酸序列,提交,结果见图3,结果预测显示 ILKAP蛋白质无跨膜结构域。
图3 ILKAP蛋白质跨膜结构域预测结果
3.2.3蛋白的卷曲螺旋结构预测
进入网站http://www.ch.embnet.org/software/COILS_form.html,放氨基酸序列于框内,提交,结果见图4。结果显示,存在两个卷曲螺旋结构,区域在110~140、340~390位置,但通过跨膜结构分析知道在这些区域里并没有跨膜结构,所以,这些区域可能
- 12 -
是其他的功能区域。
图4 ILKAP蛋白质卷曲螺旋结构预测图
3.2.4 信号肽预测
进入网站http://www.cbs.dtu.dk/services/SignalP/,放氨基酸序列于框内,提交,结果见图5。结果预测显示,没有信号肽,该蛋白质不是分泌蛋白。
- 13 -
max. C 38 0.124 max. Y 38 0.111 max. S 8 0.155 mean S 1-37 0.106
D 1-37 0.108 0.450 NO
图5 ILKAP蛋白质信号肽预测图
3.2.5蛋白质的疏水性预测分析
进入网站http://web.expasy.org/protscale/,放氨基酸序列于框内,提交,结果见图6。 蛋白质的疏水性分析是蛋白质二级结构和三级结构预测中的一个必要过程,通过分析可以得到蛋白质的亲疏水区域,一方面可以为二级结构预测结果提供参考,另一方面还可以为结构域以及功能域的划分提供依据。20种氨基酸的预测图及疏水参数见下表。(高正值的氨基酸具有更大的疏水性,而低负值的氨基酸则更加亲水。)
- 14 -
表2 20种氨基酸的预测图及疏水参数
Ala Arg Asn Asp Cys Gln Glu Gly His Ile 1.800 -4.500 -3.500 -3.500 2.500 -3.500 -3.500 -0.400 -3.200 4.500 Leu Lys Met Phe Pro Ser Thr Trp Tyr Val 3.800 -3.900 1.900 2.800 -1.600 -0.800 -0.700 -0.900 -1.300 4.200
图6 ILKAP蛋白质的疏水性预测图
从表中及图中可以看出整个蛋白质疏水性最大值为2.345。最小值为-3.245。在320~349区域氨基酸的疏水性最强。其次是220~230区域、390~395区域、100~110区域具有一定的疏水性。表现出整体具有一般的疏水性。
3.2.6 蛋白质结构域预测分析
结构域是在二级结构或超二级结构的基础上形成三级结构的局部折叠区,一条多肽链在这个域围内来回折叠,但相邻的域常被一个或两个多肽片段连结。通常由50~300
- 15 -
个氨基酸残基组成,其特点是在三维空间可以明显区分和相对独立,并且具有一定的生物功能如结合小分子。通过http://www.expasy.org/prosite对ILKAP蛋白结构域分析,显示有C端的PP2C类催化结构域,见图7。
Hits by PS01032 PP2C Protein phosphatase 2C signature : USERSEQ1 (392 aa)
147 - 155:
[level tag: (0)] YFAVFDGHG
图7 ILKA蛋白质结构域预测分析
3.3 ILKAP蛋白质三级结构预测分析
蛋白质三级结构的预测和分析,对理解蛋白质结构和功能之间的关系有着极其重要的意义。为了获得ILKAP蛋白的高级结构模拟图,先把ILKAP蛋白的氨基酸序列通过网上在线服务器,网址为www.expasy.org/swissmod/swiss-model.html,生成PDB格式,然后利用spdbv软件观看ILKAP蛋白的三维立体分子结构。通过预测有如下的结果:
图8 ILKAP蛋白质三级结构段
从图中可知道出现了18段结构,每段结构保存成pdb格式,再结合spdbv软件将每段结构进行分析。本论文仅展示一段结构的模型,见图9。
- 16 -
图 9
图中红色代表螺旋,灰色代表无规则卷曲,黄色代表折叠。从中可知道该段结构螺旋和无规则卷曲,并有折叠结构。
3.4 序列相似性分析
使用了NCBl的nucleotide blot程序http://blast.ncbi.nlm.nih.gov/Blast.cgi进行Highly similar sequences同源序列分析。结果显示见图10,可知到达95%的的相似区域,该对比的期望E值为0.0,表明相似性结果偶然产生的概率非常小。
图10 ILKAP核酸序列相似性
- 17 -
对比结果提示ILKAP基因编码的蛋白质可能具有高度的同源性,为进一步验证这个结果,在氨基酸水平进行相似性分析:利用NCBI的BLAST程序搜索http://blast.ncbi.nlm.nih.gov/Blast.cgi,见图11。
图11 ILKAP蛋白质相似性
根据图表,网页上显示的索引号及后面的数据分析,可知,小鼠与人、大鼠之间的同源性分别高达95%、97%。分析比较,可得结果,见图12。
- 18 -
图12ILKAP同源分析
- 19 -
4 结论与讨论
4.1 结论
大鼠ILKAP基因序列全长1318bp,包含一个46~1224bp的开放阅读框、编码一个由392个氨基酸组成的蛋白质,主要由α螺旋(146个)无规则卷曲(149个)和少量的折叠(69个)构成。ILKAP在哺乳动物中高度保守,ILKAP所包含的PP2C结构域,大鼠、小鼠以及大鼠与小鼠之间的同源性分别高达95%、95%、97%。结合结构域的功能和其他物种中的ILKAP的功能,综合分析ILKAP可能与细胞凋亡的密切联系,而凋亡信号的阻断,导致了肿瘤的发生与发展。
4.2 讨论
整合素连接激酶相关丝氨酸/苏氨酸磷酸酶integrin-linked kinase-associated serine/threonine(ILKAP)是近年来发现的一种重要的蛋白磷酸酶,它属于蛋白磷酸酶2C家族的新成员。PP2C功能结构域对细胞周期调控,对真核生物MAPK信号转导途径的负调控,及参与线粒体中某些代谢途径具有重要作用。
ILKAP作为一种抑癌基因,在肿瘤的发生发展中有其重要作用,了解ILKAP的基因各种信息,掌握其一级结构和高级结构对研究肿瘤发生及细胞凋亡有重要作用。研究其各种生物信息进行分析,并与其他物种的ILKAP进行对比,这将为各种抗癌的生物制药提供重要线索。因此,本论文采用生物信息学和比较基因组学方法,对大鼠ILKAP基因及蛋白质开展初步研究,分析其结构、表达和生物学功能,为后续研究奠定基础。
- 20 -
因篇幅问题不能全部显示,请点此查看更多更全内容