生物信息学基础

第一章 生物信息学概述

目录:

1背景与定义

2研究内容

3数据库与研究机构

4 期刊与教材

5 生物学、数学与计算机技术基础

6 展望

1. 背景与定义

1.1 背景

1953年WATSON, J. D.与CRICK, F. H. C.在《Nature》杂志上发表DNA双螺旋结构的论文

人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。

地球生物圈约有2 %的物种至少有一段 DNA序列被测定。

破译人类遗传密码就要读懂由30亿符号组成的100万页的天书。 美国的三个国家计划:曼哈顿计划;阿波罗计划;人类基因组计划。

曼哈顿计划(1941-1946),耗资20亿美元

美国陆军部于1942年6月开始实施的利用核裂变反应来研制原子弹的计划,亦称曼哈顿计划。为了先于纳粹德国制造出原子弹,该工程集中了当时西方国家(除纳粹德国外)最优秀的核科学家,动员了10万多人参加这一工程,历时3年,耗资20亿美元,于1945年7月16日成功地进行了世界上第一次核爆炸,并按计划制造出两颗实用的原子弹。整个工程取得圆满成功。

到1941年12月6日,美国正式制定了代号为“曼哈顿”的绝密计划。 罗斯福总统赋予这一计划以“高于一切行动的特别优先权”。

曼哈顿计划的最终目标是赶在战争以前造出原子弹。

在“曼哈顿工程区”工作的15万人当中,只有12个人知道全盘的计划。其实,全体人员中很少有人知道他们是在从事制造原子弹的工作。

曼哈顿计划不仅造出了原子弹,也留下了14亿美元的财产,包括一个具有9000人的洛斯阿拉莫斯核武器实验室;一个具有36000人、价值9亿美元的橡树岭铀材料生产工厂和附带的一个实验室;一个具有17000人、价值3亿多美元的汉福特钚材料生产工厂,以及分布在伯克利和芝加哥等地的实验室。

后来,美国政府决定建立国家实验室,其中最著名的有芝加哥附近的阿贡国家实验室和纽约长岛的布鲁克海文国家实验室(BNL)。

阿波罗计划(1961-1972),耗资200亿美元

1957年10月4日,这是个在历史上值得隆重纪念的日子,前苏联成功地发射了一颗人造地球卫星。从此,人类的生存史揭开了崭新的一页,地球人类开始进入自己的宇航时代。而前苏联更是让全世界人民看见了它在空间科学上的领先

位置。

在1960年,为了在太空较量中彻底打败前苏联,美国宇航局就精心策划了在10年内将人送上月球并能安全返回的一揽子方案。1961年5月,美国国会顺利通过了这项提案,这就是历史上著名的

1969年7月20日,阿波罗11号腾空而起,将两名美国宇航员送上月球,人类第一次在地球以外的另一个星体上留下了自己坚实的脚印。他们在月球表面收集岩石标本,拍摄异乡风景,安装科学探测仪器,总共漫游了足足2小时21分钟;然后乘登陆舱回到了等候在月球上空的飞船主舱,和另一名宇航员一起安全返回。此后,美国总共发射了6次载人登月飞船,其中 5次成功,前前后后有十多人登月,逗留时间最长的将近3天。直到1972年12月

人类基因组计划(1990-2005),耗资30亿美元

生物学信息与计算能力的累积增长

(2000年以前, 2000年以后)

1.2 定义

1956年在美国田纳西州召开第一届“生物学中的信息理论讨论会”

林华安博士与名词“bioinformatics”

1995年美国国立卫生研究所的定义:生物信息学是一门交叉学科。它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。

2. 研究内容

2.1 序列比对

Alignment

AGCGGTGCAGGTTACTGCGCGTAGTAC„

| | |

ACGGTGCGGTTACTGCGGCGTAGTAC„

AGCGGTGCAGGTTACTGCGCGTAGTAC„

| |||||| | | |||||||||

A_CGGTGCGGTTACTGCGGCGTAGTAC„

AGCGGTGCAGGTTACTGCGCGTAGTAC„

| |||||| ||||||||||

A_CGGTGC_GGTTACTGCGGCGTAGTAC„

AGCGGTGCAGGTTACTGC_GCGTAGTAC„

| |||||| ||||||||| |||||||||

A_CGGTGC_GGTTACTGCGGCGTAGTAC„

2.2 基因预测

麻省理工学院Christopher Burge博士设计的GENSCAN基因预测程序(http:genes.mit.edu)

天津大学张春霆院士用z-曲线模型估算酵母的蛋白质编码基因,有至少95%的精确度。

下面是不同学者对酵母的蛋白质编码基因数目的估计:

估算结果1 Estimate 1: ≈ 5,885 (Coffeau, A. et al. (1996) Science, 274: 546.) 估算结果2 Estimate 2: > 6,000 (Heumann, K. et al. (1997) MIPS Database) 估算结果3 Estimate 3: ≤ 5,645 (Zhang, C. -T. and Wang, J. (2000) Nucleic Acids Res., 28: 2804.)

2.3 生物进化与系统发育分析

生物亲缘关系

SARS病毒变异进化图(摘自Science,30 January 2004)

人的进化

2.4 蛋白质结构预测

Protein Structure Prediction

预测方法

晶格法预测

预测结果三维图

2.5 基因组分析

基因组计划

基因组序列

基因组分析的计算

2.6 基因蕊片

基因蕊片的制作

基因蕊片的结果

对基因蕊片的结果进行可视化处理,并用聚类等方法分析基因蕊片的结果 基因蕊片的发展

2.7 分子设计及药物设计

确定病理过程

找到药靶

设计药物

2.8 代谢网络分析

食物被消化吸收后的物质分配

能源物质的代谢

代谢网络

非常复杂的代谢网络

2.9 RNA结构预测

RNA的二级结构

RNA的空间结构

2.10 DNA计算

可用DNA计算往返几个城市的最省钱的路线:用DNA序列表示城市、用生物反应表示航班

制作新的DNA结构进行计算

3. 数据库与研究机构

3.1 数据库

Genbank-美国基因序列数据库Gene sequence data bank of the USA

http://www.ncbi.nlm.nih.gov/Web/Genbank/

EMBL-欧洲分子生物学实验室核苷酸序列数据库 European Molecular Biology Laboratory nucleotide sequence databank

http://www.ebi.ac.uk/embl.html

DDBJ-日本核酸数据库DNAData Bank of Japan

http://www.ddbj.nig.ac.jp/

PDB-蛋白质结构数据库 Protein Data Bank

http://www.rcsb.org/pdb/

SWISS-PROT -瑞士蛋白质氨基酸序列数据库 Switzerland protein AA sequence data bank

http://www.expasy.ch/sprot/

PIR-蛋白质信息资源Protein Information Resource

http://www.mips.biochem.mpg.de/proj/protseqdb

GDB-人类基因组数据库 Human Genome Data Bank

http://www.gdb.org/

EPD-真核生物启动子数据库 Neukaryotic Promotor Database

http://www.epd.isb-sib.ch/

ICTVdB-国际病毒分类委员会病毒数据库International Committee on Taxonomy of Viruses Database

http://wwwl.im.ac.cn/ictvdb/

3.2 研究机构

EBI-欧洲生物信息学研究所(欧洲) European Bioinformatics Institute( EU) http://www.ebi.ac.uk/

EMBL-欧洲分子生物学实验室(欧洲) European Molrcular Biology Laboratory (EU)

http://www.embl-heidelberg.de/Services

NCBI-美国国家生物技术信息中心(美国) National Center for Biotechnology Information (USA)

http://ncbi.nlm.nih.gov/

HGMP- 人类基因组图谱资源中心(英国)Human Genome Mapping Project Resource Centre( UK)

http://www.hgmp.mrc.ac.uk/

ExPASy-瑞士蛋白质分析专家系统(瑞士) Expert of Protein Analysis System(Switzerland)

http://www.expasy.ch/

NIG-日本国立遗传学研究所(日本) National Institute of Genetics( Japan) http://www.ddbj.nig.ac.jp/

欧洲分子生物学网络组织 (EMBnet) European Molecular Biology Network 亚太生物信息学网络组织中国节点China nodes of Asia-Pacific bioinformatics network

哈佛大学系统生物学系与有机进化生物学系

http://sysbio.med.harvard.edu/phd/index.html

http://oeb. harvard.edu

耶鲁大学生物科学与生物医学系生物信息学专业

http://info.med.yale.edu/bbs/biocom.html

牛津大学临床医学系人类遗传学中心

http://www.well.ox.ac.uk/

剑桥大学生物信息学中心及动物系

http://www.bio.cam.ac.uk/molbio.html

http://www.zoo.cam.ac.uk/molbio.html

北京大学生物信息中心

http://www.cbi.pku.edu.cn

清华大学生物信息学研究所

http://www.bioinfo.tsinghua.edu.cn/

4. 期刊与教材

4.1 期刊

«科学» (Science)

http://china.sciencemag.org/

«自然» (Nature)

http://www.nature.com/

http://www.natureasia.com/

«美国国家科学院汇刊»(Proc. Natl. Acad. Sci. USA)

http://intl.pnas.org/

«核酸研究»(Nucleic Acids Research)

http://www.nar.oupjournals.org/

«生物信息学» (Bioinformatics)

http://www.bioinformatics.oupjournals.org

«基因组研究» (Genome Research)

http://www.genome.org/

«美国生理学杂志» (Am. J. Physiol.)

http://intl-ajpadvan.physiology.org/

«临床研究杂志» (J. Clin. Invest.)

http://www.jci.org/

«生物化学杂志» (J. Biol. Chem.)

«新英格兰医学杂志» (New Engl. J. Med.)

«细胞» (Cell)

«柳叶刀» (Lancet)

«生物化学» (Biochemistry)

«免疫学杂志» (J. Immunol.)

«癌症研究» (Cancer Res.)

«循环» (Circulation)

«欧洲分子生物学学会志» (EMBO J.)

«血液» (Blood)

«分子生物学杂志» (Journal of Molecular Biology)

«蛋白质» (Proteins)

«生命科学中的计算机应用»(Computer Applications in the Biosciences)

4.2 教材

国内教材

2000-2001年:

Andreas D. Baxevanis, B. F. Francis Ouellette. (李衍达, 孙之荣, 等译).

2000:

生物信息学基因和蛋白质分析的实用指南. 北京: 清华大学出版社.

2001.:

简明生物信息学. 钟扬, 张亮, 赵琼.北京: 高等教育出版社.

2002年:

T K Attwoood, D J ParrSmith. (罗静初, 等译). 2002. 生物信息学概论. 北京: 北京大学出版社.

郝柏林, 张淑誉. 2002. 生物信息学手册(第2版). 上海: 上海科学技术出版社. 张成岗, 贺福初. 2002. 生物信息学方法与实践. 北京: 科学出版社.

Cynthia Gibas, Per Jambeck. 2002. Developing Bioinformatics Computer Skills生物信息学中的计算机技术(影印版). 北京: 科学出版社.

Cynthia Gibas, Per Jambeck. (孙超, 郭庆民, 刘相国, 吴斌, 译). 2002. 生物信息学中的计算机技术. 北京: 中国电力出版社.

David W. Mount. 2002. Bioinformatics: Sequence and Genome Analysis生物信息学: 序列与基因组分析(影印版). 北京: 科学出版社.

赵国屏, 等. 2002. 生物信息学. 北京: 科学出版社.

R. Durbin, S. Eddy, A. Krogh, G. Mitchison. 2002. Biological sequence analysis—Probabilistic models of proteins and nucleic acids 生物序列分析—蛋白质和核酸的概率论模型(影印版). 北京: 清华大学出版社.

2003年:

David W. Mount. (钟扬, 王莉, 张亮, 主译; 李亦学, 钱晓茵, 张晓宁, 校) 2003年:

生物信息学: 序列与基因组分析(影印版). 北京: 高等教育出版社.

黄韧, 薛成, 等. 2003. 生物信息学网络资源与应用. 广州: 中山大学出版社.

D. R. Westhead, J. H. Parish, R. M. Twyman. 2003. Bioinformatics生物信息学(影印版). 北京: 科学出版社.

皮埃尔•巴尔迪, 索恩•布鲁纳克. (张东晖,黄颖, 蔡军, 孙应飞, 夏慧煜, 胡驰峰, 计宏凯, 朱宗涵, 译; 李衍达, 朱宗涵, 张东晖, 审校). 2003. 生物信息学—机器学习方法. 北京: 中信出版社.

尚彤, 国强华, 景霞. 2003. 常用医学生物信息学数据库. 北京: 北京大学医学出版社.

J. 塞图宝, J. 梅丹尼斯. (朱浩, 等译). 2003. 计算分子生物学导论. 北京: 科学出版社.

蒋彦, 王小行, 曹毅, 王喜忠, 等编著. 2003. 基础生物信息学及应用. 北京: 清华大学出版社.

2004年:

郑珩, 王非. 2004. 药物生物信息学. 北京: 化学工业出版社.

黄德双, 张学工, 田捷, 刘湘军, 主编. 2004. 生物信息学若干前沿问题的探讨. 合肥: 中国科学技术大学出版社.

A. 马尔科姆•坎贝尔, 劳里. J. 海尔. (孙之荣, 主译). 2004. 探索基因组学、蛋白质组学和生物信息学. 北京: 科学出版社.

P. A. 帕夫纳. (王翼飞, 等译). 2004. 计算分子生物学—算法逼近. 北京: 化学工业出版社.

Dan E. Krane, Michael L. Raymer. (孙啸, 陆祖宏, 谢建明, 等译). 2004. 生物信息学概论. 北京: 清华大学出版社.

李桂源, 钱骏. 2004. 基于WWW的生物信息学应用指南. 长沙: 中南大学

出版社.

2005年:

S. 米塞诺, S. A. 克拉维茨. (欧阳红生, 阮承迈, 李慎涛, 等译). 2005. 生物信息学方法指南. 北京: 科学出版社.

孙啸, 陆祖宏, 谢建明. 2005. 生物信息学基础. 北京: 清华大学出版社. 伍欣星, 赵旻. 2005. 生物信息学-基础与临床医学应用指南. 北京: 科学出版社.

2006年:

张革新. 2006. 简明生物信息学教程. 北京: 化学工业出版社. 乔纳森. 佩夫斯纳. (孙之荣, 等译). 2006. 北京: 化学工业出版社.

王翼飞, 史写华. 2006. 生物信息学——智能化算法及其应用. 北京: 化学工业出版社.

2007年:

许忠能,Ken Chan,黄蓓蓓,刘顺会,许龙飞,等. 2007年. 生物信息学. 清华大学出版社.

主编: 许忠能

编委(按姓的首字母顺序) :

Chan Ken 澳大利亚University of the Sunshine Coast

陈煊 暨南大学信息科学技术学院

邓日强 中山大学生命科学学院

黄蓓蓓 武汉大学生命科学学院

刘吉平 华南农业大学动物科学学院

刘顺会 广东药学院生命科学与生物制药学院

许龙飞 暨南大学信息科学技术学院

许忠能 暨南大学生命科学技术学院

周辉 广东海洋大学养殖学院

周杰 中国科学院植物研究所

石宏 中国科学院昆明动物研究所

蒙进芳 云南林业学院

无国内影印本及中译本的国外教材

2000年及以前:

S. Schulze Kremer, S. Schulze-Kremer. 1994. Advances in Molecular Bioinformatics. Amsterdam: IOS Press.

Stanley Letovsky. 1999. Bioinformatics. Massachusetts: Kluwer academic Publishers.

Hooman H Rashidi, Lukas K Buehler. 2000. Bioinformatics Bacics. Boca Rotan: CRC Press LLC.

Des Higgins, Willie Taylor. 2000. Bioinformatics. Oxford: Oxford University Press.

2001年:

James Tisdall. 2001. Beginning Perl for Bioinformatics. Sebastopol: O‟Reilly & Associates, Inc..

W J Ewens, Gregory Grant. 2001. Statistical Methods in Bioinformatics. New

York: Springer-Verlag New York, Inc..

Olivier Gascuel, Bernard M E Moret. 2001. Algorithms in Bioinformatics. Heidelberg: Springer-Verlag Berlin Heidelberg.

Timo Koski. 2001. Hidden Markov Models for Bioinformatics. Dordrecht: Kluwer academic Publishers.

2002年:

Gary B Fogel, David W Corne. 2002. Evolutionary Computation in Bioinformatics. San Francisco: Morgan Kaufmann Publishers.

Rex A. Dwyer. 2002. Genomic Perl. Cambridge: Cambridge University Press. H -D Belitz, R Guigo, D Gusfield. 2002. Algorithms in Bioinformatics. Heidelberg: Springer-Verlag Berlin Heidelberg.

Stephen A Krawetz, David D Womble. 2002. Introduction to Bioinformatics. Totowa: Humana Press Inc..

Bryan P Bergeron. 2002. Bioinformatics Computing. Upper Saddle River: Prentice Hall PTR.

2003年:

Sushmita Mitra, Tinku Acharya. 2003. Data Mining. Hoboken: John Wiley and Sons, Inc..

P. Franscon. 2003. Artificial Intelligence and Heuristic Methods in Bioinformatics. Amsterdam: IOS Press.

Gary Benson, Roderic Page. 2003. Algorithms in Bioinformatics. Heidelberg: Springer-Verlag Berlin Heidelberg.

James Tisdall. 2003. Mastering Perl for Bioinformatics. Sebastopol: O‟Reilly & Associates, Inc..

Dov Stekel. 2003. Microarray Bioinformatics. Cambridge: Cambridge University Press.

Michael R. Barnes, Ian C. Gray. 2003. Bioinformatics for Geneticists. West Sussex: John Wiley and Sons Ltd.

2004年:

Inge Jonassen, Kim Junhyong. 2004. Algorithms in Bioinformatics 2004. Heidelberg: Springer-Verlag Berlin Heidelberg.

Ingvar Eidhammer, Inge Jonassen, William R. Taylor. 2004. Protein Bioinformatics. West Sussex: John Wiley and Sons Ltd.

Michael Moorhouse, Paul Barry. 2004. Bioinformatics Biocomputing and Perl. West Sussex: John Wiley and Sons Ltd.

Alexander Isaev. 2004. Introduction to Mathematical Methods in Bioinformatics. Heidelberg: Springer-Verlag Berlin Heidelberg.

Limsoon Wong. 2004. Practical Bioinformatician. Singapore: World Scientific Publishing Co. Pte. Ltd.

Nikolay Kolchanov, Ralf Hofestaedt. 2004. Bioinformatics of Genome Regulation and Structure. Massachusetts: Kluwer academic Publishers.

Jason T L Wang, Mohammed J Zaki, Hannu T T Toivonen, Dennis Shasha. 2004. Data Mining in Bioinformatics. London: Springer-Verlag London Limited.

5. 生物学、计算机技术与数学基础

5.1 生物学

分子生物学

遗传学

细胞生物学

生物化学

生理学

微生物学

植物学

动物学

生态学

地外生命研究

进化生物学

5.2 计算机技术

数据库技术

数据处理和可视化

网络技术

Windows、Linux及Unix操作系统

C++语言、Java语言、Perl语言

5.3 数学

动态规划

隐马尔可夫模型

图论

贝叶斯统计

神经网络模型

聚类分析

马尔可夫模型

遗传算法

信息论

6. 展望

10 个主题:

1)人(生物)基因转录的时间与地点

2)人(生物)组织的RNA转录过程的调控

3)人(生物)细胞对外界环境反应的预测

4)蛋白质对DNA、蛋白质对 RNA、蛋白质对蛋白质的识别

5)人(生物)体内环境中的蛋白质结构预测

6)防治疾病的分子设计

7)蛋白质的功能是如何进化的

8)物种起源的分子机制

9)人(生物)体中的蛋白质功能是怎样随人(生物)体发育而变化的

10)中学、本科、研究生阶段的生物信息学教育

Christian Boemer Anfinsen (1915-1995), 与洛克菲勒大学的Stand Moore与

William H Stein 共享1972年化学诺贝尔奖。他们阐明蛋白质结构与功能的关系。尤其Anfinsen博士发现了RNA酶的三级结构决定其功能。

第一次科学浪潮

第谷(Tcho Brahe)、开普勒(Johannes Kepler)、牛顿(Isaac Newton)

天象观测 → 大量数据 → 行星运动定律 → 万有引力定律 → 航空航天业

第二次科学浪潮

门捷列夫(Ditri Mendeleev)

元素与大量化合物 → 元素周期表 → 现代化学化工

第三次科学浪潮

普朗克(Max Karl Ernst Ludwig Planck)、爱因斯坦(Albert Einstein)、玻尔(Niels Bohr)、薛定谔(Erwin Schrödinger)、杨振宁,等

大量原子光谱数据

量子论 → 量子力学 → 信息技术

第四次科学浪潮

基因组超大量的序列和结构数据 → 重大的发现

当青年科学家问我,未来令人振奋的科学领域是什么时,我则多次对他们说:计算生物学是我首先推荐的领域。

弗朗希斯 • 克林斯

美国国家健康研究所人类基因组计划首席科学家

人类基因组计划的下一步就是要进行解释。我们必须发现这一切到底表示什么意思。

J. 克雷格 • 温特

塞罗拉基因公司负责人

21世纪是生物世纪,计算生物学是其中最有产业价值的领域之一。

比尔 • 盖茨

微软公司总裁

第二章 生物信息学的生物学基础

目录

1.生物学研究的层次

2.分子生物学基础

3.人类基因组计划

1. 生物学研究的层次

地外生命的研究、生态学、动物学、植物学、微生物学、生理学、细胞生物学、分子生物学、进化生物学

从宏观天体到微观粒子

1.1 地外生命的研究

定义:地外生命的研究指探索存在于或来自地球以外的生命现象.

陨石中物质成分的分析

登陆火星及实物采集

天外智慧搜寻计划

加州大学伯克利分校地外生命的研究

对宇宙射线的分析

不明飞行物(UFO)的官方研究、不明飞行物(UFO)的证据、不明飞行物(UFO)的民间兴趣

1.2 生态学

定义:研究生物体与其环境的关系的学科.(Manuel C. Molles. 2001. 生态学:概念与应用.北京:科学出版社.2.)

生物圈中的海洋与陆地:4%高生产力海洋;67%低生产力海洋;18%高生产力陆地;11%沙漠、冰川、荒漠

人与生物圈:4.5英亩/人

CO2与全球气候变化

磷、钙、氮等元素在生物圈的循环

人造生物圈:生物圈2号

海洋生态平衡受破坏:赤潮;生态系统: 赤潮治理--生态修复

生物群落:食物网

生物群落:水生生物的相互关系

种群:旅鼠的增长(增长的原因、四年左右一个增长周期、部分毛皮变鲜艳的橙色、集体狂奔)

个体:不同的鱼适应于不同的水

个体:鱼不同性别的脾气差异

北江镉污染

汞中毒引起水俣病

砷中毒

孔雀石绿事件:水霉菌

孔雀石绿事件:患水霉病的鱼类菌

孔雀石绿事件:用孔雀石绿消毒

珠江的水质污染

2006年横渡珠江

1.3 动物学、植物学、微生物学

动物学

定义:动物学是一门研究动物的形态结构、分类、生命活动及其与环境的关系发生发展的规律的学科.(刘凌云,郑光美. 2004. 普通动物学.北京:高等教育出版社.4.)

原生动物:锥虫

曼氏血吸虫:交配

埃及血吸虫病

日本大王乌贼

菊石

浮游动物:枝角类

昆虫交配

蜻蜒交配:1)雄蜻蜒用腹部末端的握夹抱住雌蜻蜒的头颈;2)蜻蜒弯着身体;3)雌蜻蜒再用腿抱住雄蜻的腹部,将腹端生殖器伸雄性的藏精囊,接收精子。三只蜻蜒不知道在干什么?

蝴蝶交配:雌蝶选中心仪的雄蝶,双双飞到理想的地方。交尾

棘皮动物:海盘车Asterias rubens

棘皮动物:梅花参

圆口纲:雷氏七鳃鳗

鱼纲:鲨鱼的鼻孔腹位

鱼纲:噬人鲨

鱼纲:姥鲨

两栖纲

爬行纲:黄喉水龟

爬行纲:楔齿蜥

鸟纲:蜂鸟

鸟纲:金丝燕与燕窝

鸟纲:鸟撞飞机

哺乳纲:蝙蝠

哺乳纲:鼯鼠(寒号鸟)

哺乳纲动物

第19届世界动物学大会:2004年,北京

第20届世界动物学大会:2008年,巴黎

植物学

定义:植物学是研究植物界和植物体生活和发展规律的科学.(徐汉卿. 1994. 植物学.北京:北京农业大学出版社.3.)

藻类

藻类:硅藻(左)、甲藻(右)

苔藓植物

蕨类植物

裸子植物

被子植物:使君子、紫薇、野牡丹、铁海棠、金凤花、月见草、印度锦鸡儿、桃金娘

微生物学

定义:微生物学是研究各类微小生物体,如细菌、放线菌、真菌、病毒、立克次氏体、支原体、衣原体等生物的形态、生理、生物化学、分类和生态的生物学分支学科.(谒葛健,李华钟. 2004. 微生物学. 北京:科学出版社.5.)

真菌

细菌,2005年7月四川资阳猪链球菌

病毒:2003年SARS冠状病毒、口蹄疫病毒(左)、埃博拉病毒(右)、2004年禽流感病毒、艾滋病病毒、SARS的防治建议

1.4 生理学

定义:生理学是研究生命有机体各种机能的科学.(王玢,左明雪. 2001. 人体及动物生理学.北京:高等教育出版社.1.)

呼吸生理

泌尿生理

内分泌生理

神经生理

视觉生理

听觉生理

胚胎发育

1.5 细胞生物学

定义:细胞生物学是一门以细胞为研究对象的研究生命活动现象、规律及其本质的科学.(鲁润龙,顾月华. 2002. 细胞生物学.合肥:中国科技大学出版社.)

动物细胞、植物细胞

植物气门细胞

动物神经细胞

红细胞、白细胞

细胞分裂:有丝分裂

正常细胞、正在死亡的细胞

细胞膜结构

细胞骨架:微管系统

叶绿体

蛋白质感染因子(PrPc)的位置(左)、病人脑组织海绵状病变(右上)及淀粉状蛋白沉淀(右下)

1.6 分子生物学

定义:分子生物学是研究核酸、蛋白质等生物大分子的形态、结构特征及其重要规律性和相互关系的科学。(朱玉贤,李毅. 2004. 现代分子生物学.北京:高等教育出版社.8)

蛋白质感染因子(Prion)正常与(PrPc)病变结构(PrPsc)

糖类(上)与核酸(下)

1.7 进化生物学

定义:进化生物学是研究生物进化的科学,不仅研究进化的过程,更重要是研究进化的原因、机制、速率和方向的科学。(沈银柱. 2002. 进化生物学.北京:高等教育出版社.2)

生物进化的进程

生物进化树

返祖现象:人的尾巴

2.分子生物学基础

2.1 核酸的种类与结构

核酸最早是从被丢弃的外科绷带上的脓细胞中分离出来。那是1869年,瑞士的Friedrich Miescher报道了在细胞核内有不能为蛋白消化酶破坏的酸性物质,命名为核酸。核酸根据含有糖基(核糖或脱氧核糖)的不同,分为脱氧核糖核酸(deoxyribose nucleic acid, DNA)与核糖核酸(ribose nucleic acid, RNA)。

碱基:嘌呤与嘧啶

核苷:碱基+核糖

核苷酸:核苷+磷酸

核酸:核苷酸链

碱基配对

核酸双链与链的方向

DNA双螺旋结构

DNA几种螺旋结构

在细胞核内,细细长长的线状DNA紧密地盘绕成清晰可见的棒状结构,称为染色体。

人类23对染色体(♂ )

2.2 复制、转录、翻译

复制指以原来DNA分子为模板合成出相同分子的过程。

转录就是DNA分子上合成出与其核苷酸顺序相对应的RNA的过程。

(反转录是以RNA 为模板合成DNA。)

基因结构

原核生物的转录过程与真核生物的转录过程

翻译是在RNA的控制下,根据核酸链上每三个核苷酸决定一个氨基酸的三联体密码规则,合成出具有特定氨基酸顺序的蛋白质肽链的过程。

遗传密码

mRNA, rRNA, tRNA的作用

2.3 蛋白质的结构

一级结构指一条多肽中氨基酸线性序列。

二级结构指一条多肽主链空间结构。

三级结构指一条多肽的三维结构。

四级结构指多亚基蛋白结构,即不同蛋白亚基的结合。

一切重要的生命活动都离不开蛋白质,蛋白质是生命活动的主要承担者

2.4 核酸、蛋白质与人类疾病

Turner综合症:只有一个X

Klinefelter综合症:XXY

Down综合症:3个21号染色体

猫哭综合症:5号染色体短臂缺失

镰形细胞贫血病

Williams综合症

Alzheimer综合症: ApoE4基因

Huntington舞蹈病: Huntington基因

3. 人类基因组计划

3.1目标

1)鉴定人类基因组中的约3万个基因

2)测定人类基因组中的约30亿个碱基序列

3)建立生物信息数据库

4)提高测序及生物信息分析技术

5)各机构企业间技术合作

6)此计划带来的伦理、法律、社会舆论问题(the ethical, legal, and social issues,缩写ELSI)

人类基因组计划是描述人类基因组和其他生物体基因组特征,发展基因组学新技术,阐明与此相关的伦理、法律和社会影响的一个国际性研究项目。

3.2 资助

美国国家能源部共出资8.9亿美元

美国国家能源部(DOE)、DOE中的生物与环境工作组

美国国立卫生研究所共出资22亿美元

英国Wellcome Trust基金会

3.3 研究机构

“公”与“私”的竞争

 国际人类基因组测序协作组(International Human Genome Sequencing Consortium, IHGSC):美国、英国、日本、法国、德国、中国. 6个国家  :Celera公司: J. Craig Venter1998年创立

美国Whitehead Institute for Biomedical Research,测序量第一

英国剑桥的Sanger Institute,测序量第二

日本横滨的RIKEN Genomic Sciences Center,测序量第六

法国的Genoscope and CNRS UMR-8030,测序量第七

德国的Institute of Molecular Biotechnology,测序量第九

中国北京的华大基因研究中心,测序量第十

美国Cekera公司,先完成果蝇基因组测序,于1999年9月开始测人类基因组,于2000年6月26日与IHGSC发表联合声明

3.4 研究方法

大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖软件和数据库的。

基因组测序概观:选择生物→从细胞中分离基因组DNA→把基因组DNA切割成合适的可相互重叠的DNA片段→把DNA片段插入载体中大量克隆→测出每一DNA片段的序列→确定片断间的重叠,把序列组装成最终的基因组序列。

某段已插入载体中的DNA的测序过程:测序→碱基读取→载体识别→拼接→初步完成→重复序列标注、可读框标注、基因标注→序列数据发布。 凝胶电泳: 将分子按其大小不同而分离

片断

 基因组图谱

遗传图谱:显示基因等标记在基因组中的相对距离与次序的图。 物理图谱:显示DNA标记在基因组中的精确位置的图。

 DNA片段组装

根据重叠情况用已知的多个小片段DNA序列去推断原来的大片段DNA(或整个基因组)的完整序列。

地球生物圈约有140万余种物种,其中约2 %至少有一段

DNA序列被测定。

▲ 真核生物 12 500 种

▲ 哺乳动物 4 200 种

▲ 真 细 菌 3 600 种

▲ 古 细 菌 180 种

▲ 病 毒 1 750 种

 模式生物:被集中研究的一些典型的生物,通过对其研究获取的知识去解释一般的生物现象。如线虫、拟南芥、果蝇、酵母。

酿酒酵母Saccharomyces cerevisiae

第一个被测序的真核生物基因组,1996年完成,共12 100 000个碱基对。

线虫Caenorhabditis elgans

第一个被测序的动物基因组,1998年完成,共97 000 000个碱基对。

果蝇Drosophila melanogaster

遗传学上常用的模式生物,2000年完成,共180 000 000个碱基对。

拟南芥Arabidopsis thaliana

第一个被测序的植物基因组,2000年完成,共120 000 000个碱基对。

 测了何人的基因组?

国际人类基因组测序协作组(IHGSC):大量志愿者

Celera Genomics 公司:共5人 (2男,3女)

美国黑人 ×1 亚洲中国人 ×1

西班牙裔墨西哥人 ×1 白种人 ×2

 测序策略:

国际人类基因组测序协作组(IHGSC):“基于图谱”的方法

全基因组分级分成大片断 大片断分成小片断小片断测序  计算机拼接组装

Celera Genomics 公司: Shotgun 方法

全基因组随机打断成小片断  小片断测序  计算机拼接组装

“基于图谱”的方法

“基于图谱”的方法的成功应用于酿酒酵母与线虫的基因组测序

Shotgun方法的成功应用于流感嗜血杆菌与果蝇的基因组测序

3.5 目前结果

已完成一批生物基因组序列的测定及基因的鉴定,提高了测序、基因组学、生物信息学等有关技术,建立了生物信息数据库,多国家、各部门、研究机构、企业间进行技术合作与交流

 工作框架图的完成 (2000年6月26日)框架图 — 覆盖率为90 %的序列图  人类基因组的初步分析结果发表 (2001.2.12)覆盖率95 %

 人类基因组完成 (2003.3)

 人类基因组基因总数重新预测 (2004.10) 约2万~2.5万个基因

 人类基因组测序最后完成 (2006.5)

已完成测序的染色体:

1号染色体——2006年5月

3号染色体——2006年4月

17号染色体——2006年4月

11号染色体——2006年3月

12号染色体——2006年3月

15号染色体——2006年3月

8号染色体——2006年1月

2号染色体——2005年4月

4号染色体——2005年4月

X 染色体——2005年3月

16号染色体——2004年12月

5号染色体——2004年9月

9号染色体——2004年5月

10号染色体——2004年5月

19号染色体——2004年3月

13号染色体——2004年3月

6号染色体——2003年10月

7号染色体——2003年7月

Y 染色体——2003年6月

14号染色体——2003年1月

20号染色体——2001年12月

21号染色体——2004年5月

22号染色体——1999年12月

伦理、法律、社会舆论

1932年德国的人种调查

20世纪初的优生学

种族隔离

4号染色体遗传病基因

以人为实验材料

动物伦理:实验乱转基因

动物伦理学宣扬动物的尊严、生存价值。

有害生物生存权利:1)自然中有有害生物生存的环境;2)若人类没有敌害存在的情况下无限制地发展,将成为地球上的生态肿瘤,最终毁灭地球上的所有生物,包括自己。所以,生态系统中就配了有害生物来干扰人类的发展

有害生物生存权利:现在的人类发展成这个样子,正是由于有了有害生物的贡献,如加强人类免疫机能、丰富人类基因库等。

依照世界五大宗教的观点,隶属“一切生灵”的有害生物有生存的权利,并在某种程度上应受人类的保护或怜悯。

第三章 分子系统发育分析

1 序列比对 1.1 序列比对的概念

序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。

1.2 序列比对的意义

生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。正是通过序列比对找出序列之间的相似性。序列比对找到的是相似性,可用这相似性去进行同源性分析。后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘关系,构建进化树。

序列比对的一个用途就是用于搜索相似序列。当你获得一段DNA序列或氨基酸序列后,发现对它一无所知时,可以在核酸序列数据库中搜索关于这一序列的信息,一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异,随着数据库规模的扩大,对快速搜索的要求越来越高,而优化比对算法是解决问题的方案之一。

在基因组测序中,序列比对更是有重要作用。基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断,测序仪对小片断进行测序,然

后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断,把它们边接起来还原成原来的长核酸序列,得到长核酸序列的碱基排列顺序。

序列比对还可以寻找序列中的特定位点。当一个基因的某一位点发生突变时,它与原基因进行比对时就能发现这个位点,这在寻找致病基因时尤为重要。同时,通过比对,可找出不同序列间一些保守性的区域,它们可能行使重要的功能。经常会用比对确认氨基酸序列的保守区以了解该区的特定结构与功能。

在进行蛋白质结构预测、基因预测时,比对也是一种基本的研究手段之一。蛋白质结构预测中,大部分的成果都是来自序列比对,研究的模式主要是有若干已知结构及氨基酸顺序的序列,把待测的序列与已知结构的序列进行比对,通过相似性去预测待测序列局部或全部的结构。而在蛋白质的分类中,有的方法就是利用比对获得氨基酸序列的相似性,以此相似性为基础进行分类。在基因预测中常要在待测序列中搜寻起始密码子、结束密码子、多聚A帽子序列等特自位点以增加预测的命中率。

1.3 全局比对与局部比对

根据对比对后要排列的片断范围可将比对分为全局比对与局部比对。 1.3.1 全局比对

全局比对是全部待研究的全部序列的全部符号参加比较,最后也是全部序列的全部符号进行排列与计分,比对的结果中各序列长度相同。例如,按特定的计分规则(字母相同+1分、字母不同-1分、一个空格“-”对一个字母-2分),以下序列1与序列2的全局比对是:

序列1 T A C A G T T G G A T C C G T 序列2 T T T G G A

序列1 T A C A G T T G G A T C C G T 序列2 T - - - - T T G G A - - - - -

比对的得分是1-2-2-2-2+1+1+1+1+1-2-2-2-2-2=-12,比对的结果中16个位置有6个位置字母相同,9个位置字母对空格。 1.3.2 局部比对

局部比对是全部序列的全部符号参加比较,最后只将各序列中得分高的片断中的符号进行排列与计分,即只排列局部的序列片断。上述的例子中将序列1与序列进行全部比对时得分较低,以下把它们进行局部比对,看看有怎样的变化:

序列1 T A C A G T T G G A T C C G T 序列2 T T T G G A

序列1 T T G G A 序列2 T T G G A

比对的得分是1+1+1+1+1=5,比对的结果中5个位置有的字母全部相同,分别是

序列1的第6至10个字母与序列2的第2至6个字母相匹配。可见,用全局比对去寻找只有局部相似性的序列间的联系时很可能得不到有用的信息,而用局部比对则能把相似片断找出来。不同来源序列间在生物学上有意义的相似往往只出现在序列的局部区域,因此局部比对在实际中更常用。

1.4 计分方法

计分规则是比对的重要条件,计分方法的生物学意义常常就决定了比对所反映的生物学特征。在使用差异较大的不同计分方法时将会产生不同的比对结果。根据所代表的生物学意义可以粗略地将计分方法分为三类:匹配计分、结构与性质计分、可观察变换计分。

匹配计分的规则是字符进行比较时只有3至4个分值:两个字母相同一个分值、两个字母不同给一个分值、字母对空格给1至2个分值。例如常用的生物信息学软件BLAST中的核酸比对计分就是采用匹配计分。

由于这种方法简单,较容易用它说明比对的一般原理,所以本章的核酸序列比对都采用这种方法,其中当两字母相同时取+1分,两字母不同时取-1分,空格对字母时每个空格计-2分。

匹配计分的优点是简单易掌握,缺点是没有考虑不匹配时的相似性质。

1.5 比对的算法过程

有不少的序列比对算法已出现在文献及应用软件中,其中一些得到广泛的应用,如动态规划法、累进方法等。两序列比对与多序列比对的算法有差异,所以一般是分开介绍。两序列比对的经典方法是动态规划法,点阵法也用得较多,我国学者沈世镒等创造了统计判决算法。多序列比对的常用方法是累进方法、隐马尔可夫模型、动态规划法等,也有些算法相对简单,如星比对方法。 1.5.1 两个序列比对

全局比对动态规划法是Needle与Wunsch在1970年提出,一直沿用至今,这个算法是生物信息学的基础算法之一。动态规划算法是把一个大问题分成多级的小问题,逐级求每个小问题的最优答案,各级问题的最优答案加起来就是这个大问题的最优答案。

如果不加限制空格的加入,任两个序列的比对结果都会有无限多个,因为只要加入不同的空格数目就行了。因此首先规定空格对空格无效。

动态规划算法将比对全过程分为若干步,每一步增加一个位置。因为空格对空格无效,所以增加一个位置时有三种情况:第一个序列增加一个字母而第二个序列增加一个空格;第一个序列增加一个空格而第二个序列增加一个字母;两个

n

序列都增加一个字母。这样要进行n步的话就可能有3种可能。动态规划算法的巧妙之处是把第一序列已比对字母且第二序列已比对字母都相同的各种比对结果放在一起进行判断,只留最优结果。例如对序列gc与at进行比对,其中中间过程中的三个结果(都是第一序列的g已比对且第二序列的a已比对):

g– -g g -a a- a 是放在一起的,并且被判断,只留出最优结果(即舍去了第1与第2个比对结果)。

用这种筛选方面一直进行下去,直到所有的字母都进行过比对为止。最后所得的最优解就是动态规划算法的最后结果。因此,用动态规划算法进行两序列比对的过程可用矩阵显示,矩阵中的每一元素可表示第一序列已比对字母且第二序列已比对字母相同的各种比对结果的最优者,最后的一格(即右下格)的最优结果就是整个比对的最优结果。在具体算的过程中,每一格只用最优比对的得分来表示。

矩阵的计算过程可表示如下:对于序列I,序列J,如果采用特定的计分规则(字母相同+1分;字母不同-1分;字母对空格-2分),除左上第一格外,每一格均有:

Mi-1,j-2 (表示纵向增加一个位置是字母对空格,因此减2分) Mij Mi-1,j-1+S(i,j) (表示斜向增加一个位置是字母对字母) Mi,j-1-2 (表示横向增加一个位置是空格对字母,因此减2分) 其中Mij指在i列、j行的元素所在的计分; Max指要三种可能得分中的最高分的那种;

Mi-1,j指第i-1列、第j行的元素(即Mij的水平左方的那个元素)的计分;

Mi-1,j-1指第i-1列、第j-1行的元素(即Mij的水平左斜上方那个元素)的计分; Mi,j-1指第i列、第j-1行的元素(即Mij的垂直上方那个元素)的计分; S(i,j)指第i列字母i与第j行字母j的比较,相同为+1,不同为-1。

以下用2个例子说明动态规划算法。

2. 分子系统发育分析

2.1 分子系统发育分析的概念

根据生物大分子序列差异来评估物种或分子间的进化。

2.2 分子系统发育分析的意义

2.2.1 研究物种间的进化

生物大分子演变有规律、材料易得

2.2.2 生产上的应用

疾病与药物

2.3 构建进化树

2.3.1构建进化树的方法 距离法步骤:

1)两两比对,并计出遗传距离

2)合并,并重新计出遗传距离作为树分支长度 3)画进化树 最大简约法

将所有可能的树都画上,选择最优的。

因为这是4个类群,所以有以下3种进化树的类型

观察2)中的排列结果,可以看出第一家族中第1列与第3列字母相同,不是信息位点,而第2、4、5列是信息位点。

第一家族第2列中各字母在3种进化树中的替换情况是:

③ ② ② ① ① ① F

K →F) →F) →F) →F)

F

(K→F) K F

FF F F ② ③

④ ④ ④

第一家族第4列中各字母在3种进化树中的替换情况是:

③ ② ② ①① ①

L K K L→K) →K) →K)

K(L→K) →K) K LK K

② ③ ④ ④ ④ ③

第一家族第

5列中各字母在3种进化树中的替换情况是:

③ ② ② ①① ①

L K K KK L(L→K) →K) →K) →K) →K) K L

② ③ ④ ④ ④ ③

从上要看出,左边的树的信息位点的替换个数之和为4,中间的树是5,右边的树是6,因此取左边的树作为第一家族的4个序列的进化树。序列的总体替换情况可用下图表示:

③ ①

FFILL (L→K)

→K)

FKIKKFFIKL (K→F) (K→L)

FKIKKFFIKL ② ④ 最大似然法

用似然函数去估计。

2.3.2用软件构建进化树

步骤:1)用ClustalW进行序列比对 2)用PHYLIP软件计算距离 3)用TreeView软件画图

例2 对以下三段DNA序列构建进化树。

序列1:AAAAAAAAACCCGGTTTAAGGTCCC 序列2:AAAACCCCAACCCCTTTTTTAAGGTCCC 序列3:AAAAAAAAAGGTTTAAGGTCCC 答:1)用ClustalW进行序列比对 步骤:[1]www.cbi.pku.edu.cn;

[2]点击“ExPASy”;

[3]在 “Tools and software packages”下点击“Alignment”

[4]在“Sequence Alignment”下的“Multiple”下的“CLUSTALW”中点击右边的“EMBnet-CH”;

[5]在大空框中填入“>1

AAAAAAAAACCCGGTTTAAGGTCCC >2

AAAACCCCAACCCCTTTTTTAAGGTCCC >3

AAAAAAAAAGGTTTAAGGTCCC ” [6]点击“Run ClustalW”;

[7]点击“ClustalW (aln)”

2)用PHYLIP软件计算距离

步骤:[1]登陆bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html;

[2]点击“Programs for molecular sequence data”下的“DNA”下的“dnadist”; [3]填写你的电邮地址,粘贴1)中的比对结果进“Alignment File”,点击“Run dnadist”;

[4]在“Resluts”下选择“neighbor”,点击“Run the selected program on outfile”; [5]点击“Run neighbor”;

[6]将“Rrsults”下的“Outtree”文件存在你的电脑中,存成.txt文档。

3)用TreeView软件画图

安装:[1]登陆taxonomy.zoology.gla.ac.uk/rod/treeview.html;

[2]确认计算机已安装打印机驱动程序;

[3]下载Win32 (Windows 95 or Windows NT); [4]打开“treev32”文件夹; [5]点击“SETUP”; [6]直到“finish”。

画图:[1] 点击屏幕“开始”中的“所有程序”中的“TreeView”;

[2]点击“File”下的“Open”; [3]选择2)中保存的文档; [4]点击“打开”。

第六章 蛋白质结构与预测

1. 蛋白质的结构与功能 2. 影响蛋白质结构的因素 3. 蛋白质结构的实验测定方法 4. 蛋白质结构预测

1.蛋白质的结构与功能 1.1蛋白质结构层次

蛋白质组成单位--氨基酸

一级结构指一条多肽中氨基酸线性序列。 二级结构指一条多肽主链空间结构。 二级结构:α螺旋 二级结构:β 折叠

三级结构指一条多肽的三维结构。

四级结构指多亚基蛋白结构,即不同蛋白亚基的结合。

1.2结构与功能的关系

蛋白质结构影响其周围环境

同一蛋白质的不同结构其物理性质差异大 水通道蛋白

不同的朊蛋白结构

相似结构朊蛋白的传染及引起的海绵脑

肌红蛋白结合氧(右)与不结合氧(下)时的结构 Ruv蛋白通过结构改变来对DNA进行不同的处理 不同的免疫球蛋白结构结合不同的抗原

改变发动机蛋白结构后细胞分裂受阻 肌肉收缩相关蛋白质的结构在改变 爱滋病病毒磷激蛋白的结构

根据爱滋病病毒磷激蛋白的结构设计药物 血红蛋白 核糖体

光合作用反应中心的结构 钾离子通过蛋白的空间结构

2. 影响蛋白质结构的因素

2.1蛋白质主链折叠的空间限制 键能 键角 二面角

2.2稳定蛋白质三维结构的作用力 氢键

引起氢键的部分原子基团 范德华力 静电作用 疏水作用 二硫键

3. 蛋白质结构的实验测定方法 X-射线晶体衍射 核磁共振波谱 电子显微镜 中子衍射 紫外与红外 原子力显微镜

4. 蛋白质结构预测

4.1 蛋白质二级结构的预测 4.1.1立体化学方法 20种氨基酸亲疏水性 8个氨基酸片段 特征数

C,I,L,F,M,V,W,H,Y这9种氨基酸残基疏水;

T,P,K,E,R,S,Q,O,N,P这9种氨基酸残基亲水; A,G这2种氨基酸残基为两性残基。

每八残基作为一个预测单位,每个残基设定为二进制中的一个数位: 疏水氨基酸残基代表1; 亲水氨基酸残基代表0;

两性氨基酸分别代表1和0两种情况。

再将8个残基片断的二进制(这里的亲疏水模式二进制中左边为低位,右边为高位)数换算成十进制数,然后根据这个十进制数对应为二级结构。

α螺旋的对应数字为:9,12,13,17,18,19,25,27,29,31,34,36,38,44,45,46,47,50,51,54,55,59,61,62,77,201,205,217,219,237 β折叠的对应特征模式为连续的1或交替的01构成。 其他情况为无规则卷曲。

如出现两种二级结构结果则以α螺旋优先, β折叠其次,最后才是无规则卷曲。

本法对无规则卷曲预测过多,而对β折叠预测不足。总体预测正确率约60%,对于小于50残基的蛋白质预测准确率约70%。

4.1.2 Chou-Fasman方法

氨基酸的Chou-Fasman二级结构倾向性因子表

α螺旋规则

找α螺旋核—6个残基中至少4个的Pα>=1 ; 螺旋核延伸—至末端4残基Pα平均值小于1;

判断α 螺旋—两竭各去掉3个残基,余下长于6个残基且Pα平均值大于1.03 β折叠规则

找β折叠核—5个残基中至少3个的Pβ >=1 ; 折叠核延伸—至末端4残基Pβ平均值小于1; 判断β折叠—Pβ平均值大于1.05 转角规则

连续4残基;

fi×fi+1×fi+2×fi+3>0.75×10-4; 以及Pt>1,并且Pt> Pα和Pt> Pβ

重叠规则

若α螺旋与β折叠发生重叠,则若平均值Pα > Pβ为α螺旋;反之为β折叠

4.1.3 神经网络模型

模型由许多函数式组成;输入已知二级结构的氨基酸序列后,不断调节有关参数,使输出的二级结构与已知的相符;由此得出应用模型。

4.1.4 最近邻居法

通过识别已知结构中与查询序列相似的序列来预测查询序列中的氨基酸的二级结构。

4.1.5 其他算法

隐马尔可夫链 信息论方法 等等 预测结果与真实结构 4.1.6 软件

GOR;HNN;nnPredict; SOPMA;等等

(http://cbi.pku.edu.cn中的Mirrors中的ExPASy)

4.1.7 编程进行简单的蛋白质二级结构预测

4.2 蛋白质三级结构的预测 4.2.1 三级结构显示 三级结构显示软件 Cn3D

http: //www.ncbi.nlm.gov Chime

http: //www.mdli.com

4.2.2 三级结构预测方法 同源蛋白质结构预测; 蛋白质折叠类型识别; 蛋白质结构从头预测

4.2.3 软件

SWISS-MODEL服务器

(http://www.swissmodel.unibas. ch) Swiss Pdb-Viewer

(http://www.swissmodel.unibas. ch/spdbv) 等等

第七章 用C++编写生物信息学程序基础

1. C++语言

1.1 C++程序的框架

例7-1. 打印“Bioinformatics Course”

# include //固定格式,预处理文件 int main () //主函数首部

{ //主函数开始

cout

1.2 变量

整型变量 int a

字符型变量 char a

例7-2

# include

int main ()

{

int a;

int b;

int c;

a=2;

b=4;

c=a+b;

cout

return 0;

}

1.3 运算符号

赋值符号:=

算术运算符号:+、-、*、/

关系运算符号:、>=、= =、!=

逻辑运算符号:&&(与)、∣∣(或)、!(非)

1.4 语句

1.4.1 条件语句(if语句)

if (表达式) 语句

例7-3

# include

int main ()

{

int a;

cin>>a;

if (a>=5)

{

a=5;

}

cout

return 0;

}

if (表达式) 语句1 else 语句2

1.4.2 循环语句(while语句)

while (表达式) 语句

例7-4

# include

int main ()

{

int a;

cin>>a;

while (a

{

a=a+1;

}

cout

return 0;

}

例7-5 计算循环次数

# include

int main ()

{

int i;

i=0;

int a;

cin>>a;

while (a

{

a=a+1;

i=i+1;

}

cout

return 0;

}

1.5 语句

1.5.1 数组

类型说明符 数组名[常量]=初始化值

int a[5]={7, 8, 9, 10, 11}

其中a[0]=7, a[1]=8, a[2]=9, a[3]=10, a[4]=11

例 7-6

# include

int main ()

{

int a[5]={7, 8, 9, 10, 11};

cout

cout

cout

cout

cout

return 0;

}

1.5.2 字符数组

char a[5]={„J‟, „I‟, „N‟, „A‟, „N‟}

其中a[0]= „J‟, a[1]= „I‟, a[2]= „N‟, a[3]= „A‟, a[4]= „N‟ 例 7-7

# include

int main ()

{

char a[5]={„J‟, „I‟, „N‟, „A‟, „N‟};

cout

cout

cout

cout

cout

return 0;

}

1.5.3 字符串

char a[5]=“JINAN”

其中a[0]= „J‟, a[1]= „I‟, a[2]= „N‟, a[3]= „A‟, a[4]= „N‟ 例 7-8

# include

int main ()

{

char a[5]= “JINAN”;

cout

cout

cout

cout

cout

return 0;

}

1.6 指针

类型说明符 *指针变量名

char a[]=“JINAN” //定义字符串

char *p //定义指针

p=&a[0] //指针初始化

例 7-9

# include

int main ()

{

char a[]= “JINAN”;

char *p;

p=&a[0];

cout

p=p+1;

cout

p=p+1;

cout

p=p+1;

cout

p=p+1;

cout

p=p+1;

cout

return 0;

}

例 7-10 计算输入的DNA中有多少个碱基

# include

int main ()

{

char a[100];

int i;

i=0;

char *p;

cin>>a;

p=&a[0];

while (*p!= „\0‟)

{

p=p+1;

i=i+1;

}

cout

}

例 7-11 计算输入的DNA中有多少个碱基“c”

# include

int main ()

{

char a[100];

int number;

number=0;

char *p;

cin>>a;

p=&a[0];

while (*p!= „\0‟)

{

if (*p= = „c‟)

{

number=number+1;

}

p=p+1;

}

cout

}

用得较多的还有Java语言与Peal语言。

第一章 生物信息学概述

目录:

1背景与定义

2研究内容

3数据库与研究机构

4 期刊与教材

5 生物学、数学与计算机技术基础

6 展望

1. 背景与定义

1.1 背景

1953年WATSON, J. D.与CRICK, F. H. C.在《Nature》杂志上发表DNA双螺旋结构的论文

人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。

地球生物圈约有2 %的物种至少有一段 DNA序列被测定。

破译人类遗传密码就要读懂由30亿符号组成的100万页的天书。 美国的三个国家计划:曼哈顿计划;阿波罗计划;人类基因组计划。

曼哈顿计划(1941-1946),耗资20亿美元

美国陆军部于1942年6月开始实施的利用核裂变反应来研制原子弹的计划,亦称曼哈顿计划。为了先于纳粹德国制造出原子弹,该工程集中了当时西方国家(除纳粹德国外)最优秀的核科学家,动员了10万多人参加这一工程,历时3年,耗资20亿美元,于1945年7月16日成功地进行了世界上第一次核爆炸,并按计划制造出两颗实用的原子弹。整个工程取得圆满成功。

到1941年12月6日,美国正式制定了代号为“曼哈顿”的绝密计划。 罗斯福总统赋予这一计划以“高于一切行动的特别优先权”。

曼哈顿计划的最终目标是赶在战争以前造出原子弹。

在“曼哈顿工程区”工作的15万人当中,只有12个人知道全盘的计划。其实,全体人员中很少有人知道他们是在从事制造原子弹的工作。

曼哈顿计划不仅造出了原子弹,也留下了14亿美元的财产,包括一个具有9000人的洛斯阿拉莫斯核武器实验室;一个具有36000人、价值9亿美元的橡树岭铀材料生产工厂和附带的一个实验室;一个具有17000人、价值3亿多美元的汉福特钚材料生产工厂,以及分布在伯克利和芝加哥等地的实验室。

后来,美国政府决定建立国家实验室,其中最著名的有芝加哥附近的阿贡国家实验室和纽约长岛的布鲁克海文国家实验室(BNL)。

阿波罗计划(1961-1972),耗资200亿美元

1957年10月4日,这是个在历史上值得隆重纪念的日子,前苏联成功地发射了一颗人造地球卫星。从此,人类的生存史揭开了崭新的一页,地球人类开始进入自己的宇航时代。而前苏联更是让全世界人民看见了它在空间科学上的领先

位置。

在1960年,为了在太空较量中彻底打败前苏联,美国宇航局就精心策划了在10年内将人送上月球并能安全返回的一揽子方案。1961年5月,美国国会顺利通过了这项提案,这就是历史上著名的

1969年7月20日,阿波罗11号腾空而起,将两名美国宇航员送上月球,人类第一次在地球以外的另一个星体上留下了自己坚实的脚印。他们在月球表面收集岩石标本,拍摄异乡风景,安装科学探测仪器,总共漫游了足足2小时21分钟;然后乘登陆舱回到了等候在月球上空的飞船主舱,和另一名宇航员一起安全返回。此后,美国总共发射了6次载人登月飞船,其中 5次成功,前前后后有十多人登月,逗留时间最长的将近3天。直到1972年12月

人类基因组计划(1990-2005),耗资30亿美元

生物学信息与计算能力的累积增长

(2000年以前, 2000年以后)

1.2 定义

1956年在美国田纳西州召开第一届“生物学中的信息理论讨论会”

林华安博士与名词“bioinformatics”

1995年美国国立卫生研究所的定义:生物信息学是一门交叉学科。它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。

2. 研究内容

2.1 序列比对

Alignment

AGCGGTGCAGGTTACTGCGCGTAGTAC„

| | |

ACGGTGCGGTTACTGCGGCGTAGTAC„

AGCGGTGCAGGTTACTGCGCGTAGTAC„

| |||||| | | |||||||||

A_CGGTGCGGTTACTGCGGCGTAGTAC„

AGCGGTGCAGGTTACTGCGCGTAGTAC„

| |||||| ||||||||||

A_CGGTGC_GGTTACTGCGGCGTAGTAC„

AGCGGTGCAGGTTACTGC_GCGTAGTAC„

| |||||| ||||||||| |||||||||

A_CGGTGC_GGTTACTGCGGCGTAGTAC„

2.2 基因预测

麻省理工学院Christopher Burge博士设计的GENSCAN基因预测程序(http:genes.mit.edu)

天津大学张春霆院士用z-曲线模型估算酵母的蛋白质编码基因,有至少95%的精确度。

下面是不同学者对酵母的蛋白质编码基因数目的估计:

估算结果1 Estimate 1: ≈ 5,885 (Coffeau, A. et al. (1996) Science, 274: 546.) 估算结果2 Estimate 2: > 6,000 (Heumann, K. et al. (1997) MIPS Database) 估算结果3 Estimate 3: ≤ 5,645 (Zhang, C. -T. and Wang, J. (2000) Nucleic Acids Res., 28: 2804.)

2.3 生物进化与系统发育分析

生物亲缘关系

SARS病毒变异进化图(摘自Science,30 January 2004)

人的进化

2.4 蛋白质结构预测

Protein Structure Prediction

预测方法

晶格法预测

预测结果三维图

2.5 基因组分析

基因组计划

基因组序列

基因组分析的计算

2.6 基因蕊片

基因蕊片的制作

基因蕊片的结果

对基因蕊片的结果进行可视化处理,并用聚类等方法分析基因蕊片的结果 基因蕊片的发展

2.7 分子设计及药物设计

确定病理过程

找到药靶

设计药物

2.8 代谢网络分析

食物被消化吸收后的物质分配

能源物质的代谢

代谢网络

非常复杂的代谢网络

2.9 RNA结构预测

RNA的二级结构

RNA的空间结构

2.10 DNA计算

可用DNA计算往返几个城市的最省钱的路线:用DNA序列表示城市、用生物反应表示航班

制作新的DNA结构进行计算

3. 数据库与研究机构

3.1 数据库

Genbank-美国基因序列数据库Gene sequence data bank of the USA

http://www.ncbi.nlm.nih.gov/Web/Genbank/

EMBL-欧洲分子生物学实验室核苷酸序列数据库 European Molecular Biology Laboratory nucleotide sequence databank

http://www.ebi.ac.uk/embl.html

DDBJ-日本核酸数据库DNAData Bank of Japan

http://www.ddbj.nig.ac.jp/

PDB-蛋白质结构数据库 Protein Data Bank

http://www.rcsb.org/pdb/

SWISS-PROT -瑞士蛋白质氨基酸序列数据库 Switzerland protein AA sequence data bank

http://www.expasy.ch/sprot/

PIR-蛋白质信息资源Protein Information Resource

http://www.mips.biochem.mpg.de/proj/protseqdb

GDB-人类基因组数据库 Human Genome Data Bank

http://www.gdb.org/

EPD-真核生物启动子数据库 Neukaryotic Promotor Database

http://www.epd.isb-sib.ch/

ICTVdB-国际病毒分类委员会病毒数据库International Committee on Taxonomy of Viruses Database

http://wwwl.im.ac.cn/ictvdb/

3.2 研究机构

EBI-欧洲生物信息学研究所(欧洲) European Bioinformatics Institute( EU) http://www.ebi.ac.uk/

EMBL-欧洲分子生物学实验室(欧洲) European Molrcular Biology Laboratory (EU)

http://www.embl-heidelberg.de/Services

NCBI-美国国家生物技术信息中心(美国) National Center for Biotechnology Information (USA)

http://ncbi.nlm.nih.gov/

HGMP- 人类基因组图谱资源中心(英国)Human Genome Mapping Project Resource Centre( UK)

http://www.hgmp.mrc.ac.uk/

ExPASy-瑞士蛋白质分析专家系统(瑞士) Expert of Protein Analysis System(Switzerland)

http://www.expasy.ch/

NIG-日本国立遗传学研究所(日本) National Institute of Genetics( Japan) http://www.ddbj.nig.ac.jp/

欧洲分子生物学网络组织 (EMBnet) European Molecular Biology Network 亚太生物信息学网络组织中国节点China nodes of Asia-Pacific bioinformatics network

哈佛大学系统生物学系与有机进化生物学系

http://sysbio.med.harvard.edu/phd/index.html

http://oeb. harvard.edu

耶鲁大学生物科学与生物医学系生物信息学专业

http://info.med.yale.edu/bbs/biocom.html

牛津大学临床医学系人类遗传学中心

http://www.well.ox.ac.uk/

剑桥大学生物信息学中心及动物系

http://www.bio.cam.ac.uk/molbio.html

http://www.zoo.cam.ac.uk/molbio.html

北京大学生物信息中心

http://www.cbi.pku.edu.cn

清华大学生物信息学研究所

http://www.bioinfo.tsinghua.edu.cn/

4. 期刊与教材

4.1 期刊

«科学» (Science)

http://china.sciencemag.org/

«自然» (Nature)

http://www.nature.com/

http://www.natureasia.com/

«美国国家科学院汇刊»(Proc. Natl. Acad. Sci. USA)

http://intl.pnas.org/

«核酸研究»(Nucleic Acids Research)

http://www.nar.oupjournals.org/

«生物信息学» (Bioinformatics)

http://www.bioinformatics.oupjournals.org

«基因组研究» (Genome Research)

http://www.genome.org/

«美国生理学杂志» (Am. J. Physiol.)

http://intl-ajpadvan.physiology.org/

«临床研究杂志» (J. Clin. Invest.)

http://www.jci.org/

«生物化学杂志» (J. Biol. Chem.)

«新英格兰医学杂志» (New Engl. J. Med.)

«细胞» (Cell)

«柳叶刀» (Lancet)

«生物化学» (Biochemistry)

«免疫学杂志» (J. Immunol.)

«癌症研究» (Cancer Res.)

«循环» (Circulation)

«欧洲分子生物学学会志» (EMBO J.)

«血液» (Blood)

«分子生物学杂志» (Journal of Molecular Biology)

«蛋白质» (Proteins)

«生命科学中的计算机应用»(Computer Applications in the Biosciences)

4.2 教材

国内教材

2000-2001年:

Andreas D. Baxevanis, B. F. Francis Ouellette. (李衍达, 孙之荣, 等译).

2000:

生物信息学基因和蛋白质分析的实用指南. 北京: 清华大学出版社.

2001.:

简明生物信息学. 钟扬, 张亮, 赵琼.北京: 高等教育出版社.

2002年:

T K Attwoood, D J ParrSmith. (罗静初, 等译). 2002. 生物信息学概论. 北京: 北京大学出版社.

郝柏林, 张淑誉. 2002. 生物信息学手册(第2版). 上海: 上海科学技术出版社. 张成岗, 贺福初. 2002. 生物信息学方法与实践. 北京: 科学出版社.

Cynthia Gibas, Per Jambeck. 2002. Developing Bioinformatics Computer Skills生物信息学中的计算机技术(影印版). 北京: 科学出版社.

Cynthia Gibas, Per Jambeck. (孙超, 郭庆民, 刘相国, 吴斌, 译). 2002. 生物信息学中的计算机技术. 北京: 中国电力出版社.

David W. Mount. 2002. Bioinformatics: Sequence and Genome Analysis生物信息学: 序列与基因组分析(影印版). 北京: 科学出版社.

赵国屏, 等. 2002. 生物信息学. 北京: 科学出版社.

R. Durbin, S. Eddy, A. Krogh, G. Mitchison. 2002. Biological sequence analysis—Probabilistic models of proteins and nucleic acids 生物序列分析—蛋白质和核酸的概率论模型(影印版). 北京: 清华大学出版社.

2003年:

David W. Mount. (钟扬, 王莉, 张亮, 主译; 李亦学, 钱晓茵, 张晓宁, 校) 2003年:

生物信息学: 序列与基因组分析(影印版). 北京: 高等教育出版社.

黄韧, 薛成, 等. 2003. 生物信息学网络资源与应用. 广州: 中山大学出版社.

D. R. Westhead, J. H. Parish, R. M. Twyman. 2003. Bioinformatics生物信息学(影印版). 北京: 科学出版社.

皮埃尔•巴尔迪, 索恩•布鲁纳克. (张东晖,黄颖, 蔡军, 孙应飞, 夏慧煜, 胡驰峰, 计宏凯, 朱宗涵, 译; 李衍达, 朱宗涵, 张东晖, 审校). 2003. 生物信息学—机器学习方法. 北京: 中信出版社.

尚彤, 国强华, 景霞. 2003. 常用医学生物信息学数据库. 北京: 北京大学医学出版社.

J. 塞图宝, J. 梅丹尼斯. (朱浩, 等译). 2003. 计算分子生物学导论. 北京: 科学出版社.

蒋彦, 王小行, 曹毅, 王喜忠, 等编著. 2003. 基础生物信息学及应用. 北京: 清华大学出版社.

2004年:

郑珩, 王非. 2004. 药物生物信息学. 北京: 化学工业出版社.

黄德双, 张学工, 田捷, 刘湘军, 主编. 2004. 生物信息学若干前沿问题的探讨. 合肥: 中国科学技术大学出版社.

A. 马尔科姆•坎贝尔, 劳里. J. 海尔. (孙之荣, 主译). 2004. 探索基因组学、蛋白质组学和生物信息学. 北京: 科学出版社.

P. A. 帕夫纳. (王翼飞, 等译). 2004. 计算分子生物学—算法逼近. 北京: 化学工业出版社.

Dan E. Krane, Michael L. Raymer. (孙啸, 陆祖宏, 谢建明, 等译). 2004. 生物信息学概论. 北京: 清华大学出版社.

李桂源, 钱骏. 2004. 基于WWW的生物信息学应用指南. 长沙: 中南大学

出版社.

2005年:

S. 米塞诺, S. A. 克拉维茨. (欧阳红生, 阮承迈, 李慎涛, 等译). 2005. 生物信息学方法指南. 北京: 科学出版社.

孙啸, 陆祖宏, 谢建明. 2005. 生物信息学基础. 北京: 清华大学出版社. 伍欣星, 赵旻. 2005. 生物信息学-基础与临床医学应用指南. 北京: 科学出版社.

2006年:

张革新. 2006. 简明生物信息学教程. 北京: 化学工业出版社. 乔纳森. 佩夫斯纳. (孙之荣, 等译). 2006. 北京: 化学工业出版社.

王翼飞, 史写华. 2006. 生物信息学——智能化算法及其应用. 北京: 化学工业出版社.

2007年:

许忠能,Ken Chan,黄蓓蓓,刘顺会,许龙飞,等. 2007年. 生物信息学. 清华大学出版社.

主编: 许忠能

编委(按姓的首字母顺序) :

Chan Ken 澳大利亚University of the Sunshine Coast

陈煊 暨南大学信息科学技术学院

邓日强 中山大学生命科学学院

黄蓓蓓 武汉大学生命科学学院

刘吉平 华南农业大学动物科学学院

刘顺会 广东药学院生命科学与生物制药学院

许龙飞 暨南大学信息科学技术学院

许忠能 暨南大学生命科学技术学院

周辉 广东海洋大学养殖学院

周杰 中国科学院植物研究所

石宏 中国科学院昆明动物研究所

蒙进芳 云南林业学院

无国内影印本及中译本的国外教材

2000年及以前:

S. Schulze Kremer, S. Schulze-Kremer. 1994. Advances in Molecular Bioinformatics. Amsterdam: IOS Press.

Stanley Letovsky. 1999. Bioinformatics. Massachusetts: Kluwer academic Publishers.

Hooman H Rashidi, Lukas K Buehler. 2000. Bioinformatics Bacics. Boca Rotan: CRC Press LLC.

Des Higgins, Willie Taylor. 2000. Bioinformatics. Oxford: Oxford University Press.

2001年:

James Tisdall. 2001. Beginning Perl for Bioinformatics. Sebastopol: O‟Reilly & Associates, Inc..

W J Ewens, Gregory Grant. 2001. Statistical Methods in Bioinformatics. New

York: Springer-Verlag New York, Inc..

Olivier Gascuel, Bernard M E Moret. 2001. Algorithms in Bioinformatics. Heidelberg: Springer-Verlag Berlin Heidelberg.

Timo Koski. 2001. Hidden Markov Models for Bioinformatics. Dordrecht: Kluwer academic Publishers.

2002年:

Gary B Fogel, David W Corne. 2002. Evolutionary Computation in Bioinformatics. San Francisco: Morgan Kaufmann Publishers.

Rex A. Dwyer. 2002. Genomic Perl. Cambridge: Cambridge University Press. H -D Belitz, R Guigo, D Gusfield. 2002. Algorithms in Bioinformatics. Heidelberg: Springer-Verlag Berlin Heidelberg.

Stephen A Krawetz, David D Womble. 2002. Introduction to Bioinformatics. Totowa: Humana Press Inc..

Bryan P Bergeron. 2002. Bioinformatics Computing. Upper Saddle River: Prentice Hall PTR.

2003年:

Sushmita Mitra, Tinku Acharya. 2003. Data Mining. Hoboken: John Wiley and Sons, Inc..

P. Franscon. 2003. Artificial Intelligence and Heuristic Methods in Bioinformatics. Amsterdam: IOS Press.

Gary Benson, Roderic Page. 2003. Algorithms in Bioinformatics. Heidelberg: Springer-Verlag Berlin Heidelberg.

James Tisdall. 2003. Mastering Perl for Bioinformatics. Sebastopol: O‟Reilly & Associates, Inc..

Dov Stekel. 2003. Microarray Bioinformatics. Cambridge: Cambridge University Press.

Michael R. Barnes, Ian C. Gray. 2003. Bioinformatics for Geneticists. West Sussex: John Wiley and Sons Ltd.

2004年:

Inge Jonassen, Kim Junhyong. 2004. Algorithms in Bioinformatics 2004. Heidelberg: Springer-Verlag Berlin Heidelberg.

Ingvar Eidhammer, Inge Jonassen, William R. Taylor. 2004. Protein Bioinformatics. West Sussex: John Wiley and Sons Ltd.

Michael Moorhouse, Paul Barry. 2004. Bioinformatics Biocomputing and Perl. West Sussex: John Wiley and Sons Ltd.

Alexander Isaev. 2004. Introduction to Mathematical Methods in Bioinformatics. Heidelberg: Springer-Verlag Berlin Heidelberg.

Limsoon Wong. 2004. Practical Bioinformatician. Singapore: World Scientific Publishing Co. Pte. Ltd.

Nikolay Kolchanov, Ralf Hofestaedt. 2004. Bioinformatics of Genome Regulation and Structure. Massachusetts: Kluwer academic Publishers.

Jason T L Wang, Mohammed J Zaki, Hannu T T Toivonen, Dennis Shasha. 2004. Data Mining in Bioinformatics. London: Springer-Verlag London Limited.

5. 生物学、计算机技术与数学基础

5.1 生物学

分子生物学

遗传学

细胞生物学

生物化学

生理学

微生物学

植物学

动物学

生态学

地外生命研究

进化生物学

5.2 计算机技术

数据库技术

数据处理和可视化

网络技术

Windows、Linux及Unix操作系统

C++语言、Java语言、Perl语言

5.3 数学

动态规划

隐马尔可夫模型

图论

贝叶斯统计

神经网络模型

聚类分析

马尔可夫模型

遗传算法

信息论

6. 展望

10 个主题:

1)人(生物)基因转录的时间与地点

2)人(生物)组织的RNA转录过程的调控

3)人(生物)细胞对外界环境反应的预测

4)蛋白质对DNA、蛋白质对 RNA、蛋白质对蛋白质的识别

5)人(生物)体内环境中的蛋白质结构预测

6)防治疾病的分子设计

7)蛋白质的功能是如何进化的

8)物种起源的分子机制

9)人(生物)体中的蛋白质功能是怎样随人(生物)体发育而变化的

10)中学、本科、研究生阶段的生物信息学教育

Christian Boemer Anfinsen (1915-1995), 与洛克菲勒大学的Stand Moore与

William H Stein 共享1972年化学诺贝尔奖。他们阐明蛋白质结构与功能的关系。尤其Anfinsen博士发现了RNA酶的三级结构决定其功能。

第一次科学浪潮

第谷(Tcho Brahe)、开普勒(Johannes Kepler)、牛顿(Isaac Newton)

天象观测 → 大量数据 → 行星运动定律 → 万有引力定律 → 航空航天业

第二次科学浪潮

门捷列夫(Ditri Mendeleev)

元素与大量化合物 → 元素周期表 → 现代化学化工

第三次科学浪潮

普朗克(Max Karl Ernst Ludwig Planck)、爱因斯坦(Albert Einstein)、玻尔(Niels Bohr)、薛定谔(Erwin Schrödinger)、杨振宁,等

大量原子光谱数据

量子论 → 量子力学 → 信息技术

第四次科学浪潮

基因组超大量的序列和结构数据 → 重大的发现

当青年科学家问我,未来令人振奋的科学领域是什么时,我则多次对他们说:计算生物学是我首先推荐的领域。

弗朗希斯 • 克林斯

美国国家健康研究所人类基因组计划首席科学家

人类基因组计划的下一步就是要进行解释。我们必须发现这一切到底表示什么意思。

J. 克雷格 • 温特

塞罗拉基因公司负责人

21世纪是生物世纪,计算生物学是其中最有产业价值的领域之一。

比尔 • 盖茨

微软公司总裁

第二章 生物信息学的生物学基础

目录

1.生物学研究的层次

2.分子生物学基础

3.人类基因组计划

1. 生物学研究的层次

地外生命的研究、生态学、动物学、植物学、微生物学、生理学、细胞生物学、分子生物学、进化生物学

从宏观天体到微观粒子

1.1 地外生命的研究

定义:地外生命的研究指探索存在于或来自地球以外的生命现象.

陨石中物质成分的分析

登陆火星及实物采集

天外智慧搜寻计划

加州大学伯克利分校地外生命的研究

对宇宙射线的分析

不明飞行物(UFO)的官方研究、不明飞行物(UFO)的证据、不明飞行物(UFO)的民间兴趣

1.2 生态学

定义:研究生物体与其环境的关系的学科.(Manuel C. Molles. 2001. 生态学:概念与应用.北京:科学出版社.2.)

生物圈中的海洋与陆地:4%高生产力海洋;67%低生产力海洋;18%高生产力陆地;11%沙漠、冰川、荒漠

人与生物圈:4.5英亩/人

CO2与全球气候变化

磷、钙、氮等元素在生物圈的循环

人造生物圈:生物圈2号

海洋生态平衡受破坏:赤潮;生态系统: 赤潮治理--生态修复

生物群落:食物网

生物群落:水生生物的相互关系

种群:旅鼠的增长(增长的原因、四年左右一个增长周期、部分毛皮变鲜艳的橙色、集体狂奔)

个体:不同的鱼适应于不同的水

个体:鱼不同性别的脾气差异

北江镉污染

汞中毒引起水俣病

砷中毒

孔雀石绿事件:水霉菌

孔雀石绿事件:患水霉病的鱼类菌

孔雀石绿事件:用孔雀石绿消毒

珠江的水质污染

2006年横渡珠江

1.3 动物学、植物学、微生物学

动物学

定义:动物学是一门研究动物的形态结构、分类、生命活动及其与环境的关系发生发展的规律的学科.(刘凌云,郑光美. 2004. 普通动物学.北京:高等教育出版社.4.)

原生动物:锥虫

曼氏血吸虫:交配

埃及血吸虫病

日本大王乌贼

菊石

浮游动物:枝角类

昆虫交配

蜻蜒交配:1)雄蜻蜒用腹部末端的握夹抱住雌蜻蜒的头颈;2)蜻蜒弯着身体;3)雌蜻蜒再用腿抱住雄蜻的腹部,将腹端生殖器伸雄性的藏精囊,接收精子。三只蜻蜒不知道在干什么?

蝴蝶交配:雌蝶选中心仪的雄蝶,双双飞到理想的地方。交尾

棘皮动物:海盘车Asterias rubens

棘皮动物:梅花参

圆口纲:雷氏七鳃鳗

鱼纲:鲨鱼的鼻孔腹位

鱼纲:噬人鲨

鱼纲:姥鲨

两栖纲

爬行纲:黄喉水龟

爬行纲:楔齿蜥

鸟纲:蜂鸟

鸟纲:金丝燕与燕窝

鸟纲:鸟撞飞机

哺乳纲:蝙蝠

哺乳纲:鼯鼠(寒号鸟)

哺乳纲动物

第19届世界动物学大会:2004年,北京

第20届世界动物学大会:2008年,巴黎

植物学

定义:植物学是研究植物界和植物体生活和发展规律的科学.(徐汉卿. 1994. 植物学.北京:北京农业大学出版社.3.)

藻类

藻类:硅藻(左)、甲藻(右)

苔藓植物

蕨类植物

裸子植物

被子植物:使君子、紫薇、野牡丹、铁海棠、金凤花、月见草、印度锦鸡儿、桃金娘

微生物学

定义:微生物学是研究各类微小生物体,如细菌、放线菌、真菌、病毒、立克次氏体、支原体、衣原体等生物的形态、生理、生物化学、分类和生态的生物学分支学科.(谒葛健,李华钟. 2004. 微生物学. 北京:科学出版社.5.)

真菌

细菌,2005年7月四川资阳猪链球菌

病毒:2003年SARS冠状病毒、口蹄疫病毒(左)、埃博拉病毒(右)、2004年禽流感病毒、艾滋病病毒、SARS的防治建议

1.4 生理学

定义:生理学是研究生命有机体各种机能的科学.(王玢,左明雪. 2001. 人体及动物生理学.北京:高等教育出版社.1.)

呼吸生理

泌尿生理

内分泌生理

神经生理

视觉生理

听觉生理

胚胎发育

1.5 细胞生物学

定义:细胞生物学是一门以细胞为研究对象的研究生命活动现象、规律及其本质的科学.(鲁润龙,顾月华. 2002. 细胞生物学.合肥:中国科技大学出版社.)

动物细胞、植物细胞

植物气门细胞

动物神经细胞

红细胞、白细胞

细胞分裂:有丝分裂

正常细胞、正在死亡的细胞

细胞膜结构

细胞骨架:微管系统

叶绿体

蛋白质感染因子(PrPc)的位置(左)、病人脑组织海绵状病变(右上)及淀粉状蛋白沉淀(右下)

1.6 分子生物学

定义:分子生物学是研究核酸、蛋白质等生物大分子的形态、结构特征及其重要规律性和相互关系的科学。(朱玉贤,李毅. 2004. 现代分子生物学.北京:高等教育出版社.8)

蛋白质感染因子(Prion)正常与(PrPc)病变结构(PrPsc)

糖类(上)与核酸(下)

1.7 进化生物学

定义:进化生物学是研究生物进化的科学,不仅研究进化的过程,更重要是研究进化的原因、机制、速率和方向的科学。(沈银柱. 2002. 进化生物学.北京:高等教育出版社.2)

生物进化的进程

生物进化树

返祖现象:人的尾巴

2.分子生物学基础

2.1 核酸的种类与结构

核酸最早是从被丢弃的外科绷带上的脓细胞中分离出来。那是1869年,瑞士的Friedrich Miescher报道了在细胞核内有不能为蛋白消化酶破坏的酸性物质,命名为核酸。核酸根据含有糖基(核糖或脱氧核糖)的不同,分为脱氧核糖核酸(deoxyribose nucleic acid, DNA)与核糖核酸(ribose nucleic acid, RNA)。

碱基:嘌呤与嘧啶

核苷:碱基+核糖

核苷酸:核苷+磷酸

核酸:核苷酸链

碱基配对

核酸双链与链的方向

DNA双螺旋结构

DNA几种螺旋结构

在细胞核内,细细长长的线状DNA紧密地盘绕成清晰可见的棒状结构,称为染色体。

人类23对染色体(♂ )

2.2 复制、转录、翻译

复制指以原来DNA分子为模板合成出相同分子的过程。

转录就是DNA分子上合成出与其核苷酸顺序相对应的RNA的过程。

(反转录是以RNA 为模板合成DNA。)

基因结构

原核生物的转录过程与真核生物的转录过程

翻译是在RNA的控制下,根据核酸链上每三个核苷酸决定一个氨基酸的三联体密码规则,合成出具有特定氨基酸顺序的蛋白质肽链的过程。

遗传密码

mRNA, rRNA, tRNA的作用

2.3 蛋白质的结构

一级结构指一条多肽中氨基酸线性序列。

二级结构指一条多肽主链空间结构。

三级结构指一条多肽的三维结构。

四级结构指多亚基蛋白结构,即不同蛋白亚基的结合。

一切重要的生命活动都离不开蛋白质,蛋白质是生命活动的主要承担者

2.4 核酸、蛋白质与人类疾病

Turner综合症:只有一个X

Klinefelter综合症:XXY

Down综合症:3个21号染色体

猫哭综合症:5号染色体短臂缺失

镰形细胞贫血病

Williams综合症

Alzheimer综合症: ApoE4基因

Huntington舞蹈病: Huntington基因

3. 人类基因组计划

3.1目标

1)鉴定人类基因组中的约3万个基因

2)测定人类基因组中的约30亿个碱基序列

3)建立生物信息数据库

4)提高测序及生物信息分析技术

5)各机构企业间技术合作

6)此计划带来的伦理、法律、社会舆论问题(the ethical, legal, and social issues,缩写ELSI)

人类基因组计划是描述人类基因组和其他生物体基因组特征,发展基因组学新技术,阐明与此相关的伦理、法律和社会影响的一个国际性研究项目。

3.2 资助

美国国家能源部共出资8.9亿美元

美国国家能源部(DOE)、DOE中的生物与环境工作组

美国国立卫生研究所共出资22亿美元

英国Wellcome Trust基金会

3.3 研究机构

“公”与“私”的竞争

 国际人类基因组测序协作组(International Human Genome Sequencing Consortium, IHGSC):美国、英国、日本、法国、德国、中国. 6个国家  :Celera公司: J. Craig Venter1998年创立

美国Whitehead Institute for Biomedical Research,测序量第一

英国剑桥的Sanger Institute,测序量第二

日本横滨的RIKEN Genomic Sciences Center,测序量第六

法国的Genoscope and CNRS UMR-8030,测序量第七

德国的Institute of Molecular Biotechnology,测序量第九

中国北京的华大基因研究中心,测序量第十

美国Cekera公司,先完成果蝇基因组测序,于1999年9月开始测人类基因组,于2000年6月26日与IHGSC发表联合声明

3.4 研究方法

大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。从测序仪的光密度采样与分析、碱基读出、载体标识与去除、拼接与组装、填补序列间隙、到重复序列标识、读框预测和基因标注的每一步都是紧密依赖软件和数据库的。

基因组测序概观:选择生物→从细胞中分离基因组DNA→把基因组DNA切割成合适的可相互重叠的DNA片段→把DNA片段插入载体中大量克隆→测出每一DNA片段的序列→确定片断间的重叠,把序列组装成最终的基因组序列。

某段已插入载体中的DNA的测序过程:测序→碱基读取→载体识别→拼接→初步完成→重复序列标注、可读框标注、基因标注→序列数据发布。 凝胶电泳: 将分子按其大小不同而分离

片断

 基因组图谱

遗传图谱:显示基因等标记在基因组中的相对距离与次序的图。 物理图谱:显示DNA标记在基因组中的精确位置的图。

 DNA片段组装

根据重叠情况用已知的多个小片段DNA序列去推断原来的大片段DNA(或整个基因组)的完整序列。

地球生物圈约有140万余种物种,其中约2 %至少有一段

DNA序列被测定。

▲ 真核生物 12 500 种

▲ 哺乳动物 4 200 种

▲ 真 细 菌 3 600 种

▲ 古 细 菌 180 种

▲ 病 毒 1 750 种

 模式生物:被集中研究的一些典型的生物,通过对其研究获取的知识去解释一般的生物现象。如线虫、拟南芥、果蝇、酵母。

酿酒酵母Saccharomyces cerevisiae

第一个被测序的真核生物基因组,1996年完成,共12 100 000个碱基对。

线虫Caenorhabditis elgans

第一个被测序的动物基因组,1998年完成,共97 000 000个碱基对。

果蝇Drosophila melanogaster

遗传学上常用的模式生物,2000年完成,共180 000 000个碱基对。

拟南芥Arabidopsis thaliana

第一个被测序的植物基因组,2000年完成,共120 000 000个碱基对。

 测了何人的基因组?

国际人类基因组测序协作组(IHGSC):大量志愿者

Celera Genomics 公司:共5人 (2男,3女)

美国黑人 ×1 亚洲中国人 ×1

西班牙裔墨西哥人 ×1 白种人 ×2

 测序策略:

国际人类基因组测序协作组(IHGSC):“基于图谱”的方法

全基因组分级分成大片断 大片断分成小片断小片断测序  计算机拼接组装

Celera Genomics 公司: Shotgun 方法

全基因组随机打断成小片断  小片断测序  计算机拼接组装

“基于图谱”的方法

“基于图谱”的方法的成功应用于酿酒酵母与线虫的基因组测序

Shotgun方法的成功应用于流感嗜血杆菌与果蝇的基因组测序

3.5 目前结果

已完成一批生物基因组序列的测定及基因的鉴定,提高了测序、基因组学、生物信息学等有关技术,建立了生物信息数据库,多国家、各部门、研究机构、企业间进行技术合作与交流

 工作框架图的完成 (2000年6月26日)框架图 — 覆盖率为90 %的序列图  人类基因组的初步分析结果发表 (2001.2.12)覆盖率95 %

 人类基因组完成 (2003.3)

 人类基因组基因总数重新预测 (2004.10) 约2万~2.5万个基因

 人类基因组测序最后完成 (2006.5)

已完成测序的染色体:

1号染色体——2006年5月

3号染色体——2006年4月

17号染色体——2006年4月

11号染色体——2006年3月

12号染色体——2006年3月

15号染色体——2006年3月

8号染色体——2006年1月

2号染色体——2005年4月

4号染色体——2005年4月

X 染色体——2005年3月

16号染色体——2004年12月

5号染色体——2004年9月

9号染色体——2004年5月

10号染色体——2004年5月

19号染色体——2004年3月

13号染色体——2004年3月

6号染色体——2003年10月

7号染色体——2003年7月

Y 染色体——2003年6月

14号染色体——2003年1月

20号染色体——2001年12月

21号染色体——2004年5月

22号染色体——1999年12月

伦理、法律、社会舆论

1932年德国的人种调查

20世纪初的优生学

种族隔离

4号染色体遗传病基因

以人为实验材料

动物伦理:实验乱转基因

动物伦理学宣扬动物的尊严、生存价值。

有害生物生存权利:1)自然中有有害生物生存的环境;2)若人类没有敌害存在的情况下无限制地发展,将成为地球上的生态肿瘤,最终毁灭地球上的所有生物,包括自己。所以,生态系统中就配了有害生物来干扰人类的发展

有害生物生存权利:现在的人类发展成这个样子,正是由于有了有害生物的贡献,如加强人类免疫机能、丰富人类基因库等。

依照世界五大宗教的观点,隶属“一切生灵”的有害生物有生存的权利,并在某种程度上应受人类的保护或怜悯。

第三章 分子系统发育分析

1 序列比对 1.1 序列比对的概念

序列比对的定义是:根据特定的计分规则,两个或多个符号序列按位置比较后排列,尽可能反映序列间的相似性,这一过程称为序列比对。

1.2 序列比对的意义

生物信息学形成早期的主要研究内容就是序列比对,而当时序列比对研究的课题主要是生物大分子的进化。核酸序列与蛋白质序列的突变是经实验证明的生物学现象,而现代生物学认为正是这种生物大分子序列的不断变化形成了生物进化的分子基础。即在地质年代早期的地球生物中的核酸、蛋白质等序列经过几十亿年的演变后,成为了现今极其多样化的生物大分子序列。我们并不知道这些分子序列祖先演化的实际过程,但可以找到现存序列的相似性,根据相似性去推导演化的过程。正是通过序列比对找出序列之间的相似性。序列比对找到的是相似性,可用这相似性去进行同源性分析。后文所讲到的分子系统发育分析,就是通过序列比对,再进行聚类分析,然后依据所得结果确定被测分子序列的亲缘关系,构建进化树。

序列比对的一个用途就是用于搜索相似序列。当你获得一段DNA序列或氨基酸序列后,发现对它一无所知时,可以在核酸序列数据库中搜索关于这一序列的信息,一个有效的方法是采用比对算法在数据库中找到一系列与该序列有相似性的序列,并按相似程度由高到低排列。现在应用的多个序列搜索软件的本质差异基本上是比对算法的差异,随着数据库规模的扩大,对快速搜索的要求越来越高,而优化比对算法是解决问题的方案之一。

在基因组测序中,序列比对更是有重要作用。基因组测序一般要将若干个拷贝的长核酸序列打断成有重叠区域的许多小片断,测序仪对小片断进行测序,然

后把已知碱基排列顺序的小片断用比对算法找到有重叠区的另外的片断,把它们边接起来还原成原来的长核酸序列,得到长核酸序列的碱基排列顺序。

序列比对还可以寻找序列中的特定位点。当一个基因的某一位点发生突变时,它与原基因进行比对时就能发现这个位点,这在寻找致病基因时尤为重要。同时,通过比对,可找出不同序列间一些保守性的区域,它们可能行使重要的功能。经常会用比对确认氨基酸序列的保守区以了解该区的特定结构与功能。

在进行蛋白质结构预测、基因预测时,比对也是一种基本的研究手段之一。蛋白质结构预测中,大部分的成果都是来自序列比对,研究的模式主要是有若干已知结构及氨基酸顺序的序列,把待测的序列与已知结构的序列进行比对,通过相似性去预测待测序列局部或全部的结构。而在蛋白质的分类中,有的方法就是利用比对获得氨基酸序列的相似性,以此相似性为基础进行分类。在基因预测中常要在待测序列中搜寻起始密码子、结束密码子、多聚A帽子序列等特自位点以增加预测的命中率。

1.3 全局比对与局部比对

根据对比对后要排列的片断范围可将比对分为全局比对与局部比对。 1.3.1 全局比对

全局比对是全部待研究的全部序列的全部符号参加比较,最后也是全部序列的全部符号进行排列与计分,比对的结果中各序列长度相同。例如,按特定的计分规则(字母相同+1分、字母不同-1分、一个空格“-”对一个字母-2分),以下序列1与序列2的全局比对是:

序列1 T A C A G T T G G A T C C G T 序列2 T T T G G A

序列1 T A C A G T T G G A T C C G T 序列2 T - - - - T T G G A - - - - -

比对的得分是1-2-2-2-2+1+1+1+1+1-2-2-2-2-2=-12,比对的结果中16个位置有6个位置字母相同,9个位置字母对空格。 1.3.2 局部比对

局部比对是全部序列的全部符号参加比较,最后只将各序列中得分高的片断中的符号进行排列与计分,即只排列局部的序列片断。上述的例子中将序列1与序列进行全部比对时得分较低,以下把它们进行局部比对,看看有怎样的变化:

序列1 T A C A G T T G G A T C C G T 序列2 T T T G G A

序列1 T T G G A 序列2 T T G G A

比对的得分是1+1+1+1+1=5,比对的结果中5个位置有的字母全部相同,分别是

序列1的第6至10个字母与序列2的第2至6个字母相匹配。可见,用全局比对去寻找只有局部相似性的序列间的联系时很可能得不到有用的信息,而用局部比对则能把相似片断找出来。不同来源序列间在生物学上有意义的相似往往只出现在序列的局部区域,因此局部比对在实际中更常用。

1.4 计分方法

计分规则是比对的重要条件,计分方法的生物学意义常常就决定了比对所反映的生物学特征。在使用差异较大的不同计分方法时将会产生不同的比对结果。根据所代表的生物学意义可以粗略地将计分方法分为三类:匹配计分、结构与性质计分、可观察变换计分。

匹配计分的规则是字符进行比较时只有3至4个分值:两个字母相同一个分值、两个字母不同给一个分值、字母对空格给1至2个分值。例如常用的生物信息学软件BLAST中的核酸比对计分就是采用匹配计分。

由于这种方法简单,较容易用它说明比对的一般原理,所以本章的核酸序列比对都采用这种方法,其中当两字母相同时取+1分,两字母不同时取-1分,空格对字母时每个空格计-2分。

匹配计分的优点是简单易掌握,缺点是没有考虑不匹配时的相似性质。

1.5 比对的算法过程

有不少的序列比对算法已出现在文献及应用软件中,其中一些得到广泛的应用,如动态规划法、累进方法等。两序列比对与多序列比对的算法有差异,所以一般是分开介绍。两序列比对的经典方法是动态规划法,点阵法也用得较多,我国学者沈世镒等创造了统计判决算法。多序列比对的常用方法是累进方法、隐马尔可夫模型、动态规划法等,也有些算法相对简单,如星比对方法。 1.5.1 两个序列比对

全局比对动态规划法是Needle与Wunsch在1970年提出,一直沿用至今,这个算法是生物信息学的基础算法之一。动态规划算法是把一个大问题分成多级的小问题,逐级求每个小问题的最优答案,各级问题的最优答案加起来就是这个大问题的最优答案。

如果不加限制空格的加入,任两个序列的比对结果都会有无限多个,因为只要加入不同的空格数目就行了。因此首先规定空格对空格无效。

动态规划算法将比对全过程分为若干步,每一步增加一个位置。因为空格对空格无效,所以增加一个位置时有三种情况:第一个序列增加一个字母而第二个序列增加一个空格;第一个序列增加一个空格而第二个序列增加一个字母;两个

n

序列都增加一个字母。这样要进行n步的话就可能有3种可能。动态规划算法的巧妙之处是把第一序列已比对字母且第二序列已比对字母都相同的各种比对结果放在一起进行判断,只留最优结果。例如对序列gc与at进行比对,其中中间过程中的三个结果(都是第一序列的g已比对且第二序列的a已比对):

g– -g g -a a- a 是放在一起的,并且被判断,只留出最优结果(即舍去了第1与第2个比对结果)。

用这种筛选方面一直进行下去,直到所有的字母都进行过比对为止。最后所得的最优解就是动态规划算法的最后结果。因此,用动态规划算法进行两序列比对的过程可用矩阵显示,矩阵中的每一元素可表示第一序列已比对字母且第二序列已比对字母相同的各种比对结果的最优者,最后的一格(即右下格)的最优结果就是整个比对的最优结果。在具体算的过程中,每一格只用最优比对的得分来表示。

矩阵的计算过程可表示如下:对于序列I,序列J,如果采用特定的计分规则(字母相同+1分;字母不同-1分;字母对空格-2分),除左上第一格外,每一格均有:

Mi-1,j-2 (表示纵向增加一个位置是字母对空格,因此减2分) Mij Mi-1,j-1+S(i,j) (表示斜向增加一个位置是字母对字母) Mi,j-1-2 (表示横向增加一个位置是空格对字母,因此减2分) 其中Mij指在i列、j行的元素所在的计分; Max指要三种可能得分中的最高分的那种;

Mi-1,j指第i-1列、第j行的元素(即Mij的水平左方的那个元素)的计分;

Mi-1,j-1指第i-1列、第j-1行的元素(即Mij的水平左斜上方那个元素)的计分; Mi,j-1指第i列、第j-1行的元素(即Mij的垂直上方那个元素)的计分; S(i,j)指第i列字母i与第j行字母j的比较,相同为+1,不同为-1。

以下用2个例子说明动态规划算法。

2. 分子系统发育分析

2.1 分子系统发育分析的概念

根据生物大分子序列差异来评估物种或分子间的进化。

2.2 分子系统发育分析的意义

2.2.1 研究物种间的进化

生物大分子演变有规律、材料易得

2.2.2 生产上的应用

疾病与药物

2.3 构建进化树

2.3.1构建进化树的方法 距离法步骤:

1)两两比对,并计出遗传距离

2)合并,并重新计出遗传距离作为树分支长度 3)画进化树 最大简约法

将所有可能的树都画上,选择最优的。

因为这是4个类群,所以有以下3种进化树的类型

观察2)中的排列结果,可以看出第一家族中第1列与第3列字母相同,不是信息位点,而第2、4、5列是信息位点。

第一家族第2列中各字母在3种进化树中的替换情况是:

③ ② ② ① ① ① F

K →F) →F) →F) →F)

F

(K→F) K F

FF F F ② ③

④ ④ ④

第一家族第4列中各字母在3种进化树中的替换情况是:

③ ② ② ①① ①

L K K L→K) →K) →K)

K(L→K) →K) K LK K

② ③ ④ ④ ④ ③

第一家族第

5列中各字母在3种进化树中的替换情况是:

③ ② ② ①① ①

L K K KK L(L→K) →K) →K) →K) →K) K L

② ③ ④ ④ ④ ③

从上要看出,左边的树的信息位点的替换个数之和为4,中间的树是5,右边的树是6,因此取左边的树作为第一家族的4个序列的进化树。序列的总体替换情况可用下图表示:

③ ①

FFILL (L→K)

→K)

FKIKKFFIKL (K→F) (K→L)

FKIKKFFIKL ② ④ 最大似然法

用似然函数去估计。

2.3.2用软件构建进化树

步骤:1)用ClustalW进行序列比对 2)用PHYLIP软件计算距离 3)用TreeView软件画图

例2 对以下三段DNA序列构建进化树。

序列1:AAAAAAAAACCCGGTTTAAGGTCCC 序列2:AAAACCCCAACCCCTTTTTTAAGGTCCC 序列3:AAAAAAAAAGGTTTAAGGTCCC 答:1)用ClustalW进行序列比对 步骤:[1]www.cbi.pku.edu.cn;

[2]点击“ExPASy”;

[3]在 “Tools and software packages”下点击“Alignment”

[4]在“Sequence Alignment”下的“Multiple”下的“CLUSTALW”中点击右边的“EMBnet-CH”;

[5]在大空框中填入“>1

AAAAAAAAACCCGGTTTAAGGTCCC >2

AAAACCCCAACCCCTTTTTTAAGGTCCC >3

AAAAAAAAAGGTTTAAGGTCCC ” [6]点击“Run ClustalW”;

[7]点击“ClustalW (aln)”

2)用PHYLIP软件计算距离

步骤:[1]登陆bioweb.pasteur.fr/seqanal/phylogeny/phylip-uk.html;

[2]点击“Programs for molecular sequence data”下的“DNA”下的“dnadist”; [3]填写你的电邮地址,粘贴1)中的比对结果进“Alignment File”,点击“Run dnadist”;

[4]在“Resluts”下选择“neighbor”,点击“Run the selected program on outfile”; [5]点击“Run neighbor”;

[6]将“Rrsults”下的“Outtree”文件存在你的电脑中,存成.txt文档。

3)用TreeView软件画图

安装:[1]登陆taxonomy.zoology.gla.ac.uk/rod/treeview.html;

[2]确认计算机已安装打印机驱动程序;

[3]下载Win32 (Windows 95 or Windows NT); [4]打开“treev32”文件夹; [5]点击“SETUP”; [6]直到“finish”。

画图:[1] 点击屏幕“开始”中的“所有程序”中的“TreeView”;

[2]点击“File”下的“Open”; [3]选择2)中保存的文档; [4]点击“打开”。

第六章 蛋白质结构与预测

1. 蛋白质的结构与功能 2. 影响蛋白质结构的因素 3. 蛋白质结构的实验测定方法 4. 蛋白质结构预测

1.蛋白质的结构与功能 1.1蛋白质结构层次

蛋白质组成单位--氨基酸

一级结构指一条多肽中氨基酸线性序列。 二级结构指一条多肽主链空间结构。 二级结构:α螺旋 二级结构:β 折叠

三级结构指一条多肽的三维结构。

四级结构指多亚基蛋白结构,即不同蛋白亚基的结合。

1.2结构与功能的关系

蛋白质结构影响其周围环境

同一蛋白质的不同结构其物理性质差异大 水通道蛋白

不同的朊蛋白结构

相似结构朊蛋白的传染及引起的海绵脑

肌红蛋白结合氧(右)与不结合氧(下)时的结构 Ruv蛋白通过结构改变来对DNA进行不同的处理 不同的免疫球蛋白结构结合不同的抗原

改变发动机蛋白结构后细胞分裂受阻 肌肉收缩相关蛋白质的结构在改变 爱滋病病毒磷激蛋白的结构

根据爱滋病病毒磷激蛋白的结构设计药物 血红蛋白 核糖体

光合作用反应中心的结构 钾离子通过蛋白的空间结构

2. 影响蛋白质结构的因素

2.1蛋白质主链折叠的空间限制 键能 键角 二面角

2.2稳定蛋白质三维结构的作用力 氢键

引起氢键的部分原子基团 范德华力 静电作用 疏水作用 二硫键

3. 蛋白质结构的实验测定方法 X-射线晶体衍射 核磁共振波谱 电子显微镜 中子衍射 紫外与红外 原子力显微镜

4. 蛋白质结构预测

4.1 蛋白质二级结构的预测 4.1.1立体化学方法 20种氨基酸亲疏水性 8个氨基酸片段 特征数

C,I,L,F,M,V,W,H,Y这9种氨基酸残基疏水;

T,P,K,E,R,S,Q,O,N,P这9种氨基酸残基亲水; A,G这2种氨基酸残基为两性残基。

每八残基作为一个预测单位,每个残基设定为二进制中的一个数位: 疏水氨基酸残基代表1; 亲水氨基酸残基代表0;

两性氨基酸分别代表1和0两种情况。

再将8个残基片断的二进制(这里的亲疏水模式二进制中左边为低位,右边为高位)数换算成十进制数,然后根据这个十进制数对应为二级结构。

α螺旋的对应数字为:9,12,13,17,18,19,25,27,29,31,34,36,38,44,45,46,47,50,51,54,55,59,61,62,77,201,205,217,219,237 β折叠的对应特征模式为连续的1或交替的01构成。 其他情况为无规则卷曲。

如出现两种二级结构结果则以α螺旋优先, β折叠其次,最后才是无规则卷曲。

本法对无规则卷曲预测过多,而对β折叠预测不足。总体预测正确率约60%,对于小于50残基的蛋白质预测准确率约70%。

4.1.2 Chou-Fasman方法

氨基酸的Chou-Fasman二级结构倾向性因子表

α螺旋规则

找α螺旋核—6个残基中至少4个的Pα>=1 ; 螺旋核延伸—至末端4残基Pα平均值小于1;

判断α 螺旋—两竭各去掉3个残基,余下长于6个残基且Pα平均值大于1.03 β折叠规则

找β折叠核—5个残基中至少3个的Pβ >=1 ; 折叠核延伸—至末端4残基Pβ平均值小于1; 判断β折叠—Pβ平均值大于1.05 转角规则

连续4残基;

fi×fi+1×fi+2×fi+3>0.75×10-4; 以及Pt>1,并且Pt> Pα和Pt> Pβ

重叠规则

若α螺旋与β折叠发生重叠,则若平均值Pα > Pβ为α螺旋;反之为β折叠

4.1.3 神经网络模型

模型由许多函数式组成;输入已知二级结构的氨基酸序列后,不断调节有关参数,使输出的二级结构与已知的相符;由此得出应用模型。

4.1.4 最近邻居法

通过识别已知结构中与查询序列相似的序列来预测查询序列中的氨基酸的二级结构。

4.1.5 其他算法

隐马尔可夫链 信息论方法 等等 预测结果与真实结构 4.1.6 软件

GOR;HNN;nnPredict; SOPMA;等等

(http://cbi.pku.edu.cn中的Mirrors中的ExPASy)

4.1.7 编程进行简单的蛋白质二级结构预测

4.2 蛋白质三级结构的预测 4.2.1 三级结构显示 三级结构显示软件 Cn3D

http: //www.ncbi.nlm.gov Chime

http: //www.mdli.com

4.2.2 三级结构预测方法 同源蛋白质结构预测; 蛋白质折叠类型识别; 蛋白质结构从头预测

4.2.3 软件

SWISS-MODEL服务器

(http://www.swissmodel.unibas. ch) Swiss Pdb-Viewer

(http://www.swissmodel.unibas. ch/spdbv) 等等

第七章 用C++编写生物信息学程序基础

1. C++语言

1.1 C++程序的框架

例7-1. 打印“Bioinformatics Course”

# include //固定格式,预处理文件 int main () //主函数首部

{ //主函数开始

cout

1.2 变量

整型变量 int a

字符型变量 char a

例7-2

# include

int main ()

{

int a;

int b;

int c;

a=2;

b=4;

c=a+b;

cout

return 0;

}

1.3 运算符号

赋值符号:=

算术运算符号:+、-、*、/

关系运算符号:、>=、= =、!=

逻辑运算符号:&&(与)、∣∣(或)、!(非)

1.4 语句

1.4.1 条件语句(if语句)

if (表达式) 语句

例7-3

# include

int main ()

{

int a;

cin>>a;

if (a>=5)

{

a=5;

}

cout

return 0;

}

if (表达式) 语句1 else 语句2

1.4.2 循环语句(while语句)

while (表达式) 语句

例7-4

# include

int main ()

{

int a;

cin>>a;

while (a

{

a=a+1;

}

cout

return 0;

}

例7-5 计算循环次数

# include

int main ()

{

int i;

i=0;

int a;

cin>>a;

while (a

{

a=a+1;

i=i+1;

}

cout

return 0;

}

1.5 语句

1.5.1 数组

类型说明符 数组名[常量]=初始化值

int a[5]={7, 8, 9, 10, 11}

其中a[0]=7, a[1]=8, a[2]=9, a[3]=10, a[4]=11

例 7-6

# include

int main ()

{

int a[5]={7, 8, 9, 10, 11};

cout

cout

cout

cout

cout

return 0;

}

1.5.2 字符数组

char a[5]={„J‟, „I‟, „N‟, „A‟, „N‟}

其中a[0]= „J‟, a[1]= „I‟, a[2]= „N‟, a[3]= „A‟, a[4]= „N‟ 例 7-7

# include

int main ()

{

char a[5]={„J‟, „I‟, „N‟, „A‟, „N‟};

cout

cout

cout

cout

cout

return 0;

}

1.5.3 字符串

char a[5]=“JINAN”

其中a[0]= „J‟, a[1]= „I‟, a[2]= „N‟, a[3]= „A‟, a[4]= „N‟ 例 7-8

# include

int main ()

{

char a[5]= “JINAN”;

cout

cout

cout

cout

cout

return 0;

}

1.6 指针

类型说明符 *指针变量名

char a[]=“JINAN” //定义字符串

char *p //定义指针

p=&a[0] //指针初始化

例 7-9

# include

int main ()

{

char a[]= “JINAN”;

char *p;

p=&a[0];

cout

p=p+1;

cout

p=p+1;

cout

p=p+1;

cout

p=p+1;

cout

p=p+1;

cout

return 0;

}

例 7-10 计算输入的DNA中有多少个碱基

# include

int main ()

{

char a[100];

int i;

i=0;

char *p;

cin>>a;

p=&a[0];

while (*p!= „\0‟)

{

p=p+1;

i=i+1;

}

cout

}

例 7-11 计算输入的DNA中有多少个碱基“c”

# include

int main ()

{

char a[100];

int number;

number=0;

char *p;

cin>>a;

p=&a[0];

while (*p!= „\0‟)

{

if (*p= = „c‟)

{

number=number+1;

}

p=p+1;

}

cout

}

用得较多的还有Java语言与Peal语言。


相关内容

  • 中国药科大学2014年本专科专业介绍
  • 中国药科大学2014年本专科专业介绍 ∙ ∙ ∙ ∙ ∙ 作者:招生办 来源:招办发布 阅读:6912 时间:2014/6/8 15:52:42 栏目:专业介绍 2014年本专科专业介绍 药 学 院 药学(基础药学理科基地) 修业年限:四年 授予学位:理学学士 业务培养要求和目标:本专业学生应掌握药 ...

  • 生物信息学软件
  • 生物信息学软件 Bioinformatics software 课程编号: X10001 总学时数: 20学时 主讲教师: 肖 云 教材名称: 生物信息学 出 版 社: 人民卫生出版社 出版时间: 2010年 主 编: 李 霞 开课教研室: 生物信息教研室 学 分: 1学分 开课学期: 第1学期 课 ...

  • 浙江省自然科学基金申请项目
  • 浙江省自然科学基金申请项目 同行评议分组目录及说明 (试行) 浙江省自然科学基金委员会 2004-3 浙江省自然科学基金申请项目 同行评议分组目录及说明(试行) 一.信息与工程科学 1.电子学与信息系统1 包括:信息论,信源编码与信道编码,检测与估计,传感技术及其系统,探测和成象技术等. 2.电子学 ...

  • 12-上海海洋大学专业介绍
  • 上海海洋大学专业介绍 水产与生命学院 [水产养殖专业]本科,学制四年,授予农学学士学位. 培养目标:培养具备水产动.植物增养殖以及水产动物营养与饲料.病害防治.育种等方面的能力:能够在水产养殖生产.教育.科研和管理等部门从事科学研究.教学.水产养殖开发.管理等工作的科技人才.要求学习生物生态学.水域 ...

  • 第二节 生物信息学及其发展历史
  • 第二节 生物信息学及其发展历史 1, 生物信息学的概念 生物信息学(Bioinformatics) 这一名词的来由 八十年代末期, 林华安博士认识到将计算机科学与生物学结合起来的重要意义, 开始留意要为这一领域构思一个合适的名称. 起初, 考虑到与将要支持他主办一系列生物信息学会议的佛罗里达州立大学 ...

  • 新课程标准教材与大纲版教材对比
  • 高中生物新课程标准教材与大纲版教材对比解析 一.能力要求方面的对比分析 大纲版<考试说明>对学生生物学科能力的考查要求包括:理解能力.实验与探究的能力.获取信息的能力.综合运用的能力四个方面.新课程标准的<考试大纲>对生物学科能力的考查依然是这四个能力,但是四个能力中的都有一 ...

  • 深圳市海洋产业发展规划(2013-2020)
  • 海洋是潜力巨大的资源宝库,也是支撑未来发展的战略空间.当今世界新技术不断取得重大突破,孕育和催生新的海洋产业,为解决人类社会发展面临的食物.健康.能源等重大问题开辟了崭新的路径.世界沿海各国高度重视发展海洋经济,力争抢占海洋科技和产业发展的制高点.超前谋划.布局高端.加快发展海洋产业是培育我市新的经 ...

  • [转]访李亦学教授:生物医学大数据助力精准医学大发展
  • 干货 | 靠谱 | 实用 <转>访是转化医学网的品牌专访栏目,是业内专家.大佬.知名企业智慧交流碰撞的平台,也是促进行业健康发展的重要力量,<转>访致力于打造转化医学领域最知名的专家访谈栏目. 导语:10月上旬,美国国立卫生研究院(National Institute of ...

  • 生物医学工程学科发展的思考
  • 0 引言 生物医学工程学是融合理工科学和生物医学的 理论和方法逐步成长起来的边缘性学科,其基本任 务是运用理工科原理和工程技术方法,研究和解决 医学和生物学中的相关问题.作为一门独立学科发 展的历史尚不足50年,随着现代科学技术的进步, 生物医学工程学科得到了长足的发展.它在保障人 类健康和推进疾病 ...

  • 信息技术改变生物教学
  • 摘 要: 随着新课改的不断深入,信息技术与学科课程的整合是当前基础教育改革的一个新视点.在生物学科的教学中,新教材教学难度增加了,对教师的要求也更高了.生物教学课本中涉及的图.文.形.像很多,这要求学生在学习过程中发挥主观能动性,去看.去听.去想.信息技术可以化静为动,化抽象为直观,吸引学生注意,降 ...