生物信息学计算技术和软件导论 马占山 生物信息学计算技术和软件导论马占山 科学出版社 9787030426390 科学出版社直发.
- 产品名称:生物信息学计算技术和软件...
- 书名:生物信息学计算技术和软件导论
- 作者:编者
- 定价:137.00元
- 书名:生物信息学计算技术和软件导论
- 开本:16开
- 是否是套装:否
- 出版社名称:科学出版社
商品参数
生物信息学计算技术和软件导论 | ||
曾用价 | (咨询特价) | |
出版社 | 科学出版社 | |
版次 | 1 | |
出版时间 | (咨询特价)年12月 | |
开本 | 16 | |
作者 | 马占山 | |
装帧 | 平装 | |
页数 | 332 | |
字数 | 30 | |
ISBN编码 | 90 |
内容介绍
如果说21世纪是生物学世纪,生物信息学应该是支撑生物学世纪的核心科技之一。而大数据科学和人工智能技术正在将生物信息学推向生命科学和信息科学的前沿。本书分为生物信息学基础篇和生物信息组学技术篇两大部分。生物信息学基础篇从新兴领域切入,介绍生物信息学的计算科学及进化生物学基础(如网络科学与大数据技术、深度学习、计算智能、高维数据分析、马尔可夫链蒙特卡洛法,隐马尔可夫模型,贝叶斯统计、医学生态学、DNA计算、进化树与溯祖树分析、种群遗传学等)。生物信息组学技术篇除经典内容(基因组、转录组、蛋白质组)外,还包括*新的三代基因测序算法和软件(作者团队研发的DBG2OLC和SPARC)、微生物群系(Microbiome)和宏基因组学(Metagenomics)、非编码RNA、新药发现、代谢组学(Metabolomics)等热点内容。
目录
目录
生物信息学基础篇
第1章 生物信息学一些前沿领域简介 3
1.1 生物信息大数据 3
1.2 复杂网络分析概论 11
1.3 复杂网络分析实例:以微生物群系医学生态网络为例 15
1.4 深度学习、计算智能与人工智能 21
1.5 医学生态学 25
1.6 DNA计算机-生物学对计算机科学的回馈 30
第2章 系统发育树与溯祖分析 38
2.1 树的概念 38
2.2 主要的建树方法 39
2.3 模型选择 50
2.4 贝叶斯方法 54
2.5 溯祖理论 60
2.6 物种树估计 64
第3章 群体遗传学数据分析软件简介 70
3.1 多功能软件比较 70
3.2 理论模型与分析方法的实现方式 72
3.3 软件运行方式与编程语言 79
3.4 总结与展望 79
第4章 生物信息学中重要统计计算方法和模型 85
4.1 计算机模拟技术 85
4.2 马尔可夫蒙特卡罗法 93
4.3 隐马尔可夫模型 98
4.4 贝叶斯统计 105
4.5 统计学习 114
4.6 高斯图模型 120
生物信息组学技术篇
第5章 第三代基因测序组装算法和软件技术 129
5.1 第三代基因测序及组装技术简介 129
5.2 第三代基因组装算法及软件简介:以DBG20LC和SPARC为例 132
5.3 三代基因组装算法和软件比较 139
5.4 DBG20LC和SPARC软件使用简介 140
第6章 基因组第二代测序数据的生物信息学分析 145
6.1 基因测序技术简介 145
6.2 基因组装技术 149
6.3 外显子基因突变检测 154
6.4 单细胞测序数据的基因组装 156
第7章 转录组数据的生物信息学分析 160
7.1 转录组技术的发展 160
7.2 RNA-seq数据的质量控制 163
7.3 基于参考基因组的转录组分析 164
7.4 无参考基因组的转录组的从头拼装及拼装质量评估 170
第8章 非编码RNA研究常用数据库及软件 175
8.1 非编码RNA概述 175
8.2 非编码RNA常用数据库 179
8.3 非编码RNA研究常用软件 184
第9章 蛋白质组学研究常用软件简介 210
9.1 蛋白质组学简介 210
9.2 计算蛋白质组学的应用 215
9.3 计算蛋白质组学算法与数据库 230
第10章 新药物发现中的生物信息学软件简介 236
10.1 大型药物设计平台 237
10.2 分子视图软件 238
10.3 化学结构编辑程序 242
10.4 分子对接与虚拟筛选软件 245
10.5 配体构象搜索软件 250
10.6 药效团模拟软件 251
10.7 分子动力学模拟软件 254
10.8 在线药物设计资源列表 255
10.9 小结 257
第11章 宏基因组学概述及生物信息学分析 260
11.1 宏基因组学技术简介 260
11.2 宏基因组学研究流程 261
Chapter 12 Bioinformatics for Metabolomics:An Introduction 277
Abstract 277
12.1 Introduction to Metabolomics 277
12.2 Technologies for Metabolomics 280
12.3 Data Formats for Metabolomics 285
12.4 Databases for Metabolomics 287
12.5 General Principles for Metabolomic Data Analysis 292
12.6 From Spectra to Metabolite Lists:Bioinformatics for Metabolite Identification 293
12.7 From Metabolite Lists to Significant Metabolites:Multivariate Statistics 300
12.8 From Significant Metabolites to Pathways:Bioinformatics for Metabolite Interpretation 306
12.9 Conclusion 310
在线试读
生物信息学基础篇
第1章 生物信息学一些前沿领域简介
马占山
1.1 生物信息大数据
1.1.1 生物信息学及其相关学科关系
本书前言讨论了生物信息学与理论生物学间的关系。这里进一步勾画出生物信息学与其相关学科和技术之间的关系(图1.1)。生物信息学(bioinformatics)与生物数学(biomathematics)、生物物理(biophysics)和生物化学(biochemistry)相类似,均属于生物学与数理科学的交叉学科。而复杂性科学(complexity science)也称复杂系统理论科学(complex systems science),是现代科学极具特色的新学科之一。复杂性科学研究复杂系统(complex system),简单讲,复杂系统是指系统整体行为难以由系统成分行为解释,通常系统在整体水平会出现所谓的突显属性(emergent properties)。例如,常见的复杂系统有生态系统、大脑、市场、城市等。复杂性科学的标志性研究方法包括20世纪40年代的控制论(cybernetics),50年代的普通系统理论(general system theory),60~70年代的灾变论(catastrophe theory)和混沌理论(chaos theory),80~90年代的进化计算(evolutionary computing)、计算智能(computational intelligence)、人工神经网络(artificial neural network),21世纪初的复杂网络(complex network science),21世纪10年代的深度学习(deep learning)等。抽象层面上,大数据具有复杂系统的一切典型特征。因此,复杂性科学方法,如网络分析、深度学习等自然地应成为研究生物信息大数据的重要手段。
图1.1 生物信息学与其相关学科和技术之间的关系
1.1.2 生物信息大数据
进入21世纪,作为信息革命的延伸,大数据引起了人们越来越多的关注,以****的速度融入并影响着我们的生活。作为世界**智库之一的Gartner Group把大数据技术作为2012年和2013年度的十大战略性技术之一,2014年将大数据和其可行动性分析(actionable analytics)作为智能政府(smart governance)的核心战略技术。达沃斯世界经济论坛(World Economic Forum)年会,因全球政治和经济首脑齐聚一堂,共同讨论全球性挑战而受到广泛关注。2012年的达沃斯论坛上,大数据技术入选影响未来发展的十大关键科技之一。在讨论日益严峻的全球性经济衰退、贫困、国际安全、气候变化和能源危机等重大问题时,达沃斯世界经济论坛期间对大数据技术的关注也印证了大数据在解决这些人类所面临的*严重的挑战中的重要性,即高效地管理和挖掘大数据的技术可能会为解决部分潜在的全球灾难性问题提供新思路(Lee et al.,2016)。在大数据不断渗透乃至融合的各行各业中,生物信息学和计算生物学首当其冲。事实上,基因大数据(生物信息学*重要的大数据)正是大数据科学的前沿之一。
大数据也改变了21世纪科学研究的范式(paradigm)。在大数据成为第四范式之前,实验、理论和计算被认为是现代科学研究的三大范式。显然,科研仪器(scientific instruments)的改进(如大型天文望远镜、基因测序仪,乃至虚拟街景技术)是驱动大数据时代来临的主要动力之一。信息时代的今天,无时不在产生着海量的大数据。但这些未经处理的原始数据中难免存在大量的冗余。为了准确、高效地分析利用大数据,必须做到去冗存真;因此,大数据分析犹如披沙沥金。事实上,自从统计学诞生以来,甚至或许可以追溯到人类对数字的认知,数据分析历来就是一项淘沙取金的工作。但是,20世纪末信息技术革命所引发的大数据浪潮对人类社会、经济和科技本身的发展造成的影响已经远远超出了传统数据分析和传统统计学的范畴。今天的大数据科学家和技术分析师可能来自数学、统计学、计算科学、信息技术、物理科学、管理科学、生命科学、社会经济、军事科学等诸多不同领域。与传统科技相比,大数据科学研究更加需要宽阔的视野和多维的思维方式。
随着大数据技术的蓬勃发展,关于大数据的研究文献增长也异常迅猛。受篇幅所限,本书无法对大数据文献进行深度的讨论。这里仅列出撰写本章时所阅读的数篇文献:Chen和Lin(2014),Cisco(2014),Gartner(2013,2014),Greene等(2014),Laney(2001),Kashyap等(2016),Lee和Sohn(2016),Torres(2016)。另表1.1列出了关于生物信息大数据研究的一些参考资源。
表1.1 生物信息大数据研究一些重要资源(Kashyap et al.,2016)
对于非专业大数据分析人员而言,大数据*显著的特征之一是:大数据的数据量过于庞大,以至于用常规方法难以完成分析(Greene et al.,2014)。例如,一个没有受过任何生物信息训练的生物学专业的学生,可能不知道如何查看已获得的基因测序数据,或者无法用相关软件打开基因测序公司发送来的原始数据文件。 之后,一系列诸如数据存储、传送和分析方面的困难会接踵而至。
从学术研究层面回顾,大数据(big data)一词由Meta Group(现为Gartner)的分析师Doug Laney于2001年定义并推广,*初目的是描述在三个维度上快速拓展的数据;三个维度包括数据的量、输入/输出速率和数据类型的多样性,通常用三个V来表述,即volume(数量)、velocity(速度)和variety(种类)。有学者建议,三维之外,还应添加第四维“价值”(value)和第五维“可靠性”(veracity)。 如果用一个简单的数学公式来说明,大数据科学的使命或许可以表达为如下五维模型:
value=Max{Knowledge[f(volume,velocity,variety)],veracity}
例如,如果大数据的规模巨大,如流水般实时传送(数据流),并且包括众多非结构化的数据(如文本、图像和视频等),大数据技术的使命则是将这些不同类型的数据综合分析并挖掘出重要价值 。与传统数据相比,大数据通常还具有另外两项特征:①大数据是一个不断积累的过程(incremental);②数据通常是分布式的(distributed geographically)——分布式存储在不同地理区域,或者在不同区域产生。生物信息大数据还具有另一特征:高度异质性。
称得上“大数据”的数据一方面要求其数据量足够巨大。尽管没有特定的规模阈值来认定大数据,但通常来说,较小的大数据也有几太(TB),而较大的大数据则可达数拍(PB)。目前用以描述大数据大小的单位以Byte加上前缀“peta”“exa”“zetta”“yotta”“bronto”和“geop”(逐级增加)来表示。完整地表述数据大小的单位是:bit(b,比特),Byte(B,字节),kilobyte(KB,千字节),Megabyte(MB,兆),Gigabyte(GB,吉),Terabyte(TB,太),Petabyte(PB,拍),Exabyte(EB,艾),Zettabyte(ZB,泽),Yottabyte(YB,尧),Brontobyte(BB,千亿亿字节),Geopbyte(GpB)。*基本的数据单位是b,代表二进制0或1。1B=8(23)b,1KB=1024(210)B。从KB开始,每个单位是前一级单位的1024(210)倍。例如,*大的单位1GpB=2100B,而低一级单位1BB=290B。为了更形象地表达数据的单位,如果把1B比作一个人,世界总人口数仅有约7GB。2012年,人类积累的数据量大约为1.27ZB,因此1GpB可能是一个大得难以想象和描绘的数据量(Lee et al.,2016)。
大数据的另一个方面是数据的生成和传输速度。如何完成大数据的实时处理分析,也是生物医学大数据必须面临的挑战之一。对大数据的量、传输速度和多样性而言,典型的大数据有从数太(TB)到数拍(PB)不等,而数据的生成、收集和存储在数小时甚至数秒的时间内就可能完成,这些数据多表现为非结构化的形式,使用常规的方法对这些数据进行管理和分析变得十分困难。而从根本上来说,大数据分析的价值是从这些海量的、快速累积的、形式多样的数据集中找出富有意义的信息。因此,大数据不仅是指数据概念本身,还应包含与它相关的人力资源,以及软、硬件支持。大数据分析强调视野和思维的拓展,这不仅是数据的量、速率、多样性的拓展,更是一种看待和推断复杂事物的观点的拓展。大数据研究中的一些非技术性问题也非常值得关注,如数据安全、个人隐私及其保护等问题。虽然IT技术已经开发出了标准的数据安全技术(如数据加密技术),但在现实中,这些技术在应用于大数据时,仍然可能会遇到严重的技术挑战(Lee et al.,2016)。
大数据科学的**挑战仍然是计算科学问题,图1.2显示对数据、信息、知识进行提炼所需要的计算技术(包括硬件、软件、软硬件混合技术)。这些技术也是IT领域近年来* _310x310.jpg
热门设计服务
-
最近销售:已售出245 掌柜:法苑法律图书专营店¥42 元
-
最近销售:已售出73 掌柜:法苑法律图书专营店¥33 元
-
最近销售:已售出31 掌柜:法苑法律图书专营店¥36 元
-
最近销售:已售出31 掌柜:法苑法律图书专营店¥42 元
-
最近销售:已售出23 掌柜:法苑法律图书专营店¥35 元