![生物信息学学习心得[此文共11086字]](https://img.hxli.com/upload/1974.jpg)
第一篇:生物信息学
生物信息学是上世纪90年代初人类基因组计划(hgp)依赖,随着基因组学、蛋白组学等新兴学科的建立,逐渐发展起来的生物学、数学和计算机信息科学的一门交叉应用学科。目前生物信息学的研究领域主要包括基于生物序列数据的整理和注释、生物信息挖掘工具开发及利用这些工具揭示生物学基础理论知识等领域。生物信息学作为新型交叉应用学科,可以依托本校已有的计算机科学、信息学、生物学和数学等学科优势,充分展现投入少、见效快、起点高的特色,推动学校学科建设和本科教学水平。
本实验指导书中的8个实验均设计为综合性开发实验,面向生物信息学院全体本科学生和研究生,以及全校对生物信息学感兴趣的其他专业学生开放。生物信息学实验室将提供系统的保障,包括采用mail服务器和linux帐号管理等进行实验过程管理和支持。限选《生物信息学及实验》的生物技术专业本科生至少选择其中5个实验,并不少于8个学时,即为课程要求的0.5个学分。其他选修者按照课时和学校相关规定计算创新学分。 实验一 熟悉生物信息学网站及其数据的生物学意义
实验目的:
培养学生利用互联网资源获取生物信息学研究前沿和相关数据的能力,熟悉生物信息学相关的一些重要国内外网站,及其核酸序列、蛋白质序列及代谢途径等功能相关数据库,学会下载生物相关的信息数据,了解不同的数据文件格式和其中重要的生物学意义。
实验原理:
利用互联网资源检索相关的国内外生物信息学相关网站,如:ncbi、sanger、tigr、kegg、swissport、ensemble、中科院北京基因组研究所、北大生物信息
学中心等,下载其中相关的数据,如fasta、genbank格式的核算和蛋白质序列、pathway等数据,理解其重要的生物学意义。
实验内容:
1. 浏览和搜索至少10个国外和至少5个国内生物信息学相关网站,并描
述网站特征;
2. 下载各网站的代表性数据各10条(组)以上,并说明其生物学意义;
3. 讨论各网站适合做何种生物信息学研究的平台,并设计一个研究设想。 实验报告:
1. 各网站网址及特征描述;
2. 代表性数据的下载和生物学意义的描述;
3. 讨论:这些生物信息学相关网站的信息资源,可以被那些生物信息学
研究所利用。
参考书目:
《生物信息学概论》 罗静初 等译, 北京大学出版社, 2014;《生物信息学手册》 郝柏林 等著, 上海科技出版社, 2014;
《生物信息学实验指导》 胡松年 等著, 浙江大学出版社, 2014。 实验二 利用blast进行序列比对
实验目的:
了解blast及其子程序的原理和基本参数,熟练地应用网络平台和linux计算平台进行本地blast序列比对,熟悉blast结果的格式和内容并能描述其主要意义,同时比较网上平台和本地平台的优缺点。
实验原理:
利用实验一下载的核算和蛋白质序列,提交到ncbi或者其他拥有blast运算平台的网页上,观察其基本参数设定库文件类型,并得到计算结果;同时在本地服务器上学会用formatdb格式化库文件,并输入blast命令进行计算,获得结果文件。
实验内容:
1. 向网上blast服务器提交序列,得到匹配结果;
2. 本地使用blast,格式化库文件,输入命令行得到匹配结果;
3. 对结果文件进行简要描述,阐述生物学意义。
实验报告:
1. 阐述blast原理和比对步骤;
2. 不同类型blast的结果及其说明;
3. 讨论:不同平台运行blast的需求比较。
参考书目:
《生物信息学概论》 罗静初 等译, 北京大学出版社, 2014;
《生物信息学实验指导》 胡松年 等著, 浙江大学出版社, 2014;。
实验三 利用clustalx(w)进行
多序列联配
实验目的:
掌握用clustal x(w)工具及其基本参数,对具有一定同源性和相似性的核酸与蛋白质序列进行联配和聚类分析,由此对这些物种的亲缘关系进行判断,并且对这些序列在分子进化过程中的保守性做出估计。
实验原理:
首先对于输入的每一条序列,两两之间进行联配,总共进行n*(n-1)/2次联配,这一步通过一种快速的近似算法实现,其得分用来计算指导树,系统树图能用于指导后面进行的多序列联配的过程。系统树图是通过upgma方法计算的。在系统树图绘制完以后,输入的所有序列按照得分高低被分成n-1个组,然后再对组与组之间进行联配,这一步用myers和miller算法实现。
实验内容:
1. 明确软件所支持的输入文件格式,搜集整理出合适的数据;
2. 在windows环境运行clustal x,在linux环境运行clustal w;
3. 实验结果及分析,用treev32或njplotwin95生成nj聚类图。
实验报告:
1. 整理好的符合clustal的序列数据;
2. 提交数据网页记录和各步骤记录;
3. 提供聚类图和多序列联配图,并说明意义。
参考书目:
《生物信息学概论》 罗静初 等译, 北京大学出版社, 2014;
《生物信息学实验指导》 胡松年 等著, 浙江大学出版社, 2014。 实验四 ests分析
实验目的:
熟悉使用一系列生物信息学分析工具对测序得到ests序列数据进行聚类处理,由此对获得表达基因的丰度等相关信息,并且对这些表达基因进行功能的初步诠释,为后续实验通过设计race引物获得全长基因,以及进一步的功能注
释和代谢途径分析做好准备。
实验原理:
首先用crossmatch程序去除ests原始序列中的载体成分和引物成分,然后用phrap生成congtig和singlet,用blast程序进一步将有同源性的contig和singlet进行功能聚类,最后通过blast对聚类获得的cluster进行功能注释。在实验过程中将用到一些本实验室写好的perl程序用于连接各数据库和工具软件。
实验内容:
1. 运行codoncode aligner程序,并用它建立工程文件,导入例子文件
夹里面的数据;练习对序列的各种查看方式。
2. 使用codoncode al ……此处隐藏7407个字……(ncbi)、核酸序列数据库(embl)和日本的dna数据库(ddbj)
2.swiss-prot和trembl
swiss-prot收集了确认的蛋白质序列及与结构,功能和所属蛋白质家族有关的注释信息。相关数据库trembl翻译了初级核酸数据库中的编码序列。
其他数据库
1.omim
omim指人类孟德尔遗传的联机数据库,用于研究人类遗传学和人类分子生物学的强大资源。每个omim条目都有一个对特定基因或性状的已知信息的全文总结,并有指向初级序列数据库和其它遗传学资源的链接。
2.incyte和unigene
incyte是商业数据库,它提供了基因序列和专家注释的记录,这是专门为药物研究开发服务的数据库。unigene是一种用来把genbank序列聚类并与est数据相关联的实验工具。
3.结构数据库
蛋白质数据库(pdb),核酸数据库(ndb),大分子结构数据库(msd)
e通过序列相似性标准搜索序列数据库
序列相似性搜索
1.序列联配
序列联配是是相似度量化的第一步,用来区分偶然性的相似和真实的生物学关系。联配结果以变化(突变)、插入或缺失(或空位indel)来显示序列之间的差异,这些差异可以用进化术语来说明。
2.联配算法
动态规划算法可以计算两条之间的最佳联配,其中广泛使用的算法有smith-waterman算法(局部联配)和needleman-wunsch算法(全局联配)。
3.联配分支和空位罚分
用简单的联配分值来测量相同匹配残基的比例或数目。得从联配分值中扣去空位罚分,以保证联配算法能得出有生物学意义的结果而没有太多的空位。
数据库搜索:fasta和blast
1.统计分值
相似度记分的p值是指获得至少与两条无关序列间的偶然相似性一样高的分值的概率。低p值表明重要的匹配,这些匹配可能会有真实生物学意义。相关的e值(期望值)是至少与所识别的相似性记同样高分值的偶然事件的期望概率。两序列见相似度的低p值对应于大数据库搜索的高e值。
2.敏感性和特异性
敏感性衡量数据库中真实生物序列关系的比例,该关系表现为击中项(有意义的相似序列)。特异性指的是对应于真实生物学关系的击中项的比例。改变e和p的默认值会导致这些互补的优良度测量方法之间的平衡。
f多序列联配:基因和蛋白质家族
多序列联配和家族关系
1.多序列联配
多序列联配表明两条或两条以上序列之间的关系,可以解释关于蛋白质结构和功能的许多线索。当所考察的序列不同时,保守的残基往往是维持稳定结构或生物学功能的关键残基。
2.渐进联配
渐进联配方法以两序列联配来初步评价序列是如何相关的,并在这个基础上构建向导树,然后使用向导树逐步添加序列到联配中,从最密切相关的序列开始到距离最远的序列结束。
蛋白质家族和模式数据库
1.蛋白质家族
把序列分配到蛋白质家族中是预测蛋白质功能是非常有价值的方法。多序列联配信息的表示方法有很多种,包括联配本身、一致序列、保守残基和残基模式、序列轮廓以及其他的
序列家族的概率模型。这些根据不同的应用都有不同的用途,其中大多数已经被开发和存储在数据库中,里面含有大量不同蛋白质家族的信息,这样的数据库称为二级数据库。
2.一致序列
这些序列把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。一致序列的产生说明了任何蛋白家族的表示都是有偏向的,这主要是由于来源的序列集是有偏向的。
3.prosite
prosite数据库包括与蛋白质家族成员、特定蛋白功能及翻译后修饰有关的序列模式。 prosite模式与一致序列的不同在于,它们往往比序列全长要短得多,并且给出了一种描述多序列联配中一套可接受的残基组合的方法。prosite模式中已知的假阳性(或假阴性)都已经在数据库中注明。prosite数据库在某些条目含有序列轮廓,以尝试描述比模式更长的序列片段(通常指整个结构域)。
4.prints和blocks
prints和blocks是密切相关的,它们分别通过来自一组蛋白或蛋白家族中最高度保守区域的多序列联配无空位片段的形式来表示蛋白质家族。
蛋白质结构域家族
1.结构域家族
许多蛋白质是由模式结构的结构域组建的,因此蛋白质家族的研究其实是对蛋白质结构域家族的研究。
2.序列轮廓
序列轮廓(也成权重矩阵)是一种描绘蛋白质结构与家族相关序列的方法,其优点是描述了结构域序列的全长,包括观察到每个氨基酸的可能性,以及序列每个位点插入和缺失的可能性。
3.隐马尔科夫模型
隐马尔科夫模型(hmms)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配、插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。代表某蛋白结构域家族的模型从该家族中生成序列的概率较高,从其他家族中生成序列的概率较低。
j微阵列数据分析
微阵列数据:分析方法
1.微阵列原始数据
微阵列数据就是经过杂交的阵列的扫描图像,扫描图像显示每一个点的杂交信号强度。这些图像可通过单通道、双通道荧光标记、同位素标记或比色标记等方法获得,其记录方式各不相同。
2.数据质量
准确记录个点的信号强度是微阵列数据分析的基本要求,dna阵列可包含数千个特征点,因此数据的获取和分析必须自动进行。阵列上必须包含对照点以衡量非特异杂交和不同
阵列上杂交的多变性。
3.基因表达矩阵
从微阵列实验得到的原始数据首先要转换成表,即基因表达矩阵。表中的各行代表基因,各列代表不同的实验条件,表中的数据为信号强度,代表各个基因的相对表达水平。
4.表达数据分组
基因表达矩阵中的每一个基因都有其特定的表达模式,即一系列条件下基因表达情况的测量值。微阵列数据分析就是要将这些数据按表达模式的相似程度进行分类。
序列采样和sage
1.序列采样数据分析
差异基因表达的研究,可以通过从不同的cdna文库中随机挑取克隆来进行,也可以通过抽取est数据来进行。这种分析需要抽取成千上万的序列以达到统计上的显著性,即使对于中度冗余度的mrna也要如此。
2.sage
sage是一种序列采样技术,其原理是将非常短的序列标记(9~15碱基)连续为长的串联体。sage标记的长度是最适于高通量分析,但基因依然可以被明确的鉴定出来。