2020.11.3【读书笔记】丨生物信息学与功能基因组学(第二章 序列数据的获取 下)
分类:
文章
•
2023-11-02 21:36:40
- 2.7 基因组浏览器
- 三个主流基因组浏览器:Ensemble、UCSC和NCBI
- 基因组组装
- 定义:
- 所获得的一个物种DNA序列按照染色体的形式进行的一种组装。
- 内容:
- 对基因组的注释,如起止位点、外显子、DNA重复元件或其他基因组特征。
- 基因组参照联盟(GRC)
- 对基因组组装需要明确几点:
- 基因组上的结构变异位点如何被展现?可否被发现并更正?
- UCSC Genome Browser
- UCSC浏览器目前支持36个脊椎和非脊椎动物基因组的分析,是目前针对人类和其他重要物种应用最广泛的基因组浏览器。UCSC Genome Browser 提供了不同分辨率的染色体位置图形视图。
- Ensembl Genome Browser
- 该网站目的是自动分析和注释基因组数据并能以浏览器的形式来战士基因组数据。
- NCBI Map Viewer
- Map Viewer包括了后生动物、真菌和植物等多个物种的染色体图谱。
- 2.8 获取序列数据的案例:单个基因、蛋白质
- 组蛋白
- NCBI Protein收录了470000个组蛋白条目
- 获取步骤:
- 1.在NCBI Protein确定Homo sapiens物种
- 2.检索“txid9606[Organism;exp]histone”,可以得到8000个人类组蛋白,超过2000个有RefSeq索引编号;去掉组蛋白去乙酰没和组蛋白乙酰转移酶可以得到含有1700多个RefSeq索引编号的蛋白质
- 5.在组蛋白质序列数据库(Marinno-Ramiirez等,2011)中可发现人类人类基因组中有113个组蛋白基因,包含一个基因簇
- 6.通过其他蛋白质家族数据库(Pfam和InterPro)可以提供关于蛋白质和基因家族的简介描述以及其中代表性的蛋白质和基因。
- HIV-1 pol
- HIV-1的RNA依赖性DNA聚合酶是一个反转录酶,其编码基因成为pol(polymerase)。如何获取反转录酶的DNA和蛋白质序列?
- 获取步骤:
- 1.在NCBI Nucleotide输入hiv-1,得到3000+个RefSeq
- 2.确定物种后,得到一个RefSeq条目(NC_001802.1)
- 注意:NCBI其他数据库(UniGene、OMIM等)并不适合查找病毒反转录酶的序列
- 访问数据集:区域和特征的大规模查询
- 把一个基因和多个基因进行对比
- 提问:
- 11号染色体上有多少外显子?每个外线组内部有多少重复元件?
- 重点使用资源:Ensemble(BioMart项目)和UCSC(Table Browser)
- BioMart项目
- 该数据库基于以下两个原则建立:
- 数据不可知性的建模
- 从第三方数据库引入数据集合后后使用一种关联模式来访问这些数据
- 数据联合的形式
- 将许多不同的数据库联合成一个单一、完整、虚拟的数据库。
- UCSC Table Browser
- UCSC Table Browser可以在UCSC Genome Browser可视化的同事可以以精确和完整的表格形式来进行呈现。这些表格可被浏览,查阅和下载
- Galaxy:可重复的、基于网页的高通量研究
- 简介
- Galaxu是基于网页的分析平台,可接受包括如BioMart和UCSC Table Browser 等多个来源的输入文件。
- 优势
- 基于网页并提供了大量在其他平台上需要通过命令行来执行的软件包
- 每一个分析步骤会被记录、储存并与他人共享,促进可重复性研究。
- 使用场景
- 在对染色体进行探索时,可获取人类基因组是的微卫星序列;我们可以创制表格,对未知排序找出最长的一个。
- 分析二代测序数据时,可以输入FASTQ文件,执行序列比对,并分析BAM和VCF文件
- 由于含有RNA-seq成套软件被大家经常使用,比对工具Bowtie和BWA都可以在Galaxy上使用
- 2.9 生物医学文献获取
- 美国国家医学图书馆(NLM)创立数目数据库-MEDLINE(医学文献分析和联机检索系统)可通过NCBI旗下,PubMed进行免费访问。
- PubMed搜索
- 截断单词使用通配符(例:therap*)可以获得单词的不同变体。
- 2.10 展望
- 三大数据库:GenBank、EMBL-Bank、DDBJ
- 没有一个唯一正确的方式来获取信息,有许多方法都是可行的
- 2.11 常见问题
- 人类基因组组织(HUGO)和基因命名委员会(HGNC)可以展示人类基因的官方基因符合并附有数据资源的相关链接。
- 2.12 给学生的建议
- 深入了解每个生物信息学网站(EBI、NCBI、Ensemble、UCSC)