2020.11.3【读书笔记】丨生物信息学与功能基因组学（第二章序列数据的获取下）

2.7 基因组浏览器
- 三个主流基因组浏览器：Ensemble、UCSC和NCBI
- 基因组组装
  - 定义：
    - 所获得的一个物种DNA序列按照染色体的形式进行的一种组装。
  - 内容：
    - 对基因组的注释，如起止位点、外显子、DNA重复元件或其他基因组特征。
  - 基因组参照联盟（GRC）
    - 维护人类、小鼠和斑马鱼的参考基因组。
    - 对基因组组装需要明确几点：
      - 每个染色体的起止位置是什么
      - 基因组序列中包括多少gap区域，能否被弥补？
      - 基因组上的结构变异位点如何被展现？可否被发现并更正？
      - 一个基因组组装中有多少碱基是错误的？
  - UCSC Genome Browser
    - UCSC浏览器目前支持36个脊椎和非脊椎动物基因组的分析，是目前针对人类和其他重要物种应用最广泛的基因组浏览器。UCSC Genome Browser 提供了不同分辨率的染色体位置图形视图。
    - 图示说明如何使用UCSC
  - Ensembl Genome Browser
    - 提供各种真核生物的一系列综合网站。
    - 该网站目的是自动分析和注释基因组数据并能以浏览器的形式来战士基因组数据。
    - Ensemble固定标识符
  - NCBI Map Viewer
    - Map Viewer包括了后生动物、真菌和植物等多个物种的染色体图谱。
    - Map Viewer允许基于文本和序列的搜索
    - 提供基因组四个层次的详细信息
      - 物种主页
      - 基因组视图
      - 图谱视图
      - 序列视图
2.8 获取序列数据的案例：单个基因、蛋白质
- 以人类组蛋白和HIV-1pol蛋白为例
- 组蛋白
  - NCBI Protein收录了470000个组蛋白条目
  - 获取步骤：
    - 1.在NCBI Protein确定Homo sapiens物种
    - 2.检索“txid9606[Organism;exp]histone”，可以得到8000个人类组蛋白，超过2000个有RefSeq索引编号；去掉组蛋白去乙酰没和组蛋白乙酰转移酶可以得到含有1700多个RefSeq索引编号的蛋白质
    - 3.通过RefSeq了解组蛋白概述
    - 4.随意挑选一个组蛋白进行研究
    - 5.在组蛋白质序列数据库（Marinno-Ramiirez等，2011）中可发现人类人类基因组中有113个组蛋白基因，包含一个基因簇
    - 6.通过其他蛋白质家族数据库（Pfam和InterPro）可以提供关于蛋白质和基因家族的简介描述以及其中代表性的蛋白质和基因。
- HIV-1 pol
  - HIV-1的RNA依赖性DNA聚合酶是一个反转录酶，其编码基因成为pol（polymerase）。如何获取反转录酶的DNA和蛋白质序列？
  - 获取步骤：
    - 1.在NCBI Nucleotide输入hiv-1，得到3000+个RefSeq
    - 2.确定物种后，得到一个RefSeq条目（NC_001802.1）
  - 注意：NCBI其他数据库（UniGene、OMIM等）并不适合查找病毒反转录酶的序列
- 访问数据集：区域和特征的大规模查询
  - 把一个基因和多个基因进行对比
    - 提问：
      - 完整的人类球蛋白基因都包括那些基因？
      - 这些基因都位于哪条染色体上？
      - 11号染色体上有多少外显子？每个外线组内部有多少重复元件？
    - 重点使用资源：Ensemble（BioMart项目）和UCSC（Table Browser）
  - BioMart项目
    - 提供了对多个数据库中的海量数据的便捷访问
    - 该数据库基于以下两个原则建立：
      - 数据不可知性的建模
        从第三方数据库引入数据集合后后使用一种关联模式来访问这些数据
      - 数据联合的形式
        将许多不同的数据库联合成一个单一、完整、虚拟的数据库。
  - UCSC Table Browser
    - UCSC Table Browser可以在UCSC Genome Browser可视化的同事可以以精确和完整的表格形式来进行呈现。这些表格可被浏览，查阅和下载
      - 以人类基因组为例
  - 自定义数据轨：BED文件的多用途性
    - 对浏览器信息进行自定义的原因
      - 要获取给定类别的信息
      - 要上传我们感兴趣的信息
    - 可使用BEDtools软件来分析BED文件
    - BED文件格式必含内容
      - 染色体号、染色体起始位置和染色体终止位置
    - BED文件格式可选内容
      - 第四列：名字
      - 第五列：分数/正负链
      - 第七、八列：加粗起始/终止位置
      - 第九列：RGB颜色值
      - 第十至十二列：区块（外显子）数目、大小、起始。
    - 可支持的自定义文件格式
      - 表格
      - 注意事项
        染色体可否使用数字表示
        
        位置计数是0-based还是1-based
        不同数据来源的计数表示
  - Galaxy：可重复的、基于网页的高通量研究
    - 简介
      - Galaxu是基于网页的分析平台，可接受包括如BioMart和UCSC Table Browser 等多个来源的输入文件。
    - 优势
      - 提供大量整合的工具可用于多种类型数据的输入和分析
      - 基于网页并提供了大量在其他平台上需要通过命令行来执行的软件包
      - 每一个分析步骤会被记录、储存并与他人共享，促进可重复性研究。
    - 使用场景
      - 获取蛋白质序列并进行序列比对
      - 基因组DNA序列比对
      - 在对染色体进行探索时，可获取人类基因组是的微卫星序列；我们可以创制表格，对未知排序找出最长的一个。
      - 分析二代测序数据时，可以输入FASTQ文件，执行序列比对，并分析BAM和VCF文件
      - 由于含有RNA-seq成套软件被大家经常使用，比对工具Bowtie和BWA都可以在Galaxy上使用
2.9 生物医学文献获取
- 美国国家医学图书馆（NLM）创立数目数据库-MEDLINE（医学文献分析和联机检索系统）可通过NCBI旗下，PubMed进行免费访问。
  - PubMed搜索
    - 使用过滤器可以显示可免费获取的文章
    - 截断单词使用通配符（例：therap*）可以获得单词的不同变体。
2.10 展望
- 三大数据库：GenBank、EMBL-Bank、DDBJ
- 没有一个唯一正确的方式来获取信息，有许多方法都是可行的
- 数据库资源都是紧密相关并相互提供访问链接
2.11 常见问题
- 明确目标（基因名称、需要DNA还是蛋白质序列）
- 添加适当的限制条件进行特定搜索
- 人类基因组组织（HUGO）和基因命名委员会（HGNC）可以展示人类基因的官方基因符合并附有数据资源的相关链接。
2.12 给学生的建议
- 深入了解每个生物信息学网站（EBI、NCBI、Ensemble、UCSC）
- 尝试比对一次研究一个基因和一组基因

2020.11.3【读书笔记】丨生物信息学与功能基因组学（第二章 序列数据的获取 下）

相关推荐

2020.11.3【读书笔记】丨生物信息学与功能基因组学（第二章序列数据的获取下）