TRANSFAC:转录因子及其靶基因数据库

欢迎关注”生信修炼手册”!

转录调控是一种重要的调控机制,转录因子对基因的表达调控是其中研究的最广泛的一个领域。研究转录因子,最经典的数据库就是TRANFAC数据库,网址如下

http://gene-regulation.com/

该数据库中不仅收录了转录因子和对应的家族信息,也收录了转录因子调控的基因以及转录因子结合位点TFBS等信息。该数据库有以下两个版本

  1. Professional

  2. Public

两个版本的比较如下

TRANSFAC:转录因子及其靶基因数据库

public版本是免费开工的,但是收录的数据少很多,而且2005年之后就不在更新了。Professional数据多,功能强大,但是收费的。

虽然两个版本数据量不同,但是数据的组织和展示形式是一样的,可以通过Public来了解下其中的信息,使用public数据库是需要登录的,登录之后,可以看到如下的检索页面

TRANSFAC:转录因子及其靶基因数据库

public版本中,将转录因子相关信息进行了分类整体,共分成以下6种类型

  • Factor

  • Class

  • Matrix

  • Site

  • Cell

  • Gene

1. Factor

Facto 代表转录因子,每个转录因子的编号以T开头,通过如下方式可以检索到所有转录因子的信息

TRANSFAC:转录因子及其靶基因数据库

共收录了73840个转录因子的信息,以转录因子T00002为例,结果如下

TRANSFAC:转录因子及其靶基因数据库

几个重要标签的含义如下

  1. AC代表转录因子编号,以大写字母T开头

  2. FA代表转录因子的名字factor name

  3. SY代表转录因子的别名;

  4. OS代表对应的物种

  5. OC代表物种分类信息

  6. GE代表编码该转录因子的基因

  7. CL代表该转录因子所属的分类

  8. SZ代表氨基酸长度,分子量

  9. SQ代表对应的氨基酸序列

2. Class

转录因子是一种具有调控功能的蛋白质,和蛋白质家族类似,也有转录因子家族的概念,class 代表的就是转录因子家族信息,每个转录因子家族的编号以C开头,通过如下方式可以检索到所有转录因子家族信息

TRANSFAC:转录因子及其靶基因数据库

共收录了292个转录因子家族,以C0001为例,结果如下

TRANSFAC:转录因子及其靶基因数据库

几个重要标签的含义如下

  1. AC代表转录因子家族编号,以大写字母C开头

  2. ID代表转录因子家族的class code

  3. BF代表属于该家族的转录因子

3.  Matrix

转录因子和序列的结合区包含了一个保守的motif,motif代表的是一种碱基模式,代表的是多种碱基序列,示意如下

TRANSFAC:转录因子及其靶基因数据库

同一个转录因子,其结合的区域序列尽管不完全一致,但是还是有很多共同的地方,上述13个序列可以用以下序列表示

TRANSFAC:转录因子及其靶基因数据库
上述这种写法就可以看做是一个motif,  但是只有序列信息,描述并不够完整,所以提出了一个想法,就是加上对应的原始的13种序列中的碱基分布,示意如下

TRANSFAC:转录因子及其靶基因数据库

上述的碱基频数分布矩阵就称之为Position Freuquency Matirx, 简称PFM, 也就是这里的Matrix信息。每个Matrix的编号以M开头,通过如下方式可以检索到所有信息

TRANSFAC:转录因子及其靶基因数据库

共收录了2328个PFM信息,以M00001为例,结果如下

TRANSFAC:转录因子及其靶基因数据库

几个重要标签的含义如下

  1. AC代表PFM编号,以大写字母M开头

  2. NA代表对应的转录因子的名字

  3. DE代表对应的转录因子的描述信息

  4. BF代表对应的转录因子的链接

  5. PO代表碱基频数分布

4. Sites

Sites代表转录因子结合区域的信息,每个结合区域的编号以R开头,通过如下方式可以检索到所有信息

TRANSFAC:转录因子及其靶基因数据库

共收录了68408个结合区域信息,以R0002为例,结果如下

TRANSFAC:转录因子及其靶基因数据库

几个重要标签的含义如下

  1. AC代表结合区域的编号,以大写字母R开头

  2. ID以物种开头,HS代表human

  3. DE代表对应的基因的描述和编号

  4. SQ代表结合区域的序列

  5. SF代表结合区域的起始位置,因为位于基因上游,所以是负数

  6. ST代表结合区域的终止位置,因为位于基因上游,所以是负数

  7. BF代表对应的转录因子的链接

5. Gene

Gene代表的就是基因信息,每个基因的编号以G开头,通过如下方式可以检索到所有基因的信息

TRANSFAC:转录因子及其靶基因数据库

共收录了10653个基因,以基因G000001为例,结果如下

TRANSFAC:转录因子及其靶基因数据库

几个重要标签的含义如下

  1. AC代表基因的编号,以大写字母G开头

  2. ID以物种加基因名字构成

  3. SD代表基因的名字

  4. BS代表该基因相关的转录因子结合区域信息以及对应的转录因子编号

6. cell

转录因子结合区域的信息是根据某个细胞系的数据计算得到的,cell代笔的就是细胞系的数据表,编号是纯数字的,通过如下方式可以检索到所有信息

TRANSFAC:转录因子及其靶基因数据库

共收录了1476个细胞系的信息,以0007为例,结果如下

TRANSFAC:转录因子及其靶基因数据库

几个重要标签的含义如下

  1. AC代表细胞系的编号

  2. OS代表物种

  3. CD代表细胞系的描述信息

  4. BS代表在该细胞系的数据中鉴定到的转录因子结合区域信息

由于public数据库不开放下载功能,我们只能利用该数据库进行检索。想要更多功能,只能购买Professional版。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

TRANSFAC:转录因子及其靶基因数据库