数据库说明

实验2 数据库搜索与模式匹配

1. TRANSFAC 数据库

【TRANSFAC 数据库说明】

TRANSFAC 数据库是关于转录因子（transcription factor, TF）与及其在基因组上的转录因子结合位点（transcription factor binding site, TFBS）序列或者序列模式(profile)的数据库，主要包括SITE/GENE/FACTOR/CLASS/MATRIX/CELLS/METHOD/REFERENCE等几个数据表。此外还包含几个扩展库：PATHODB 收录了可能导致疾病的转录因子和结合位点；S/MARTDB收集了与染色体结构变化相关的转录因子以及对应位点的信息；TRANSPATH 主要用于描述与转录因子调控相关的信号传递网络；CYTOMER 包含了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。

本实验的所有数据来自于P . Bucher于1990年发表在Journal of molecular biology的一篇文章。作者从502条序列中包含的真实的TATA-box ，计算得到的位置权重矩阵（PSSM ）。然后利用这个矩阵在输入的启动子（promoter ）序列中扫描可能存在的TATA-box 。

【参考文献】

Bucher P. Weight matrix descriptions of four eukaryotic RNA polymerase II promoter elements derived from 502 unrelated promoter sequences. J. Mol. Biol. 212: 563-578 (1990).

【材料与方法】

输入序列：6个来自果蝇（Drosophila melanogaster）的基因上游启动子序列，包含在文件All.fas 中

WWW 工具：

TRANSFAC 数据库：，一个转录因子数据库

【操作步骤】

1) 从数据库中搜索TATA-box ：在TRANSFAC 数据库注册一个帐号，登录后打开SEARCH 服务，选择MATRIX （转录因子结合位点矩阵）数据表进行搜索，将“Table field to search in”设置为“All field”，然后输入“TATA”提交查询。

◆ 查询得到几个结果？

◆ 点击M00252项，查看其详细描述，尤其是其位置权重矩阵（PSSM ）部分。 ◆ 查看BF 项，列出的与该TATA-box 作用的转录因子（也就是binding factor）有哪几个？

2) 在FACTOR （转录因子）表中重复以上查询过程，打开转录因子T00794项。从MX 项中得到哪几个相关的MATRIX 项，也就是对应的转录因子结合位点。

3) 在上述启动子序列中查找TATA-box ：

◆ 登录到。

◆ 在左侧菜单中选择Pattern matching – patser （matrices ）

◆ 将TATA-box 的profile （包括头部的PO A C G T部分）粘贴到“Matrix”框中

◆ 在“Format（matrix ）”单选框中选择“transfac”

◆ 将上述启动子区域序列拷贝到“Sequence”框中

◆ 选择“Search strands”为“single”

◆ 按下“Go”，提交查询，进入结果页

◆ 在结果页的底部按下“Feature map”按钮，进入绘图选项页

◆ 按下“Go”可以得到结果的图形输出

◆ 重复以上过程，修改“Lower threshold estimation”中的选项“weight”阈值修改为0，

结果有什么改变？如果将该阈值设为3呢？

【思考题】

1) 从上图中你可以得到什么样的结论？一般认为，基因上游启动子区域只会有0-1个

TATA-box ，因此，通过比较选取不同阈值得到的结果，你觉得选取什么样的阈值才最合适？

2) TRANSFAC 本身也包含了一个TFBS 的搜索工具——MATCH。仍采用上述启动子序列，

从中搜索可能的转录因子结合位点，分别采用 “Vertebrates（脊椎动物）”和“insects（昆虫）”的“Matrix”进行匹配搜索。结果中是否包含上述TATA-box ？

3) 给定长度为N 的序列s 和位置权重矩阵(position-specific scoring matrix, PSSM)A，我

们常用对数似然比来作为给定序列与profile matrix的匹配程度的分值：

S=Nlog4+��log ai, si−log ai, ∗�

i=1N

似的a i , ∗为PSSM 矩阵第i 行元素的总和。其中s i 为序列s 第i 位对应的碱基，a i , s i 为PSSM 矩阵第i 行碱基为s i 的元素值，相在尽力理解这个公式意义的基础上，试用C++写出上述评价分值函数，并以上述TATA-box 和输入启动子序列为例，检验你的程序。要求：TATA-box 的PSSM 矩阵和输入启动子序列分别放在两个文件中，作为程序的其中两个输入参数，第三个参数为该分值的阈值，只有超过该阈值的子序列才作为TATA-box 的候选，根据（1）相同的标准选定合适的阈值。

4) TATA-box 还有另外一种常用的表示方式，就是所谓的consensus ：STATAAAWR ，其

中S 表示G/C，W 表示A/T，R 表示A/G（purine ）。在此前的课程中我们学习过Perl 正则表达式的内容，这里请用Perl 正则表达式在上述给定的序列中搜索可能的TATA-box ，请问是否存在完全匹配的TATA-box ？如果存在则给出该序列以及序列所在的位置，如果不存在则改变搜索的严格程度（比如，可以有1个位置不匹配），结果会产生什么样的变化？

5) 按照目前的经验，真实的TATA-box 一般出现在转录起始位点（transcription start site,

TSS ）上游大约20bp 的位置，前面的结果有多少个符合这个标准？

2. UCSC Genome Browser

【UCSC Genome Browser】

在上面1中我们大量用到了启动子序列，问题是如何从数据库中得到这些启动子序列呢？除了启动子序列外，我们还可以从UCSC Genome Browser中获取更多有关基因组序列的信息。这些都是我们这部分上机实验所要涉及的内容。

【上机部分】

1) 小鼠基因Brca1是否存在非同义SNPs ，并将其标为蓝色，并给出该SNPs 的外部信

息。

2) 获取Brca1基因转录起始位点（transcription start site, TSS）上游200bp 的启动子序

列，该序列是否包含已知的转录因子结合位点（transcription factor binding site，TFBS ）？如果存在，写出该TFBS 的序列；如果不存在，则继续向上游扩展200bp 直到发现TFBS 为止。

3) 下载Brca1的TSS 上游2000bp 的启动子序列，采用上面介绍的MATCH 工具搜索其

可能的转录因子结合位点，结果是否与(2)相同？