实验2 数据库搜索与模式匹配
1. TRANSFAC 数据库
【TRANSFAC 数据库说明】
TRANSFAC 数据库是关于转录因子(transcription factor, TF)与及其在基因组上的转录因子结合位点(transcription factor binding site, TFBS)序列或者序列模式(profile)的数据库,主要包括SITE/GENE/FACTOR/CLASS/MATRIX/CELLS/METHOD/REFERENCE等几个数据表。此外还包含几个扩展库:PATHODB 收录了可能导致疾病的转录因子和结合位点;S/MARTDB收集了与染色体结构变化相关的转录因子以及对应位点的信息;TRANSPATH 主要用于描述与转录因子调控相关的信号传递网络;CYTOMER 包含了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。
本实验的所有数据来自于P . Bucher于1990年发表在Journal of molecular biology的一篇文章。作者从502条序列中包含的真实的TATA-box ,计算得到的位置权重矩阵(PSSM )。然后利用这个矩阵在输入的启动子(promoter )序列中扫描可能存在的TATA-box 。
【参考文献】
Bucher P. Weight matrix descriptions of four eukaryotic RNA polymerase II promoter elements derived from 502 unrelated promoter sequences. J. Mol. Biol. 212: 563-578 (1990).
【材料与方法】
输入序列:6个来自果蝇(Drosophila melanogaster)的基因上游启动子序列,包含在文件All.fas 中
WWW 工具:
TRANSFAC 数据库:, 一个转录因子数据库
【操作步骤】
1) 从数据库中搜索TATA-box :在TRANSFAC 数据库注册一个帐号,登录后打开SEARCH 服务,选择MATRIX (转录因子结合位点矩阵)数据表进行搜索,将“Table field to search in”设置为“All field”,然后输入“TATA”提交查询。
◆ 查询得到几个结果?
◆ 点击M00252项,查看其详细描述,尤其是其位置权重矩阵(PSSM )部分。 ◆ 查看BF 项,列出的与该TATA-box 作用的转录因子(也就是binding factor)有哪几个?
2) 在FACTOR (转录因子)表中重复以上查询过程,打开转录因子T00794项。从MX 项中得到哪几个相关的MATRIX 项,也就是对应的转录因子结合位点。
3) 在上述启动子序列中查找TATA-box :
◆ 登录到。
◆ 在左侧菜单中选择Pattern matching – patser (matrices )
◆ 将TATA-box 的profile (包括头部的PO A C G T部分)粘贴到“Matrix”框中
◆ 在“Format(matrix )”单选框中选择“transfac”
◆ 将上述启动子区域序列拷贝到“Sequence”框中
◆ 选择“Search strands”为“single”
◆ 按下“Go”,提交查询,进入结果页
◆ 在结果页的底部按下“Feature map”按钮,进入绘图选项页
◆ 按下“Go”可以得到结果的图形输出
◆ 重复以上过程,修改“Lower threshold estimation”中的选项“weight”阈值修改为0,
结果有什么改变?如果将该阈值设为3呢?
【思考题】
1) 从上图中你可以得到什么样的结论?一般认为,基因上游启动子区域只会有0-1个
TATA-box ,因此,通过比较选取不同阈值得到的结果,你觉得选取什么样的阈值才最合适?
2) TRANSFAC 本身也包含了一个TFBS 的搜索工具——MATCH。仍采用上述启动子序列,
从中搜索可能的转录因子结合位点,分别采用 “Vertebrates(脊椎动物)”和“insects(昆虫)”的“Matrix”进行匹配搜索。结果中是否包含上述TATA-box ?
3) 给定长度为N 的序列s 和位置权重矩阵(position-specific scoring matrix, PSSM)A,我
们常用对数似然比来作为给定序列与profile matrix的匹配程度的分值:
S=Nlog4+��log ai, si−log ai, ∗�
i=1N
似的a i , ∗为PSSM 矩阵第i 行元素的总和。 其中s i 为序列s 第i 位对应的碱基,a i , s i 为PSSM 矩阵第i 行碱基为s i 的元素值,相在尽力理解这个公式意义的基础上,试用C++写出上述评价分值函数,并以上述TATA-box 和输入启动子序列为例,检验你的程序。要求:TATA-box 的PSSM 矩阵和输入启动子序列分别放在两个文件中,作为程序的其中两个输入参数,第三个参数为该分值的阈值,只有超过该阈值的子序列才作为TATA-box 的候选,根据(1)相同的标准选定合适的阈值。
4) TATA-box 还有另外一种常用的表示方式,就是所谓的consensus :STATAAAWR ,其
中S 表示G/C,W 表示A/T,R 表示A/G(purine )。在此前的课程中我们学习过Perl 正则表达式的内容,这里请用Perl 正则表达式在上述给定的序列中搜索可能的TATA-box ,请问是否存在完全匹配的TATA-box ?如果存在则给出该序列以及序列所在的位置,如果不存在则改变搜索的严格程度(比如,可以有1个位置不匹配),结果会产生什么样的变化?
5) 按照目前的经验,真实的TATA-box 一般出现在转录起始位点(transcription start site,
TSS )上游大约20bp 的位置,前面的结果有多少个符合这个标准?
2. UCSC Genome Browser
【UCSC Genome Browser】
在上面1中我们大量用到了启动子序列,问题是如何从数据库中得到这些启动子序列呢?除了启动子序列外,我们还可以从UCSC Genome Browser中获取更多有关基因组序列的信息。这些都是我们这部分上机实验所要涉及的内容。
【上机部分】
1) 小鼠基因Brca1是否存在非同义SNPs ,并将其标为蓝色,并给出该SNPs 的外部信
息。
2) 获取Brca1基因转录起始位点(transcription start site, TSS)上游200bp 的启动子序
列,该序列是否包含已知的转录因子结合位点(transcription factor binding site,TFBS )?如果存在,写出该TFBS 的序列;如果不存在,则继续向上游扩展200bp 直到发现TFBS 为止。
3) 下载Brca1的TSS 上游2000bp 的启动子序列,采用上面介绍的MATCH 工具搜索其
可能的转录因子结合位点,结果是否与(2)相同?
实验2 数据库搜索与模式匹配
1. TRANSFAC 数据库
【TRANSFAC 数据库说明】
TRANSFAC 数据库是关于转录因子(transcription factor, TF)与及其在基因组上的转录因子结合位点(transcription factor binding site, TFBS)序列或者序列模式(profile)的数据库,主要包括SITE/GENE/FACTOR/CLASS/MATRIX/CELLS/METHOD/REFERENCE等几个数据表。此外还包含几个扩展库:PATHODB 收录了可能导致疾病的转录因子和结合位点;S/MARTDB收集了与染色体结构变化相关的转录因子以及对应位点的信息;TRANSPATH 主要用于描述与转录因子调控相关的信号传递网络;CYTOMER 包含了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。
本实验的所有数据来自于P . Bucher于1990年发表在Journal of molecular biology的一篇文章。作者从502条序列中包含的真实的TATA-box ,计算得到的位置权重矩阵(PSSM )。然后利用这个矩阵在输入的启动子(promoter )序列中扫描可能存在的TATA-box 。
【参考文献】
Bucher P. Weight matrix descriptions of four eukaryotic RNA polymerase II promoter elements derived from 502 unrelated promoter sequences. J. Mol. Biol. 212: 563-578 (1990).
【材料与方法】
输入序列:6个来自果蝇(Drosophila melanogaster)的基因上游启动子序列,包含在文件All.fas 中
WWW 工具:
TRANSFAC 数据库:, 一个转录因子数据库
【操作步骤】
1) 从数据库中搜索TATA-box :在TRANSFAC 数据库注册一个帐号,登录后打开SEARCH 服务,选择MATRIX (转录因子结合位点矩阵)数据表进行搜索,将“Table field to search in”设置为“All field”,然后输入“TATA”提交查询。
◆ 查询得到几个结果?
◆ 点击M00252项,查看其详细描述,尤其是其位置权重矩阵(PSSM )部分。 ◆ 查看BF 项,列出的与该TATA-box 作用的转录因子(也就是binding factor)有哪几个?
2) 在FACTOR (转录因子)表中重复以上查询过程,打开转录因子T00794项。从MX 项中得到哪几个相关的MATRIX 项,也就是对应的转录因子结合位点。
3) 在上述启动子序列中查找TATA-box :
◆ 登录到。
◆ 在左侧菜单中选择Pattern matching – patser (matrices )
◆ 将TATA-box 的profile (包括头部的PO A C G T部分)粘贴到“Matrix”框中
◆ 在“Format(matrix )”单选框中选择“transfac”
◆ 将上述启动子区域序列拷贝到“Sequence”框中
◆ 选择“Search strands”为“single”
◆ 按下“Go”,提交查询,进入结果页
◆ 在结果页的底部按下“Feature map”按钮,进入绘图选项页
◆ 按下“Go”可以得到结果的图形输出
◆ 重复以上过程,修改“Lower threshold estimation”中的选项“weight”阈值修改为0,
结果有什么改变?如果将该阈值设为3呢?
【思考题】
1) 从上图中你可以得到什么样的结论?一般认为,基因上游启动子区域只会有0-1个
TATA-box ,因此,通过比较选取不同阈值得到的结果,你觉得选取什么样的阈值才最合适?
2) TRANSFAC 本身也包含了一个TFBS 的搜索工具——MATCH。仍采用上述启动子序列,
从中搜索可能的转录因子结合位点,分别采用 “Vertebrates(脊椎动物)”和“insects(昆虫)”的“Matrix”进行匹配搜索。结果中是否包含上述TATA-box ?
3) 给定长度为N 的序列s 和位置权重矩阵(position-specific scoring matrix, PSSM)A,我
们常用对数似然比来作为给定序列与profile matrix的匹配程度的分值:
S=Nlog4+��log ai, si−log ai, ∗�
i=1N
似的a i , ∗为PSSM 矩阵第i 行元素的总和。 其中s i 为序列s 第i 位对应的碱基,a i , s i 为PSSM 矩阵第i 行碱基为s i 的元素值,相在尽力理解这个公式意义的基础上,试用C++写出上述评价分值函数,并以上述TATA-box 和输入启动子序列为例,检验你的程序。要求:TATA-box 的PSSM 矩阵和输入启动子序列分别放在两个文件中,作为程序的其中两个输入参数,第三个参数为该分值的阈值,只有超过该阈值的子序列才作为TATA-box 的候选,根据(1)相同的标准选定合适的阈值。
4) TATA-box 还有另外一种常用的表示方式,就是所谓的consensus :STATAAAWR ,其
中S 表示G/C,W 表示A/T,R 表示A/G(purine )。在此前的课程中我们学习过Perl 正则表达式的内容,这里请用Perl 正则表达式在上述给定的序列中搜索可能的TATA-box ,请问是否存在完全匹配的TATA-box ?如果存在则给出该序列以及序列所在的位置,如果不存在则改变搜索的严格程度(比如,可以有1个位置不匹配),结果会产生什么样的变化?
5) 按照目前的经验,真实的TATA-box 一般出现在转录起始位点(transcription start site,
TSS )上游大约20bp 的位置,前面的结果有多少个符合这个标准?
2. UCSC Genome Browser
【UCSC Genome Browser】
在上面1中我们大量用到了启动子序列,问题是如何从数据库中得到这些启动子序列呢?除了启动子序列外,我们还可以从UCSC Genome Browser中获取更多有关基因组序列的信息。这些都是我们这部分上机实验所要涉及的内容。
【上机部分】
1) 小鼠基因Brca1是否存在非同义SNPs ,并将其标为蓝色,并给出该SNPs 的外部信
息。
2) 获取Brca1基因转录起始位点(transcription start site, TSS)上游200bp 的启动子序
列,该序列是否包含已知的转录因子结合位点(transcription factor binding site,TFBS )?如果存在,写出该TFBS 的序列;如果不存在,则继续向上游扩展200bp 直到发现TFBS 为止。
3) 下载Brca1的TSS 上游2000bp 的启动子序列,采用上面介绍的MATCH 工具搜索其
可能的转录因子结合位点,结果是否与(2)相同?