数据库说明

实验2 数据库搜索与模式匹配

1. TRANSFAC 数据库

【TRANSFAC 数据库说明】

TRANSFAC 数据库是关于转录因子(transcription factor, TF)与及其在基因组上的转录因子结合位点(transcription factor binding site, TFBS)序列或者序列模式(profile)的数据库,主要包括SITE/GENE/FACTOR/CLASS/MATRIX/CELLS/METHOD/REFERENCE等几个数据表。此外还包含几个扩展库:PATHODB 收录了可能导致疾病的转录因子和结合位点;S/MARTDB收集了与染色体结构变化相关的转录因子以及对应位点的信息;TRANSPATH 主要用于描述与转录因子调控相关的信号传递网络;CYTOMER 包含了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。

本实验的所有数据来自于P . Bucher于1990年发表在Journal of molecular biology的一篇文章。作者从502条序列中包含的真实的TATA-box ,计算得到的位置权重矩阵(PSSM )。然后利用这个矩阵在输入的启动子(promoter )序列中扫描可能存在的TATA-box 。

【参考文献】

Bucher P. Weight matrix descriptions of four eukaryotic RNA polymerase II promoter elements derived from 502 unrelated promoter sequences. J. Mol. Biol. 212: 563-578 (1990).

【材料与方法】

输入序列:6个来自果蝇(Drosophila melanogaster)的基因上游启动子序列,包含在文件All.fas 中

WWW 工具:

TRANSFAC 数据库:, 一个转录因子数据库

【操作步骤】

1) 从数据库中搜索TATA-box :在TRANSFAC 数据库注册一个帐号,登录后打开SEARCH 服务,选择MATRIX (转录因子结合位点矩阵)数据表进行搜索,将“Table field to search in”设置为“All field”,然后输入“TATA”提交查询。

◆ 查询得到几个结果?

◆ 点击M00252项,查看其详细描述,尤其是其位置权重矩阵(PSSM )部分。 ◆ 查看BF 项,列出的与该TATA-box 作用的转录因子(也就是binding factor)有哪几个?

2) 在FACTOR (转录因子)表中重复以上查询过程,打开转录因子T00794项。从MX 项中得到哪几个相关的MATRIX 项,也就是对应的转录因子结合位点。

3) 在上述启动子序列中查找TATA-box :

◆ 登录到。

◆ 在左侧菜单中选择Pattern matching – patser (matrices )

◆ 将TATA-box 的profile (包括头部的PO A C G T部分)粘贴到“Matrix”框中

◆ 在“Format(matrix )”单选框中选择“transfac”

◆ 将上述启动子区域序列拷贝到“Sequence”框中

◆ 选择“Search strands”为“single”

◆ 按下“Go”,提交查询,进入结果页

◆ 在结果页的底部按下“Feature map”按钮,进入绘图选项页

◆ 按下“Go”可以得到结果的图形输出

◆ 重复以上过程,修改“Lower threshold estimation”中的选项“weight”阈值修改为0,

结果有什么改变?如果将该阈值设为3呢?

【思考题】

1) 从上图中你可以得到什么样的结论?一般认为,基因上游启动子区域只会有0-1个

TATA-box ,因此,通过比较选取不同阈值得到的结果,你觉得选取什么样的阈值才最合适?

2) TRANSFAC 本身也包含了一个TFBS 的搜索工具——MATCH。仍采用上述启动子序列,

从中搜索可能的转录因子结合位点,分别采用 “Vertebrates(脊椎动物)”和“insects(昆虫)”的“Matrix”进行匹配搜索。结果中是否包含上述TATA-box ?

3) 给定长度为N 的序列s 和位置权重矩阵(position-specific scoring matrix, PSSM)A,我

们常用对数似然比来作为给定序列与profile matrix的匹配程度的分值:

S=Nlog4+��log ai, si−log ai, ∗�

i=1N

似的a i , ∗为PSSM 矩阵第i 行元素的总和。 其中s i 为序列s 第i 位对应的碱基,a i , s i 为PSSM 矩阵第i 行碱基为s i 的元素值,相在尽力理解这个公式意义的基础上,试用C++写出上述评价分值函数,并以上述TATA-box 和输入启动子序列为例,检验你的程序。要求:TATA-box 的PSSM 矩阵和输入启动子序列分别放在两个文件中,作为程序的其中两个输入参数,第三个参数为该分值的阈值,只有超过该阈值的子序列才作为TATA-box 的候选,根据(1)相同的标准选定合适的阈值。

4) TATA-box 还有另外一种常用的表示方式,就是所谓的consensus :STATAAAWR ,其

中S 表示G/C,W 表示A/T,R 表示A/G(purine )。在此前的课程中我们学习过Perl 正则表达式的内容,这里请用Perl 正则表达式在上述给定的序列中搜索可能的TATA-box ,请问是否存在完全匹配的TATA-box ?如果存在则给出该序列以及序列所在的位置,如果不存在则改变搜索的严格程度(比如,可以有1个位置不匹配),结果会产生什么样的变化?

5) 按照目前的经验,真实的TATA-box 一般出现在转录起始位点(transcription start site,

TSS )上游大约20bp 的位置,前面的结果有多少个符合这个标准?

2. UCSC Genome Browser

【UCSC Genome Browser】

在上面1中我们大量用到了启动子序列,问题是如何从数据库中得到这些启动子序列呢?除了启动子序列外,我们还可以从UCSC Genome Browser中获取更多有关基因组序列的信息。这些都是我们这部分上机实验所要涉及的内容。

【上机部分】

1) 小鼠基因Brca1是否存在非同义SNPs ,并将其标为蓝色,并给出该SNPs 的外部信

息。

2) 获取Brca1基因转录起始位点(transcription start site, TSS)上游200bp 的启动子序

列,该序列是否包含已知的转录因子结合位点(transcription factor binding site,TFBS )?如果存在,写出该TFBS 的序列;如果不存在,则继续向上游扩展200bp 直到发现TFBS 为止。

3) 下载Brca1的TSS 上游2000bp 的启动子序列,采用上面介绍的MATCH 工具搜索其

可能的转录因子结合位点,结果是否与(2)相同?

实验2 数据库搜索与模式匹配

1. TRANSFAC 数据库

【TRANSFAC 数据库说明】

TRANSFAC 数据库是关于转录因子(transcription factor, TF)与及其在基因组上的转录因子结合位点(transcription factor binding site, TFBS)序列或者序列模式(profile)的数据库,主要包括SITE/GENE/FACTOR/CLASS/MATRIX/CELLS/METHOD/REFERENCE等几个数据表。此外还包含几个扩展库:PATHODB 收录了可能导致疾病的转录因子和结合位点;S/MARTDB收集了与染色体结构变化相关的转录因子以及对应位点的信息;TRANSPATH 主要用于描述与转录因子调控相关的信号传递网络;CYTOMER 包含了人类转录因子在各个器官、细胞类型、生理系统和发育时期的表达状况。

本实验的所有数据来自于P . Bucher于1990年发表在Journal of molecular biology的一篇文章。作者从502条序列中包含的真实的TATA-box ,计算得到的位置权重矩阵(PSSM )。然后利用这个矩阵在输入的启动子(promoter )序列中扫描可能存在的TATA-box 。

【参考文献】

Bucher P. Weight matrix descriptions of four eukaryotic RNA polymerase II promoter elements derived from 502 unrelated promoter sequences. J. Mol. Biol. 212: 563-578 (1990).

【材料与方法】

输入序列:6个来自果蝇(Drosophila melanogaster)的基因上游启动子序列,包含在文件All.fas 中

WWW 工具:

TRANSFAC 数据库:, 一个转录因子数据库

【操作步骤】

1) 从数据库中搜索TATA-box :在TRANSFAC 数据库注册一个帐号,登录后打开SEARCH 服务,选择MATRIX (转录因子结合位点矩阵)数据表进行搜索,将“Table field to search in”设置为“All field”,然后输入“TATA”提交查询。

◆ 查询得到几个结果?

◆ 点击M00252项,查看其详细描述,尤其是其位置权重矩阵(PSSM )部分。 ◆ 查看BF 项,列出的与该TATA-box 作用的转录因子(也就是binding factor)有哪几个?

2) 在FACTOR (转录因子)表中重复以上查询过程,打开转录因子T00794项。从MX 项中得到哪几个相关的MATRIX 项,也就是对应的转录因子结合位点。

3) 在上述启动子序列中查找TATA-box :

◆ 登录到。

◆ 在左侧菜单中选择Pattern matching – patser (matrices )

◆ 将TATA-box 的profile (包括头部的PO A C G T部分)粘贴到“Matrix”框中

◆ 在“Format(matrix )”单选框中选择“transfac”

◆ 将上述启动子区域序列拷贝到“Sequence”框中

◆ 选择“Search strands”为“single”

◆ 按下“Go”,提交查询,进入结果页

◆ 在结果页的底部按下“Feature map”按钮,进入绘图选项页

◆ 按下“Go”可以得到结果的图形输出

◆ 重复以上过程,修改“Lower threshold estimation”中的选项“weight”阈值修改为0,

结果有什么改变?如果将该阈值设为3呢?

【思考题】

1) 从上图中你可以得到什么样的结论?一般认为,基因上游启动子区域只会有0-1个

TATA-box ,因此,通过比较选取不同阈值得到的结果,你觉得选取什么样的阈值才最合适?

2) TRANSFAC 本身也包含了一个TFBS 的搜索工具——MATCH。仍采用上述启动子序列,

从中搜索可能的转录因子结合位点,分别采用 “Vertebrates(脊椎动物)”和“insects(昆虫)”的“Matrix”进行匹配搜索。结果中是否包含上述TATA-box ?

3) 给定长度为N 的序列s 和位置权重矩阵(position-specific scoring matrix, PSSM)A,我

们常用对数似然比来作为给定序列与profile matrix的匹配程度的分值:

S=Nlog4+��log ai, si−log ai, ∗�

i=1N

似的a i , ∗为PSSM 矩阵第i 行元素的总和。 其中s i 为序列s 第i 位对应的碱基,a i , s i 为PSSM 矩阵第i 行碱基为s i 的元素值,相在尽力理解这个公式意义的基础上,试用C++写出上述评价分值函数,并以上述TATA-box 和输入启动子序列为例,检验你的程序。要求:TATA-box 的PSSM 矩阵和输入启动子序列分别放在两个文件中,作为程序的其中两个输入参数,第三个参数为该分值的阈值,只有超过该阈值的子序列才作为TATA-box 的候选,根据(1)相同的标准选定合适的阈值。

4) TATA-box 还有另外一种常用的表示方式,就是所谓的consensus :STATAAAWR ,其

中S 表示G/C,W 表示A/T,R 表示A/G(purine )。在此前的课程中我们学习过Perl 正则表达式的内容,这里请用Perl 正则表达式在上述给定的序列中搜索可能的TATA-box ,请问是否存在完全匹配的TATA-box ?如果存在则给出该序列以及序列所在的位置,如果不存在则改变搜索的严格程度(比如,可以有1个位置不匹配),结果会产生什么样的变化?

5) 按照目前的经验,真实的TATA-box 一般出现在转录起始位点(transcription start site,

TSS )上游大约20bp 的位置,前面的结果有多少个符合这个标准?

2. UCSC Genome Browser

【UCSC Genome Browser】

在上面1中我们大量用到了启动子序列,问题是如何从数据库中得到这些启动子序列呢?除了启动子序列外,我们还可以从UCSC Genome Browser中获取更多有关基因组序列的信息。这些都是我们这部分上机实验所要涉及的内容。

【上机部分】

1) 小鼠基因Brca1是否存在非同义SNPs ,并将其标为蓝色,并给出该SNPs 的外部信

息。

2) 获取Brca1基因转录起始位点(transcription start site, TSS)上游200bp 的启动子序

列,该序列是否包含已知的转录因子结合位点(transcription factor binding site,TFBS )?如果存在,写出该TFBS 的序列;如果不存在,则继续向上游扩展200bp 直到发现TFBS 为止。

3) 下载Brca1的TSS 上游2000bp 的启动子序列,采用上面介绍的MATCH 工具搜索其

可能的转录因子结合位点,结果是否与(2)相同?


相关内容

  • 2011年全省党内统计年报表审核要点
  • 2011年全省党内统计年报表审核要点 (红色为新增加,桃红色为修改) 一.关于上报省委组织部的统计汇总数据 1.电子数据包括:年报上报数据包.年报表说明等电子文件. 2.地级以上市通过"大组工网"邮箱报送省委组织部信息处,其它单位用光盘上报. 3.电子数据与纸质件报表数据必须一致 ...

  • xx科技股份有限公司软件项目管理制度(DOC 14)
  • **科技股份有限公司 软件项目管理制度 目录 项目开发计划 .................................. 2 软件需求说明书 ................................ 4 详细设计说明书 ................................ ...

  • 软件概要设计说明书V1.0
  • 文档名称: 项目名称: 软件概要设计说明书 XXXXXX 项目负责人: XXXXXX 版本变更记录 目 录 1 简介 ........................................................................................... ...

  • 软件工程文档编写指南
  • 软件文档编写指南封面格式: 封面格式:文档编号 版 本 号文档名称: 项目名称: 项目负责人:编写 校对 审核 批准 开发单位年 年 年 年月 月 月 月日 日 日 日系统规约说明书( 系统规约说明书(System Specification) )一.引言 A. 文档的范围和目的 B. 概述 1.目 ...

  • 网上商城系统设计说明书
  • 网上商城系统设计 说明书 目录 第一部分:引言 .............................................................................................................................. ...

  • 分析数据流图8
  • 试题1 阅读下列说明和数据流图,回答问题1至问题4,将解答填入答题纸的对应栏内. [说明] 某基于微处理器的住宅安全系统,使用传感器(如红外探头.摄像头等) 来检测各种意外情况,如非法进入.火警.水灾等. 房主可以在安装该系统时配置安全监控设备(如传感器.显示器.报警器等) ,也可以在系统运行时修改 ...

  • 详细设计说明书模板
  • 产品详细设计说明书 主要内容 第1章 1.1 1.2 1.3 1.4 第2章 2.1 2.2 2.3 第3章 3.1 3.2 第4章 4.1 4.2 4.3 第5章 5.1 5.2 第6章 6.1 6.2 引言 ............................................ ...

  • 毕业设计机票预订系统测试用例说明书
  • 毕业设计测试用例说明书 1 引言 1.1 编写的目的 在本机票预定系统项目的前一阶段,也就是需求分析阶段中,已经将系统用户对本系统的需求做了详细的阐述,这些用户需求已经在上一阶段中对航空公司.各旅行社及机场的实地调研中获得,并在需求规格说明书中得到详尽得叙述及阐明. 本阶段已在系统的需求分析的基础上 ...

  • IT公司的项目经理工作职责
  • 主要职责: 1、 计划: a)项目范围、项目质量、项目时间、项目成本的确认。 b)项目过程/活动的标准化、规范化。 c)根据项目范围、质量、时间与成本的综合因素的考虑,进行项目的总体规划与阶段计划。 d)各项计划得到上级领导、客户方及项目组成员认可。 2、 组织: a)组织项目所需的各项资源。 b) ...

  • 武汉大学考研地理信息系统试题库
  • 武测地理信息系统考试题库 注:本题库后注释的考过的题仅代表遥感院考过.资源环境学院的试题本人没有看过,没有标注. "地理信息系统教程"习题 第一章 绪论 1.什么是地理信息系统?与地图数据库有什么异同?与地理信息的关系是什么? 2.地理信息系统由哪些部分组成?与其他信息系统的主要 ...