数据分析报告
2016年3月9日
21:02
项目名称:Sus scrofa蛋白组学无标试验 客户名称:
完成时间:
项目编号:
一共3个猪的脑脊液样品677,635,658,分别为:677是空白组;635是脑膜炎链球菌感染;658是关节炎链球菌感染。3例(猪的脑脊液)样本,每例样本跑了3个fraction ,每例样本3次实验学重复(共计27个raw 文件)。利用无标LC-MS/MS技术结合Maxquant 软件共鉴定到3456个UNIPROT 蛋白。
点),PRIDE 或MassiVE 上,供研究人员下载。
数据分析
2016年3月9日
21:03
所有蛋白通过ID 号到Uniprot (http://www.uniprot.org )数据库中批量获取对应的注释文件(*.dat)和fasta 文件。用自编的PERL 程序Uniprot_xRef_Function.pl将dat 文件中的Uniprot 交叉号注释、蛋白名称、功能注释、GO 等信息解析成表。
∙
∙
∙
∙ 中。 Result.xlsx 的“Log10”表是取log 后的结果;而Median 是用中值归一化的结果。 Result.xlsx 的“VolcanoPlot ”表是差异分析的结果。Sig 列中1表示上调,-1表示下调,0表示不变。
根据实验设计,对所有鉴定定量结果进行统一分析,如果p-value
差异蛋白的分析结果见/Diff/目录下的火山图及其表格。
全局分析
2016年3月9日
21:03
全局分析的结果见/Global/目录下的结果。
箱形图(Box-plot )又称为盒须图、盒式图或箱线图,是一种表现有关数据的位置和分散情况资料的统计图。
箱形图主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数(Q1),中位数
(Median ),下四分位数(Q3),下边缘,还有一个异常值。它可以粗略地表达出数据是否具有有对称性,分布的分散程度等信息,通常用于对几个样本的比较。
箱形图中异常值被定义为小于Q1-1.5IQR 或大于
Q3+1.5IQR(四分位间距) 的值。通过比较箱形图的异常值,可以发现数据点在同类其他群体中的位置。样本数据的中位值在该坐标系中越接近1,反应数据越集中;上下四分位值离中位值越远,表明数据离散趋势越强。
聚类热图(heatmap )是通过排列矩阵的行列,将相似的数值放在相邻的放以展示聚类分析结果的图像;它可以直观呈现多样本多个基因的全局表达量变化,呈现多样本或多基因表达量的聚类关系。通过聚类分析,可以对数据进行分类并反应其相似程度。聚类热图中的一行代表一个蛋白,一列代表一个样本比较组。其中,不同颜色为样本的不同表达量值,由绿-黑-红表达量依次增加。样本间的欧式距离长短反应其关联性,距离较近说明两组数据性质较近,距离较远说明关联较远。
功能分析
2016年3月9日
21:03
和转录组获得了高通量测序,给人们带来了海量的核酸序列数据,如何对海量序列中隐含的生物信息进行高通量的解读是研究者要面对的问题.序列信息解读的一个核心内容是对基因进行功能注释,具体操作上就涉及到一个概念:基因的本体论(Gene Ontology, GO)注释.大多数基因在不同生物中的同 源基因拥有相同的主要生物学功能,因此,在某些物种 里已知的基因功能信息可以用来解释其他物种对应的同源基因.但是这些已知的功能信息包含在先前积累的浩瀚文献之中,不同的文献会用不同的词汇来描述 同一生物学功能,这为功能检索和注释带来诸多不便.而GO 项目就是建立一套特定的词汇集合来描述生物学功能,以此对基因功能注释统一化.用于描述生物学功能的词汇必然要反映生物学功能的本质,此即本体论(Ontology )的由来.
GO 项目对基因功能进行了一致性描述,开发了可控制的词汇表,且无物种特异性.目前已经建立了三大独立的本体论词汇表:生物过程(Biological Process)、细胞组分(Cellular Componet)和分子功能(Molecular
Function ).这三大本体论词条下面又可以独立出不同的亚层次,以“有向非循环图(Directedacy-Clicgraphs )”的方式层层向下,将每一个本体论词条串联起来形成树状结构.将GO 词条分配给基因序列的行为即GO 注释.目前,GO 注释已经成为高通量测序序列的主要注释方法.
综上所述,一个基因编码的蛋白质可以在多种水平上被赋予本体论定义,GO 注释的原理就是通过计算机程序建立基
因产物与用于定义它们的本体论词条之间的联系.自从
1998年基因本体论项目(Gene Ontology Project )创立以来,已经有多款GO 注释软件发表,实现了基因产物的标准化注释.
所有基因列表的富集度计算都是用如下公式:
如果p 值小于0.05,我们认为这个GO 或通路是有显著富集度的。
利用MATLAB 软件完成GO 功能富集度计算,并用Excel 进行图示化。功能类别的统计富集度p 值来自超几何检验得到,然后经过-log10转换。GO 的分析结果保存在GO 文件夹下。C.xlsx 为亚细胞定位;F.xlsx 为分子功能;P.xlsx 为生物学过程。
每个Excel 都是相同的格式,如下:
每组样品的鉴定蛋白与差异蛋白利用自编MATLAB 程序批量将数据上载到KEGG ()网站上,并得到所有通路的map 结果。KEGG 的分析结果保存在KEGG 文件夹下。KEGG.xlsx 为通路汇总结果,格式与GO 的Excel 相同。通路图中红色节点表示显著上调蛋白,绿色表示显著下调蛋白。
通路的图注,可登陆KEGG 网站
(http://www.genome.jp/kegg/document/help_pathway.html)进行查阅
GO 分析
2016年3月9日
21:03
(http://www.uniprot.org)数据库中批量获取对应的注释文件(*.dat)和fasta 文件
2. 用PERL 程序Uniprot_xRef_Function.pl将dat 文件中的
GO 与KEGG 信息解析成表;形成xRef_GO.txt与
xRef_KEGG.txt两个文件
∙ 及xRef_GO.txt文件
类注释(C :细胞组件;F :分子功能;P :生物学途径),各包括以下文件:
All.xlsx ,up.xlsx ,down.xlsx 分别为总的,上调和下调的基因的情况表。表中每个sheet 的含义为:
Count :每个样品对应的GO 注释的蛋白数;
Ratio :每个样品GO 注释蛋白数除以基因组中该GO 注释的总蛋白数;
Enrichment :根据超几何分布计算的富集度分析结果,值越高,表示富集度越高;
Matrix :每个蛋白的差异显著性和GO 注释的详细表格。
∙
C :
Enrichment SigCount
F:
Enrichment
SigCount
P:
Enrichment
SigCount
GO Slim 分析
2016年3月9日
21:03
(http://www.uniprot.org)数据库中批量获取对应的注释文件(*.dat)和fasta 文件
2. 用PERL 程序Uniprot_xRef_Function.pl将dat 文件中的
GO 与KEGG 信息解析成表;形成xRef_GO.txt与
xRef_KEGG.txt两个文件
∙ 定义的目标号
修改GO\Ontology\GO-Parent.xlsx文件
形成GO 号与GO Slim号的对应表
运行MyGOID2ParentID.m 文件,读取xRef_KEGG.txt与GO-Parent.xlsx ,形成SlimTable.xlsx
用AnalyzeGO_Slim.m处理,读取原始或差异蛋白
Excel 与SlimTable.xlsx
∙ ∙
类注释(C :细胞组件;F :分子功能;P :生物学途径),各包括以下文件:
All.xlsx ,up.xlsx ,down.xlsx 分别为总的,上调和下调的基因的情况表。表中每个sheet 的含义为:
Count :每个样品对应的GO 注释的蛋白数; ∙
Ratio :每个样品GO 注释蛋白数除以基因组中该GO 注释的总蛋白数;
Enrichment :根据超几何分布计算的富集度分析结果,值越高,表示富集度越高;
Matrix :每个蛋白的差异显著性和GO 注释的详细表格。
C :
Enrichment
SigCount
F:
Enrichment
SigCount
P:
Enrichment
SigCount
KEGG 分析
2016年3月9日
21:03
(http://www.uniprot.org)数据库中批量获取对应的注释文件(*.dat)和fasta 文件
2. 用PERL 程序Uniprot_xRef_Function.pl将dat 文件中的
GO 与KEGG 信息解析成表;形成xRef_GO.txt与
∙ 以及xRef_KEGG.txt
文件
以下目录和文件:
文件:
All.xlsx ,up.xlsx ,down.xlsx 分别为总的,上调和下调的基因的情况表。表中每个sheet 的含义为:
Count :每个样品对应的GO 注释的蛋白数;
Ratio :每个样品GO 注释蛋白数除以基因组中该GO 注释的总蛋白数;
Enrichment :根据超几何分布计算的富集度分析结果,值越高,表示富集度越高;
Matrix :每个蛋白的差异显著性和GO 注释的详细表格。
KEGG 目录下是所有差异表达蛋白在KEGG 网络中的情况; 每个比较的目录表示这两者比较的情况下差异表达蛋白在KEGG 网络中的情况。
∙
COG 分析
2016年3月9日
21:03
2. 数据库搜索的序列数据库
COG 的参考序列进行Blast 比对,得到比较结果
2. 用Matlab 程序读取Blast 结果,并提取对应的COG 的信息
∙
∙
∙ COG_Mapping表是每个蛋白的COG 注释信息 COG 表中是各大类的鉴定数目统计
蛋白质相互作用分析
2016年3月9日
21:03
confidence 为High (0.7),得到所有可能的蛋白质相互作用对
2. 用Cytoscape 展示相互作用信息,并且用MCODE 进行
∙
∙
∙
∙ 进行相互作用分析后,得到一个总体的相互作用图(Col*.all.png) 而后进行相互作用高连接度的子网络的分析,得到16个子网络,详见文件"mcode.export.txt" 导出每组比值的前5个高连接度的网络,见图片Col*.cluster*.png
注意:
Col3:表示658/635
C ol4:表示677/635
C ol5:表示677/658
图形中红色为上调,绿色为下调
数据分析报告
2016年3月9日
21:02
项目名称:Sus scrofa蛋白组学无标试验 客户名称:
完成时间:
项目编号:
一共3个猪的脑脊液样品677,635,658,分别为:677是空白组;635是脑膜炎链球菌感染;658是关节炎链球菌感染。3例(猪的脑脊液)样本,每例样本跑了3个fraction ,每例样本3次实验学重复(共计27个raw 文件)。利用无标LC-MS/MS技术结合Maxquant 软件共鉴定到3456个UNIPROT 蛋白。
点),PRIDE 或MassiVE 上,供研究人员下载。
数据分析
2016年3月9日
21:03
所有蛋白通过ID 号到Uniprot (http://www.uniprot.org )数据库中批量获取对应的注释文件(*.dat)和fasta 文件。用自编的PERL 程序Uniprot_xRef_Function.pl将dat 文件中的Uniprot 交叉号注释、蛋白名称、功能注释、GO 等信息解析成表。
∙
∙
∙
∙ 中。 Result.xlsx 的“Log10”表是取log 后的结果;而Median 是用中值归一化的结果。 Result.xlsx 的“VolcanoPlot ”表是差异分析的结果。Sig 列中1表示上调,-1表示下调,0表示不变。
根据实验设计,对所有鉴定定量结果进行统一分析,如果p-value
差异蛋白的分析结果见/Diff/目录下的火山图及其表格。
全局分析
2016年3月9日
21:03
全局分析的结果见/Global/目录下的结果。
箱形图(Box-plot )又称为盒须图、盒式图或箱线图,是一种表现有关数据的位置和分散情况资料的统计图。
箱形图主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数(Q1),中位数
(Median ),下四分位数(Q3),下边缘,还有一个异常值。它可以粗略地表达出数据是否具有有对称性,分布的分散程度等信息,通常用于对几个样本的比较。
箱形图中异常值被定义为小于Q1-1.5IQR 或大于
Q3+1.5IQR(四分位间距) 的值。通过比较箱形图的异常值,可以发现数据点在同类其他群体中的位置。样本数据的中位值在该坐标系中越接近1,反应数据越集中;上下四分位值离中位值越远,表明数据离散趋势越强。
聚类热图(heatmap )是通过排列矩阵的行列,将相似的数值放在相邻的放以展示聚类分析结果的图像;它可以直观呈现多样本多个基因的全局表达量变化,呈现多样本或多基因表达量的聚类关系。通过聚类分析,可以对数据进行分类并反应其相似程度。聚类热图中的一行代表一个蛋白,一列代表一个样本比较组。其中,不同颜色为样本的不同表达量值,由绿-黑-红表达量依次增加。样本间的欧式距离长短反应其关联性,距离较近说明两组数据性质较近,距离较远说明关联较远。
功能分析
2016年3月9日
21:03
和转录组获得了高通量测序,给人们带来了海量的核酸序列数据,如何对海量序列中隐含的生物信息进行高通量的解读是研究者要面对的问题.序列信息解读的一个核心内容是对基因进行功能注释,具体操作上就涉及到一个概念:基因的本体论(Gene Ontology, GO)注释.大多数基因在不同生物中的同 源基因拥有相同的主要生物学功能,因此,在某些物种 里已知的基因功能信息可以用来解释其他物种对应的同源基因.但是这些已知的功能信息包含在先前积累的浩瀚文献之中,不同的文献会用不同的词汇来描述 同一生物学功能,这为功能检索和注释带来诸多不便.而GO 项目就是建立一套特定的词汇集合来描述生物学功能,以此对基因功能注释统一化.用于描述生物学功能的词汇必然要反映生物学功能的本质,此即本体论(Ontology )的由来.
GO 项目对基因功能进行了一致性描述,开发了可控制的词汇表,且无物种特异性.目前已经建立了三大独立的本体论词汇表:生物过程(Biological Process)、细胞组分(Cellular Componet)和分子功能(Molecular
Function ).这三大本体论词条下面又可以独立出不同的亚层次,以“有向非循环图(Directedacy-Clicgraphs )”的方式层层向下,将每一个本体论词条串联起来形成树状结构.将GO 词条分配给基因序列的行为即GO 注释.目前,GO 注释已经成为高通量测序序列的主要注释方法.
综上所述,一个基因编码的蛋白质可以在多种水平上被赋予本体论定义,GO 注释的原理就是通过计算机程序建立基
因产物与用于定义它们的本体论词条之间的联系.自从
1998年基因本体论项目(Gene Ontology Project )创立以来,已经有多款GO 注释软件发表,实现了基因产物的标准化注释.
所有基因列表的富集度计算都是用如下公式:
如果p 值小于0.05,我们认为这个GO 或通路是有显著富集度的。
利用MATLAB 软件完成GO 功能富集度计算,并用Excel 进行图示化。功能类别的统计富集度p 值来自超几何检验得到,然后经过-log10转换。GO 的分析结果保存在GO 文件夹下。C.xlsx 为亚细胞定位;F.xlsx 为分子功能;P.xlsx 为生物学过程。
每个Excel 都是相同的格式,如下:
每组样品的鉴定蛋白与差异蛋白利用自编MATLAB 程序批量将数据上载到KEGG ()网站上,并得到所有通路的map 结果。KEGG 的分析结果保存在KEGG 文件夹下。KEGG.xlsx 为通路汇总结果,格式与GO 的Excel 相同。通路图中红色节点表示显著上调蛋白,绿色表示显著下调蛋白。
通路的图注,可登陆KEGG 网站
(http://www.genome.jp/kegg/document/help_pathway.html)进行查阅
GO 分析
2016年3月9日
21:03
(http://www.uniprot.org)数据库中批量获取对应的注释文件(*.dat)和fasta 文件
2. 用PERL 程序Uniprot_xRef_Function.pl将dat 文件中的
GO 与KEGG 信息解析成表;形成xRef_GO.txt与
xRef_KEGG.txt两个文件
∙ 及xRef_GO.txt文件
类注释(C :细胞组件;F :分子功能;P :生物学途径),各包括以下文件:
All.xlsx ,up.xlsx ,down.xlsx 分别为总的,上调和下调的基因的情况表。表中每个sheet 的含义为:
Count :每个样品对应的GO 注释的蛋白数;
Ratio :每个样品GO 注释蛋白数除以基因组中该GO 注释的总蛋白数;
Enrichment :根据超几何分布计算的富集度分析结果,值越高,表示富集度越高;
Matrix :每个蛋白的差异显著性和GO 注释的详细表格。
∙
C :
Enrichment SigCount
F:
Enrichment
SigCount
P:
Enrichment
SigCount
GO Slim 分析
2016年3月9日
21:03
(http://www.uniprot.org)数据库中批量获取对应的注释文件(*.dat)和fasta 文件
2. 用PERL 程序Uniprot_xRef_Function.pl将dat 文件中的
GO 与KEGG 信息解析成表;形成xRef_GO.txt与
xRef_KEGG.txt两个文件
∙ 定义的目标号
修改GO\Ontology\GO-Parent.xlsx文件
形成GO 号与GO Slim号的对应表
运行MyGOID2ParentID.m 文件,读取xRef_KEGG.txt与GO-Parent.xlsx ,形成SlimTable.xlsx
用AnalyzeGO_Slim.m处理,读取原始或差异蛋白
Excel 与SlimTable.xlsx
∙ ∙
类注释(C :细胞组件;F :分子功能;P :生物学途径),各包括以下文件:
All.xlsx ,up.xlsx ,down.xlsx 分别为总的,上调和下调的基因的情况表。表中每个sheet 的含义为:
Count :每个样品对应的GO 注释的蛋白数; ∙
Ratio :每个样品GO 注释蛋白数除以基因组中该GO 注释的总蛋白数;
Enrichment :根据超几何分布计算的富集度分析结果,值越高,表示富集度越高;
Matrix :每个蛋白的差异显著性和GO 注释的详细表格。
C :
Enrichment
SigCount
F:
Enrichment
SigCount
P:
Enrichment
SigCount
KEGG 分析
2016年3月9日
21:03
(http://www.uniprot.org)数据库中批量获取对应的注释文件(*.dat)和fasta 文件
2. 用PERL 程序Uniprot_xRef_Function.pl将dat 文件中的
GO 与KEGG 信息解析成表;形成xRef_GO.txt与
∙ 以及xRef_KEGG.txt
文件
以下目录和文件:
文件:
All.xlsx ,up.xlsx ,down.xlsx 分别为总的,上调和下调的基因的情况表。表中每个sheet 的含义为:
Count :每个样品对应的GO 注释的蛋白数;
Ratio :每个样品GO 注释蛋白数除以基因组中该GO 注释的总蛋白数;
Enrichment :根据超几何分布计算的富集度分析结果,值越高,表示富集度越高;
Matrix :每个蛋白的差异显著性和GO 注释的详细表格。
KEGG 目录下是所有差异表达蛋白在KEGG 网络中的情况; 每个比较的目录表示这两者比较的情况下差异表达蛋白在KEGG 网络中的情况。
∙
COG 分析
2016年3月9日
21:03
2. 数据库搜索的序列数据库
COG 的参考序列进行Blast 比对,得到比较结果
2. 用Matlab 程序读取Blast 结果,并提取对应的COG 的信息
∙
∙
∙ COG_Mapping表是每个蛋白的COG 注释信息 COG 表中是各大类的鉴定数目统计
蛋白质相互作用分析
2016年3月9日
21:03
confidence 为High (0.7),得到所有可能的蛋白质相互作用对
2. 用Cytoscape 展示相互作用信息,并且用MCODE 进行
∙
∙
∙
∙ 进行相互作用分析后,得到一个总体的相互作用图(Col*.all.png) 而后进行相互作用高连接度的子网络的分析,得到16个子网络,详见文件"mcode.export.txt" 导出每组比值的前5个高连接度的网络,见图片Col*.cluster*.png
注意:
Col3:表示658/635
C ol4:表示677/635
C ol5:表示677/658
图形中红色为上调,绿色为下调