关联分析在植物育种中的应用现状

44(6):32~38,62山东农业科学2012,ShandongAgriculturalSciences

关联分析在植物育种中的应用现状

1

王彩洁,徐

12

冉,于明飞

(1.山东省农业科学院作物研究所,山东济南250100;2.上海海事大学,上海201306)摘

要:关联分析是近年来出现的一种对QTL进行定位的方法。本文综述了关联分析在材料选择、群体

结构分析、标记应用、表型分析、统计方法等方面的应用现状和存在的问题。

关键词:关联分析;植物育种;QTL定位

+

中图分类号:S343.17

文献标识号:A文章编号:1001-4942(2012)06-0032-08

关联分析也称关联作图(associationmap-ping)、LD)作连锁不平衡(linkagedisequilibrium,图,是一种依靠连锁不平衡鉴定某一群体内目标性状与遗传标记或候选基因关系的一种方法。连锁不平衡是位于两个遗传位点的等位基因的非随机结合,当位于某一座位的特定等位基因与同一条染色体另一座位的某一等位基因同时出现的几率大于群体中因随机分布而使两个等位基因同时出现的几率时,就称这两个座位处于连锁不平衡状态。在随机交配群体中主要由突变和遗传漂变因重组而衰减。除此之外,其他生物因素和产生,

历史因素也影响LD的程度和分布,如物种的异交率、交配体系、染色体位置、群体大小、基因或染色体片段所受的选择强度等。

到目前为止,研究人员已经提出了许多种连锁不平衡的衡量方法,其中大部分是衡量两个单核苷酸多态之间的相关性。D’和r是两种最重要的衡量方法,取值都是从0(无连锁不平衡)到1(完全连锁平衡),|等于1仅当只有两个但|D’或3个单体型时出现,而当四个单体型全都出现|<1;相比之下,r是衡量两个位点之间的时|D’

统计相关性,只有当其中两个单体型出现时才等于1。由于和检测相关性所需的样本量成反比,利用r这种衡量方法更方便。本文从材料选择、群体结构、标记类型、统计分析方法等方面对关联作图在植物育种中的研究现状进行综述。

2

2

2

1关联分析与传统连锁分析的不同

许多农业上或进化中重要的复杂性状的表型

环变异都受多个QTLs及它们之间的相互作用、境以及QTLs和环境间相互作用的影响。连锁分

析和关联作图是最常用的分解复杂性状的工具,两者的不同主要表现在:

第一,连锁分析只能将QTL定位到10~20cM的区间内。虽然到目前许多连锁分析已经在各种植物中完成,但只有有限数目的QTLs被克隆或在基因水平上被标记。而关联作图可以通过在群体水平使用历史和进化过程中的重组事件而将复杂的性状变异分解成序列水平上的不同,对于具有更小效应的基因,关联分析的发现能力比连锁分析高得多。

第二,关联分析能够利用自然群体的遗传多样性将复杂性状变异进行分解。传统的连锁分析利用的是父母本杂交产生的试验群体,只提供了关于性状的有限信息,得到的结果只局限于相同或相关的群体。而关联作图应用的种质基础非常广泛,它在育种品系、地方品种或自然群体的样本中定位QTL的能力对于未来的性状改良和种质安全非常具有潜力。对于开发自然多态性,高代回交QTL(AB-QTL)和基因渗入文库(IL)是从外缘种质中开发等位基因的有效策略,有利于提高作物的产量、适应性、品质和营养价值。关联作图作为AB-QTL和IL的有效补充,是对每一作

收稿日期:2011-05-12;修回日期:2012-02-19

“优质高产多抗大豆新品种培育”基金项目:山东省农业良种工程项目

作者简介:王彩洁(1972-),女,副研究员,主要从事大豆育种工作。E-mail:[email protected]

第6期王彩洁等:关联分析在植物育种中的应用现状33

物进行大规模功能多样性评价的有效附加工具。

第三,统计分析方法不同。传统的连锁作图方法包括单标记分析、区间作图、复合区间作图和贝叶斯区间作图,都已在植物中得到了很好的发展和验证。与之相比,在关联作图方法研究上所做的努力还远远不够。关联作图中不同的基因型具有不同的地理来源、育种历史和对地方的适应

其所具有的群体结构带来的假阳性问题长期性,

以来一直是关联作图的一个障碍。最近提出的几

——SA种解决群体结构和家族相关的统计方法—(structuredassociation)、GC(genomiccontrol)、混

合模式和主成分分析方法,能够利用全基因组随机标记产生的基因型信息通过完全的或特定的调节来估计关联研究中的遗传相关,从而解决了由群体结构产生的假阳性问题。

概括起来讲,关联作图作为连锁分析的可替代方法,具有以下三个优点:①提高作图分辨率,②减少研究时间,③具有更大的等位基因数目。自从被引入植物研究以来,关联作图由于在高通量基因组技术上的进展、鉴定新的优异等位基因的影响及统计方法上的改良而愈发受到关注。我们可以利用连锁分析初步定位控制目标性状等位基因的位置,再利用关联分析快速对目标基因进行精细定位,并针对特定候选基因提供大量信息,验证候选基因功能。

关联分析一般包括5个步骤:种质选择、群体结构的估计、性状测量、候选多样性鉴定、统计分析。

体。对种质库而言,核心种质代表大多数遗传变

异,适合进行遗传研究;选用的优异材料样本需由品系和对照组成;合成群体中的评价个体也应该是关联个体。下面将它们作为关联分析试验材料的潜力和限制做一比较2.1种质库种质

[1]

代表一个物种遗传多样性的样本,由于包含广泛的等位基因多态性对关联分析研究非常具有

吸引力。选择核心种质的方法通常用于对不连锁的标记进行基因型分析,以计算遗传距离,并由此提供关于群体结构的信息。选择具有最大变异的最小样本有利于减小群体结构和不连锁位点的LD,从而能更好地进行关联分析。利用这类材料进行关联分析的困难在于样本内的遗传异质性。地方品种和自然群体通常由开放授粉的品种或混合基因型组成,在进行DNA提取、基因型和表型设计时必须考虑这方面因素。核心种质是对部分数量性状(病害抗性、品质特性等)以及驯化相关性状(休眠性、落粒性及开花类型等)进行关联分析的有用材料。但另一方面,广泛的遗传变异也使得这些种质不适合用于某些数量性状的关联分析,主要是因为它们之中的部分品系由于对生长条件和流行性病害的不适应导致表型测量很不精确。核心种质的关联分析可能要求候选基因或主要QTL定位到狭小的置信区间内。同以连锁为基础的精细作图和图位克隆相比,关联分析方法拥有同时探测有用等位基因效应和筛选种质的好处。2.2

优良品系和品种

对产量及其构成因素、非生物胁迫的抗性等遗传力低的性状进行关联分析时,优良品系是更合适的材料,因为它们遗传稳定、对正常生长条件具有很好的适应性。在育种过程中积累的大量优良品系和品种的表型数据资料,都是多年多点田间重复试验的结果,利用这些数据进行关联分析时需要合适的统计模式以解释试验设计和多基因效应的产生。但由于每年的田间试验中经常会除去一些品系、加进一些新品系,因此,这些数据资料通常是不平衡的。但混合效应模式的最大似然法可以从这些不平衡的数据中产生等位基因效应最小效应的无偏估计,并且考虑到了数据结构的相关,曾被用来分析植株高度、疾病抗性、玉米籽

2关联分析对物种和种质材料的要求

种质材料的选择对于关联分析是至关重要

的。遗传多样性、基因组范围的连锁不平衡程度、群体内相关决定了作图分辨率、标记密度、统计方法、作图能力等。总的来说,适合关联研究的植物群体可以分成5类:①具有微小的群体结构和家族相关的理想样本;②多家族样本;③具有群体结构的样本;④具有群体结构和家族相关的样本;⑤具有严重群体结构和家族相关的样本。由于对当地的适应性、选择和育种历史等原因,关联作图的许多群体都可以被归到④类。

在植物育种中进行关联分析时用到的群体主要有三种:收集的种质库、优异育种材料和合成群

34山东农业科学第44卷

粒水分和小麦籽粒大小及磨粉品质,是一种有效的方法。

优良品系的群体结构通常是显著的,因为它们往往是紧密相关的。如果能够知道系谱,就可以确定这些品系之间的关系进而控制多基因效应。在这种情况下通过不连锁的标记估计群体结构通常是不必要的。

一个典型的优良植物育种基因库来源于有限

LD在这并且经历了强烈的选择,因此,几个祖先,

种材料中常常是很高的。虽然同父母本的QTL

分析相比,利用这些品系进行的关联分析并未带来分辨率的很大提高,但至少有两大优点:足够高的多态性水平和直接在大群体中探测有利等位基因。2.3

合成群体

合成群体的群体结构是轻微的或者不存在的,这是利用合成群体进行关联分析的重要优点。如果试验材料代表单一交配群体,关联分析的力量将是最大的,假关联的风险将是最低的;反之,由于开花时间、植株高度和其他性状的不同,群体结构仍然会发生。育种群体所有阶段的基因型信息通常都是有用的,不仅在选择父母本以形成群体时要在高农艺性状均值和高等位基因变异之间尽量取得协调,而且在随后的循环中还可通过不连锁的标记对样本进行基因型分析,以监控等位基因多样性、有效群体大小及群体结构等的变化。合成群体的等位基因多样性依赖于亲本数目、差异程度以及选择强度。遗传多样性也可以通过其他方式表达,等位基因数目Ae=1/∑pi,pi是等位基因i的频率;从不连锁标记LD(r2)的估计可以得出大约的有效群体大小Ne=1/(2r2),减少有效群体大小可引起遗传漂变。在合成群体中,起始几代的连锁不平衡水平很高,因此基因组扫描能探测到大的染色体片段与性状关联,并追溯到父母本的单倍型;在随后的几代中,重组产生的LD衰减,更有利于精细作图。但是合成群体经常遭受轮回选择,强烈的选择将有力的等位基因聚合在一起或增加遗传漂变而建立起LD,因此,经受轻微选择或无选择的群体更有利于关联分析。若性状评估精确时,选择可以以表型为基础,同标记之间的关联可以得以建立;但当田间试验不能得到精确的数据时,选择就会较多

2

地依赖于基因型数据。在合成群体选择中,就需

要更深入的基因型分析,因为在每一循环中都需要检测新的后代个体以了解群体的状态和标记辅助选择的情况。另一方面群体信息是一个多年的积累,允许对育种者感兴趣的性状进行渐进地精

[2]

确地遗传分析。

3群体结构的估计

在进行关联分析时,一个必需考虑和解决的问题是群体的结构。因为群体结构会增加染色体间的连锁不平衡性,使目的性状与不相关的基因座间表现出关联,即造成伪关联,可能会导致作图错误

[3]

。群体结构指的是一个群体内亚群存在

的情况。亚群的混合使整个群体的LD强度增强,可能导致基因多态性位点与性状的相关性并非由功能性等位基因引起,从而提供假阳性结果。解决这一问题的办法是在假设群体结构对基因组所有基因座影响相同的情况下,选出一定数量的与目的基因座不连锁的分子标记,去检测它们间是否存在关联性,并予以矫正。如果群体中出现明显的分组现象,则在每个亚群中分别进行关联分析,亚群间结果还可以互相验证,删除一些亲缘关系很近的姊妹系,使群体达到平衡。评价群体结构所需要的标记数目,如果使用SSR标记通常大于100个,如果是双等位的SNP标记,需要的标记数目会更大,这主要依赖于亚群分化的程度

[4]

目前已发展了多种统计方法对不同群体结构进行统计上的控制。可以使用贝叶斯分析方法使群体数量化,使用不连锁的标记将个体分配到不同亚群间。其他多变量的统计分析,如聚类(clustering)、排列(scaling)都可以用来分析群体结构。育种群体中个体间的关系可以通过以下方式决定:以标记为基础的个体间同源相同(identi-tybydescent)的估计;由相关个体间协方差产生的亲本系数;或者2种类型的分析同时进行

[5]

4关联作图的背景标记

在关联研究中,一套不连锁的、选择中性的、

覆盖整个基因组的背景标记是非常有用的,有利于将个体遗传组成特征化。根据背景标记,可以将个体分配到相应的群体,并且在群体结构存在

第6期王彩洁等:关联分析在植物育种中的应用现状35

的情况下可以阻止假关联的产生,背景标记还可以估计亲缘关系和自交程度。RAPD和AFLP虽然可以作为背景标记,但由于是显性遗传,用来估计群体遗传参数时需要特殊的统计方法。而共显SNP在估计群体结构和血性的微卫星或者SSR、缘关系矩阵时更具优势。

由于SSR标记是多等位基因的、可重复的、以PCR为基础的并且选择中性的,因此在血缘和群体研究中是一种占支配地位的分子标记。半自动化系统的存在为多元化探测和将以荧光标记为基础的SSR产品大小化提供了非常有利的条件,因此将极大地增加探测等位基因大小的精确性和基因型的能力。另外,也有研究认为SSR标记在跟踪群体结构方面比SNP标记更有效。

由于具有高的基因组密度、低的突变频率和SNP成为复杂对高通量探测系统的良好服从性,

性状分解研究的分子标记选择。一种特殊的基因型技术的选择不但依靠SNP标记的数目而且也要看将被分析的个体。SNP每代每点的突变频率比SSR每代的突变率低好几倍,因此,在某一个具体位点,由于SNP的双等位基因性,它比多等位的SSR的信息含量低,这样在许多作物中估计群体结构和相关时与SSR相比需要更多的SNP背景标记。但这不应被认为是SNP的缺点,因为SNP在整个基因组的分布非常广泛并且比SSR分析便宜许多。

最近的研究发现,在人类基因组中存在许多,即单倍的块状区域,一般称为“haplotypeblock”域。仅通过少数遗传标记就可以识别单倍域中的大部分单倍型,这些遗传标记被称为单倍型标签位点。其中大部分是SNP,称为htSNP,即单倍型标签SNP。因为不必对某区域内所有位点进行分型就可以推测出该区域大部分位点的个体类型,所以单倍型标签位点对关联分析极为有用。识别和使用单倍型标签SNP将极大地促进在全基因组范围内对复杂性状进行关联研究

[6]

5关联作图的表型分析

确定研究的表型是研究设计中的首要问题。

研究表型的选择应当尽量遵照以下原则:第一,选择遗传度较高的表型;第二,选择测量简单、准确的数量表型。5.1

田间设计

表型分析从未受到像基因型分析那样的重视,当基因型分析的能力和精准性都大幅提高的时候,在大规模的关联作图过程中想得到足够的表型数据仍然非常困难,搜集多年、多点具有足够重复的表型数据更是一种挑战。不完全区组排列、恰当的统计方法并且考虑到QTL与环境互作的这样一种有效的田间设计应当被开发以提高作图能力,尤其是在田间条件不很一致的情况下。这类研究非常具有挑战性,因为直接的凭经验的田间设计需要同质的田间条件在不同水平下的广泛研究,并且需要遗传学家和统计学家通力协作

[7]

由于关联作图的多样性,考虑开花时间对其他相关性状的表达影响是至关重要的。如果感兴趣的性状依靠发育转变,就可以通过开花时间来阻止田间试验。其他需要考虑的表型包括光周期敏感性、倒伏以及对流行性病原菌的易感性,主要是因为这些性状能够影响其他农艺或形态性状的

[8]

测量。5.2

数据收集

高质量的表型数据收集是遗传作图研究的基本要求。关联作图是长期的工程,表型数据通常是多年多点获得的,在这种情况下,任何新发现的候选基因多态性都可以同已存的表型数据进行关联验证。如果原本的关联作图是通过对其他复杂性状的评估以及足够的表型数据的收集构建的,那么从候选基因到全基因组的转变就会非常顺利。为保证从广泛的试验中得到高质量的数据,并且应该对每位研究者负责的试验质量进行评估。试验具体的信息,如对照表现和环境生长条件,都应该包括在性状数据库中作为对试验的注释。在已建立的程序中,条形码系统和以扫描仪为基础的数据收集极大地方便了数据搜集进程。对关联作图中大项目的数据储存和生物信息学研究,不同的模式已经建立,包括玉米多样性研

。Zhang等

创建了运用动态规划寻找标签SNP的方法,并证明利用标签SNP进行关联分析确实能在统计效力损失很少的情况下大幅度减少分型工作量。这项研究再次表明基于单倍型的关联分析具有比传统的单个遗传标记的关联分析更强的统计效力。

36山东农业科学第44卷

究组的基因组多样性和表型数据模式计划,及大

[9]

麦CAP工程使用的发芽计划。步的统计分析中。修改后的具有逻辑斯蒂克回归的SA已在某些关联研究中使用过,其全面线性模式版本在软件TASSEL中可以得到

[11]

6研究设计类型

考虑到研究的成本、基因分型的成本以及研

究的把握度等方面的因素,关联分析的研究设计目前分为单个阶段(One-stagedesign)、两个阶段(Two-stagedesign)或多个阶段研究设计(Multiple-stagedesign)。6.1

单个阶段研究

即选择了足够样本后,在所有研究对象中一次性对所有选中的SNP进行基因分型。然后分析每个SNP与性状的关联,分别计算关联强度和OR值。该设计的最大缺陷在于基因分型耗资巨大。为节约基因分型的数量和成本,两阶段研究正在被越来越多的研究者所采用。6.2

两阶段或多阶段研究

第一阶段先在小样本中对全基因组范围选择的所有SNP进行基因分型,统计分析后筛选出较少数量的阳性SNPs;第二阶段在更大的样本中对筛选出的阳性SNPs进行基因分型,然后结合两个阶段的结果进行分析。第一阶段的基因分型可以以个体为单位,也可以是以DNApool为单位,而后者可大大降低基因分型的工作量。已有多项研究证明采用DNApool结合Affymatrix微阵列试剂盒可以低成本、高效益地进行SNP的筛[10]选。

最近发展出了一种统一的混合模式的关联作

[12]

图方法,可以用来说明多水平的相关。在该方法中,随机标记被用来估计群体结构(Q)和血缘关系矩阵(K),然后将它们代入混合模式框架验证标记—性状的关联。这种混合模式方法跨过了以家族和以群体为基础样本的界限,是对当前关联作图可获得方法的一个有力补充。

主成分分析已经在遗传多样性分析中得到了长时间应用,最近作为一种快的、有效的方式被用来诊断群体结构。主成分分析能够将在所有标记中观察到的变异总结成小数目的基本组分变异,这些主成分与分离的、无法观察的亚群体有关。每一个主成分中的每一个个体的装载描述了群体的成员资格或者每一个成员的祖先。用主成分分析代替混合模式中的Q已显示出某些发展前景,但需要增加额外的研究来建立对作物物种的适合性。

Pritchard等建立了一种统计方法,可将群体结构的估计直接合并到关联分析试验的统计中。这种方法能使研究者将分辨率从20cM的区域提高到单基因水平。7.2

样本大小和背景标记的数目

在许多植物连锁分析研究中样本大小一般包括250个个体,它们具有同质的、双父母本遗传背景。在关联作图中,遗传变异通常比连锁群体的大很多,如果功能位点不具有大的效应以及在该位点测验的标记不是处于高度的连锁不平衡,那么在一个小群体中鉴定标记—性状的关联将很困难,无论使用的是候选基因还是全基因组扫描的方法。用经验式玉米数据进行初步模拟结果显示,为增加探测到中等大小遗传效应的能力需要

[7]

大的样本。

确定精确估计遗传关系所需的背景标记的数目是一个常见的问题,这在候选基因关联作图研究中也是需要说明的。双等位基因的SNP比多等位基因的SSR所需的标记数目高许多。某一物种所需的SSR标记的数目大约是该物种染色体数目的4倍,每一染色体臂上大约是2个标记。当然,染色体的长度、物种和样本的多样性以及标

7

7.1

关联作图的统计分析

方法

关联分析基本的统计方法包括线性回归、方

t检验和χ2检验。对于因群体差分析(ANOVA)、

结构产生假阳性的问题,需要设计不同的统计方

法来解决。传递不平衡检验(TDT)被用来研究人类疾病的遗传基础,而数量传递不平衡检验(QT-DT)被用来对数量性状进行分解。GC(genomiccontrol)和SA(structuredassociation)是人类和植物关联研究中两种最常用的方法。所谓GC,就是在假定群体结构对所有位点都具有相似效应的基础上,使用一套随机标记来估计测验统计学被群体结构膨胀的程度。而SA是先使用一套随机标记来估计群体结构,然后把这种估计应用到进一

第6期王彩洁等:关联分析在植物育种中的应用现状37

记系统的花费和可获得性都会影响在研究中背景标记使用的数目。

LD在关联分析中起核心作用,另外,因此覆盖整个基因组的标记数目由连锁不平衡程度决

LD延伸的距离决定关联分析中标记的数目和定,

密度。对基因座间连锁不平衡性较低的染色体区段,在进行关联分析时需要检测较多的分子标记,但极易找到与靶基因(或QTL基因座)紧密连锁的标记,从而实现关联分析的精确作图。反之,在连锁不平衡性高的基因组区段,可能只需检测很少的标记就可以找到与目标基因座相关联的标记,但是却很难找到与目标基因座紧密连锁的标记,因此,作图效果反而不会太理想。因此,异花授粉植物的关联分析效果要普遍好于自花授粉植[13]物,只是作图时,异交作物需要检测更多的分子标记。例如,玉米必须保证每100~200bp检测一个SNP,而拟南芥只需每50kb一个多态性标记即可。7.3软件

有许多软件包可供关联作图数据分析使用。TASSEL是植物关联作图中经常使用的软件,可以随着新方法的发展不断更新。TASSEL也被用来计算、绘图以及浏览和输入基因型和表型数

[14]

据。而STRUCTURE软件则是典型用来估计Q的,Q是一个n×p矩阵,n是个体数目,p是亚群体数目。SPAGeDi软件是用来估计个体中的K

个挑战。除了454GSFLX和Illumina1GGenomeAnalyzer,其他平行的测序平台像AppliedBio-sytems’SupportedOligonucleotideLigationandDe-tectionSystem(SOLiD)和HelicosBioSciences’HeliScope也即将完成并投入市场。随着在序列读取长度和精确性上的提高,尤其是随着每Mb测序花费的继续下降,在基因型分析中的应用会变得非常常见。

目前已经开发了两种新的方法,能够显著提高目标基因测序的效率。第一种方法与多基因扩增和大规模平行测序相结合,利用选择器技术以一种高度多元的、目标特殊的方式扩增候选基因,该技术花费非常低,并且与整个基因组程序相比在靶区具有更大的序列测量深度,适合特殊基因组区域的重新测序。第二种方法与以阵列为基础的杂交和非常高的测序能力结合。在这种方法中,设计高密度的寡脱氧核苷酸阵列来捕捉基因组中的特定片段,杂交之后,捕捉到的片段被进一步洗脱并再加工成适合高通量测序分析的小片[16]段。

当前,科研团体正致力于发展一种新的技术,它对与整个哺乳动物基因组大小相似的序列进行重新测序只需1000美金。如果这种具有纪念意义的技术可以完成,那么接下来的问题就是在作物关联研究中如何将千百万的基因组序列进行编目和统计分析。8.2

基因组扫描和候选基因关联分析

当前的关联分析包括全基因组扫描和候选基因关联。全基因组扫描需要一定密度的SNP标记,而候选基因关联分析只涉及候选基因序列。这两种方法的成功依赖于群体的大小和LD程度,全基因组扫描在具有中度到高度LD物种中通常非常有用,而候选基因关联作图在具有低LD的物种中更有效。

随着基因组技术的进一步发展,我们肯定希望看到在不同的植物物种中更多的基因组范围的关联分析得以完成,但到目前为止,候选基因关联研究只搜寻了基因组的一小部分,且关于候选基

具有高密度因关联作图成功的结果很少。因此,

的SNP覆盖度、大的样本、小的群体结构的关联

研究在复杂性状的分解上非常具有前景。这对于以候选基因测序和背景标记为起始的研究组来

K是一个n×n矩阵,的,其对角线以外的元素是Fij,是以标记为基础的个体统一性的估计。K矩0.5×(1+Fx)表阵对角线上的元素1表示自交,示非自交个体,其中Fx表示自交系数。EINGEN-STRAT软件用来估计标记数据的PC,修正群体层化的试验统计结果。其它在关联作图中经常使用的软件还有Merlin和QTDT。SAS或R软件通常被编程者作为发展不同方法的平台来使用。ASREML和MTDFREML是在个体非常多的情况下在动物遗传混合模式数据分析中经常使用的两个软件包。

[15]

8

8.1

前景

测序和基因型分析

下一代测序技术平台的到来对于现在占支配

地位的以sanger为基础的毛细管测序技术将是一

38山东农业科学第44卷

说,将会对群体结构、家族相关、核苷酸多样性、LD衰退以及关联作图的其他方面有更深刻的理解。候选基因方法能否成功的另一原因在于候选基因的选择方式。许多候选基因是通过突变型和野生型的比较发现的,这些位点自然发生的效应我们并不理解,即使功能基因的丧失产生显著的表型变异,我们也只能期望温和的突变对表型产生中等的效应。而这些变化在关联作图群体中是能够发现的。

8.3巢式关联作图(nestedassociationmapping,NAM)

Yu等[17]发展了一种巢式关联作图(NAM)的方法,能够将关联作图和连锁分析整合在一起并充分利用两者的优点,从而提高作图分辨率而不需要过浓的标记密度。他们通过计算机模拟展示了NAM在基因组扫描方面的强大力量,通过将遗传设计、自然多态性和基因组技术整合在一起,这种新的分解复杂性状的策略能够更加有效地将复杂性状的表型变异和分子变异联系起来。NAM的程序如下:①选择不同的奠基者,发展一套相关联的作图后代;②完全测序或者将奠基者进行高密度的基因型分析;③将奠基者及后代利用小数目的目标标记进行基因型分析以界定染色体片段和设计高密度的标记信息;④将后代的复杂性状进行表型分析;⑤利用设计好的高密度的标记对后代进行相关表型的全基因组的关联分析。NAM具有对遗传异质性低的敏感度和在使用基因组序列、高密度标记上的高能力、高效率的优点,并且由于使用多个奠基者还具有高等位基因丰富度的特点。在NAM中,连锁分析的设计作图群体和关联作图的高分辨率的优点通过发展大的不同奠基者的RIL群体而结合到一起。

Lou与Yu的想法相同,利用增加数据方法和EM运算法则,提出了以似然法为基础的方法,将连锁分析和关联分析组合在一起形成了统一的框架,认为该方法的特点是:第一,比以家族为基础的关联试验或传统的连锁分析具有更强的能力;第二,不管关联是否存在都能对遗传参数进行无偏估计,矫正了在关联存在的情况下传统连锁分析的偏差和低精确度;第三,能够单独鉴定紧密连锁。将分离、连锁、关联分析组成一个复合的作图策略,能够捕获遗传结构的两个互补方面。对连

锁而言,是适应于LD数量的LOD值法;当LD真

正存在时可以利用它,当LD很弱或不存在时,又退回到标准的LOD方法;另一方面,这又是一种整合了系谱单倍型分析的关联研究。

NAM在分解数量在连锁不平衡低的物种中,

性状遗传基础方面是一个更好的方法,这在玉米中已经得到了证明。对于其他作物,可以根据可获得的资源、大群体RIL创建及表型测量的难易和LD的水平来决定选择何种遗传设计。

9结语

,关联分析也存在作图“盲区”对遗传多样性偏低群体的作图效果不如QTL作图,因此植物遗传学家不应该完全抛弃连锁作图,只赞成关联作[18]

图。关联分析相对于连锁分析的成功,具有物种特异性和群体特异性。举例来说,对于具有低遗传多样性的物种,连锁分析要优于关联分析,在这种情况下,即使是最好的种质搜集也不可能包含足够的多样性以弥补统计能力的损失。尽管关联分析在遗传分析中起着很关键的作用,它也只是许多有价值的方法之一,理想的分析方法应该是连锁和关联分析的结合。

献:

[1]ZhuCS,GoreM,BucklerES,etal.Statusandprospectsof

associationmappinginplants[J].ThePlantGenome,2008,1(1):15-20.

[2]DoergeRW.Mappingandanalysisofquantitativetraitlociin

experimentalpopulations[J].Nat.Rev.Genet.,2002,3:43-52.

[3]Flint-GarciaSA,ThornsberryJM,BucklerⅣES,etal.

Structureoflinkagedisequilibriuminplants[J].Annu.Rev.PlantBiol.,2003,54:357-374.

[4]PritchardJK,StephensM,DonnellyP.Inferenceofpopula-tionstructureusingmultilocusgenotypedata[J].Genetics,2000,155:945-959.

[5]FalushD,StephensM,PritchardJK.Inferenceofpopulation

structureusingmultilocusgenotypedata:Linkedlociandcorre-latedallelefrequencies[J].Genetics,2003,164:1567-1587.[6]

KuiZ,CalabreseP,NordborgM,etal.Haplotypeblockstructureanditsapplicationstoassociationstudies:Powerandstudydesigns[J].Am.J.Hum.Genet.,2002,71:1386-1391.

[7]WangWYS,BarrattBJ,ClaytonDG,etal.Genome-wide

associationstudies:Theoreticalandpracticalconcerns[J].Nat.2005,6(2):109-118.Rev.Genet.,

(下转第62页)

62

献:

山东农业科学第44卷

2005,3:叶绿素荧光指标影响的研究[J].辽宁农业科学,31-32.[12]万

群,熊维全.不同砧木、嫁接方法和遮光处理对黄瓜

.植物生徐.马铃薯遮光处理的效应研究[J]

J].江苏农业科学,2009,4:185-186.嫁接苗的影响[[13]李佩华,彭

2007,23(4):220-225.理科学,

[14]高妍萍,何莉莉,陈俊琴,等.遮光对辣椒果实中辣椒素及

J].华北农学报,2008,23(3):129-132.其相关酶的影响[

[15]秦舒浩,李玲玲.遮光处理对西葫芦幼苗形态特征及光合

2006,17(4):653-生理特性的影响[J].应用生态学报,656.

[16]秦俊芬,邢晓静,刘维信.大葱对遮光处理的形态和生理反

.中国农学通报,2010,26(6):204-207.应[J][17]李[18]何

宁,蒋欣梅,于锡宏.遮光处理对青花菜体内碳、氮代明,张伟春,山

春.遮光和密度对茄子不同耐弱光品

.东北农业大学学报,2008,39(6):33-36.谢的影响[J]

.辽宁农业科学,2002,4:7-8.种生长发育的影响[J]

[19]姜财勇,陈日远,孙光闻,等.遮光和无土栽培方式对红葱

.中国蔬菜,2008,4:24-26.生长及品质的影响[J][20]刘厚诚,黄

琴,陈日远.遮光对芥蓝生长和菜薹产量及品

.华中农业大学学报,2004,Z2:215-218.质的影响[J]

[21]高莉敏,陈运起,于贤昌,等.大葱主要农艺性状的相关与

.山东农业科学,2005,1:25-27.通径分析[J]

[1]陈运起,.北京:中国高莉敏.大葱生产关键技术问答[M]

2007.农业出版社,[2]李

.西北园艺,伟.夏番茄地面覆盖碎麦草效果试验[J]2004,9:13-14.

[3]尹文书,郑满江,翁振健.马铃薯稻田免耕不同覆盖物对产

J].耕作与栽培,2006,6:34.量的影响初报[

[4]王中英,杨佩芳,古润泽,等.秸秆覆盖对黄土高原旱地苹

.中国农业科学,1992,25(5):42-49.果园的影响[J]

[5]刘建新.覆草对果园土壤肥力及苹果产量与品质的影响

[J].干旱地区农业研究,2004,22(1):102-105.

[6]刘建新.覆草对杏园土壤物理性状、肥力及果实产量与品质

.水土保持学报,2004,18(2):183-I85.的影响[J][7]刘建新,王

95.[8]刘厚诚,雷

雨,陈日远.遮光处理对节瓜光合作用特性的

.植物资源与环境学报,2005,14(3):33-36.影响[J]

[9]王丽娟,顾青海,孙世海,等.遮光对番茄生理特性的影响

[J].天津农学院学报,2006,13(3):17-22.

[10]王久兴,阎立英,毛秀杰.遮光对越夏番茄生长及产量的影

.江苏农业科学,2008,1:140-143.响[J]

[11]高绍森,朱延姝,冯

辉.连续遮光对番茄苗期生长发育和

鑫,杨建霞.覆草对果园土壤腐殖质组成和

.水土保持学报,2005,19(4):93-生物学特性的影响[J]

權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權

[13]HollandJB.Geneticarchitectureofcomplextraitsinplants(上接第38页)

[8]EskridgeKM.Fielddesignandthesearchforquantitativetrait

lociinplants[EB/OL].http://www.stat.colostate.edu/graybillconference2003/Abstracts/Eskridge.html,2008-5-20.

[9]McCarthyMI,AbecasisGR,CardonLR,etal.Genome-

wideassociationstudiesforcomplextraits:356-369.

[10]BreseghelloF,SorrellsME.Associationanalysisasastrategy

forimprovementofquantitativetraitsinplants[J].CropSci.,2006,46:1323-1330.

[11]DevlinB,RoederK.Genomiccontrolforassociationstudies

[J].Biometrics,1999,55:997-1004.

[12]YuJ,PressoirG,BriggsWH,etal.Aunifiedmixed-model

methodforassociationmappingthataccountsformultiplelevelsofrelatedness[J].Nat.Genet.,2006,38:203-208.

consensus,

uncertaintyandchallenges[J].Nat.Rev.Genet.,2008,9:

[J].Curr.Opin.PlantBiol.,2007,10:156-161.[14]BradburyPJ,ZhangZ,KroonDE,etal.TASSEL:Software

forassociationmappingofcomplextraitsindiversesamples[J].Bioinformatics,2007,23:2633-2635.

[15]HardyOJ,VekemansX.SPAGeDi:Aversatilecomputer

programtoanalyzespatialgeneticstructureattheindividualorpopulationlevels[J].Mol.Ecol.Notes,2002,2:618-620.[16]OkouDT,SteinbergKM,MiddleC,etal.Microarray-

basedgenomicselectionforhigh-throughputresequencing[J].Nat.Methods,2007,4:907-909.

[17]YuJ,HollandJB,McMullenMD,etal.Geneticdesignand

statisticalpowerofnestedassociationmappinginmaize[J].Genet.,2008,178:539-551.

[18]GuptaPK,RustgiS,etal.Linkagedisequilibriumand

associationstudiesinhigherplants:Presentstatusandfutureprospects[J].PlantMol.Biol.,2005,57:461-485.

44(6):32~38,62山东农业科学2012,ShandongAgriculturalSciences

关联分析在植物育种中的应用现状

1

王彩洁,徐

12

冉,于明飞

(1.山东省农业科学院作物研究所,山东济南250100;2.上海海事大学,上海201306)摘

要:关联分析是近年来出现的一种对QTL进行定位的方法。本文综述了关联分析在材料选择、群体

结构分析、标记应用、表型分析、统计方法等方面的应用现状和存在的问题。

关键词:关联分析;植物育种;QTL定位

+

中图分类号:S343.17

文献标识号:A文章编号:1001-4942(2012)06-0032-08

关联分析也称关联作图(associationmap-ping)、LD)作连锁不平衡(linkagedisequilibrium,图,是一种依靠连锁不平衡鉴定某一群体内目标性状与遗传标记或候选基因关系的一种方法。连锁不平衡是位于两个遗传位点的等位基因的非随机结合,当位于某一座位的特定等位基因与同一条染色体另一座位的某一等位基因同时出现的几率大于群体中因随机分布而使两个等位基因同时出现的几率时,就称这两个座位处于连锁不平衡状态。在随机交配群体中主要由突变和遗传漂变因重组而衰减。除此之外,其他生物因素和产生,

历史因素也影响LD的程度和分布,如物种的异交率、交配体系、染色体位置、群体大小、基因或染色体片段所受的选择强度等。

到目前为止,研究人员已经提出了许多种连锁不平衡的衡量方法,其中大部分是衡量两个单核苷酸多态之间的相关性。D’和r是两种最重要的衡量方法,取值都是从0(无连锁不平衡)到1(完全连锁平衡),|等于1仅当只有两个但|D’或3个单体型时出现,而当四个单体型全都出现|<1;相比之下,r是衡量两个位点之间的时|D’

统计相关性,只有当其中两个单体型出现时才等于1。由于和检测相关性所需的样本量成反比,利用r这种衡量方法更方便。本文从材料选择、群体结构、标记类型、统计分析方法等方面对关联作图在植物育种中的研究现状进行综述。

2

2

2

1关联分析与传统连锁分析的不同

许多农业上或进化中重要的复杂性状的表型

环变异都受多个QTLs及它们之间的相互作用、境以及QTLs和环境间相互作用的影响。连锁分

析和关联作图是最常用的分解复杂性状的工具,两者的不同主要表现在:

第一,连锁分析只能将QTL定位到10~20cM的区间内。虽然到目前许多连锁分析已经在各种植物中完成,但只有有限数目的QTLs被克隆或在基因水平上被标记。而关联作图可以通过在群体水平使用历史和进化过程中的重组事件而将复杂的性状变异分解成序列水平上的不同,对于具有更小效应的基因,关联分析的发现能力比连锁分析高得多。

第二,关联分析能够利用自然群体的遗传多样性将复杂性状变异进行分解。传统的连锁分析利用的是父母本杂交产生的试验群体,只提供了关于性状的有限信息,得到的结果只局限于相同或相关的群体。而关联作图应用的种质基础非常广泛,它在育种品系、地方品种或自然群体的样本中定位QTL的能力对于未来的性状改良和种质安全非常具有潜力。对于开发自然多态性,高代回交QTL(AB-QTL)和基因渗入文库(IL)是从外缘种质中开发等位基因的有效策略,有利于提高作物的产量、适应性、品质和营养价值。关联作图作为AB-QTL和IL的有效补充,是对每一作

收稿日期:2011-05-12;修回日期:2012-02-19

“优质高产多抗大豆新品种培育”基金项目:山东省农业良种工程项目

作者简介:王彩洁(1972-),女,副研究员,主要从事大豆育种工作。E-mail:[email protected]

第6期王彩洁等:关联分析在植物育种中的应用现状33

物进行大规模功能多样性评价的有效附加工具。

第三,统计分析方法不同。传统的连锁作图方法包括单标记分析、区间作图、复合区间作图和贝叶斯区间作图,都已在植物中得到了很好的发展和验证。与之相比,在关联作图方法研究上所做的努力还远远不够。关联作图中不同的基因型具有不同的地理来源、育种历史和对地方的适应

其所具有的群体结构带来的假阳性问题长期性,

以来一直是关联作图的一个障碍。最近提出的几

——SA种解决群体结构和家族相关的统计方法—(structuredassociation)、GC(genomiccontrol)、混

合模式和主成分分析方法,能够利用全基因组随机标记产生的基因型信息通过完全的或特定的调节来估计关联研究中的遗传相关,从而解决了由群体结构产生的假阳性问题。

概括起来讲,关联作图作为连锁分析的可替代方法,具有以下三个优点:①提高作图分辨率,②减少研究时间,③具有更大的等位基因数目。自从被引入植物研究以来,关联作图由于在高通量基因组技术上的进展、鉴定新的优异等位基因的影响及统计方法上的改良而愈发受到关注。我们可以利用连锁分析初步定位控制目标性状等位基因的位置,再利用关联分析快速对目标基因进行精细定位,并针对特定候选基因提供大量信息,验证候选基因功能。

关联分析一般包括5个步骤:种质选择、群体结构的估计、性状测量、候选多样性鉴定、统计分析。

体。对种质库而言,核心种质代表大多数遗传变

异,适合进行遗传研究;选用的优异材料样本需由品系和对照组成;合成群体中的评价个体也应该是关联个体。下面将它们作为关联分析试验材料的潜力和限制做一比较2.1种质库种质

[1]

代表一个物种遗传多样性的样本,由于包含广泛的等位基因多态性对关联分析研究非常具有

吸引力。选择核心种质的方法通常用于对不连锁的标记进行基因型分析,以计算遗传距离,并由此提供关于群体结构的信息。选择具有最大变异的最小样本有利于减小群体结构和不连锁位点的LD,从而能更好地进行关联分析。利用这类材料进行关联分析的困难在于样本内的遗传异质性。地方品种和自然群体通常由开放授粉的品种或混合基因型组成,在进行DNA提取、基因型和表型设计时必须考虑这方面因素。核心种质是对部分数量性状(病害抗性、品质特性等)以及驯化相关性状(休眠性、落粒性及开花类型等)进行关联分析的有用材料。但另一方面,广泛的遗传变异也使得这些种质不适合用于某些数量性状的关联分析,主要是因为它们之中的部分品系由于对生长条件和流行性病害的不适应导致表型测量很不精确。核心种质的关联分析可能要求候选基因或主要QTL定位到狭小的置信区间内。同以连锁为基础的精细作图和图位克隆相比,关联分析方法拥有同时探测有用等位基因效应和筛选种质的好处。2.2

优良品系和品种

对产量及其构成因素、非生物胁迫的抗性等遗传力低的性状进行关联分析时,优良品系是更合适的材料,因为它们遗传稳定、对正常生长条件具有很好的适应性。在育种过程中积累的大量优良品系和品种的表型数据资料,都是多年多点田间重复试验的结果,利用这些数据进行关联分析时需要合适的统计模式以解释试验设计和多基因效应的产生。但由于每年的田间试验中经常会除去一些品系、加进一些新品系,因此,这些数据资料通常是不平衡的。但混合效应模式的最大似然法可以从这些不平衡的数据中产生等位基因效应最小效应的无偏估计,并且考虑到了数据结构的相关,曾被用来分析植株高度、疾病抗性、玉米籽

2关联分析对物种和种质材料的要求

种质材料的选择对于关联分析是至关重要

的。遗传多样性、基因组范围的连锁不平衡程度、群体内相关决定了作图分辨率、标记密度、统计方法、作图能力等。总的来说,适合关联研究的植物群体可以分成5类:①具有微小的群体结构和家族相关的理想样本;②多家族样本;③具有群体结构的样本;④具有群体结构和家族相关的样本;⑤具有严重群体结构和家族相关的样本。由于对当地的适应性、选择和育种历史等原因,关联作图的许多群体都可以被归到④类。

在植物育种中进行关联分析时用到的群体主要有三种:收集的种质库、优异育种材料和合成群

34山东农业科学第44卷

粒水分和小麦籽粒大小及磨粉品质,是一种有效的方法。

优良品系的群体结构通常是显著的,因为它们往往是紧密相关的。如果能够知道系谱,就可以确定这些品系之间的关系进而控制多基因效应。在这种情况下通过不连锁的标记估计群体结构通常是不必要的。

一个典型的优良植物育种基因库来源于有限

LD在这并且经历了强烈的选择,因此,几个祖先,

种材料中常常是很高的。虽然同父母本的QTL

分析相比,利用这些品系进行的关联分析并未带来分辨率的很大提高,但至少有两大优点:足够高的多态性水平和直接在大群体中探测有利等位基因。2.3

合成群体

合成群体的群体结构是轻微的或者不存在的,这是利用合成群体进行关联分析的重要优点。如果试验材料代表单一交配群体,关联分析的力量将是最大的,假关联的风险将是最低的;反之,由于开花时间、植株高度和其他性状的不同,群体结构仍然会发生。育种群体所有阶段的基因型信息通常都是有用的,不仅在选择父母本以形成群体时要在高农艺性状均值和高等位基因变异之间尽量取得协调,而且在随后的循环中还可通过不连锁的标记对样本进行基因型分析,以监控等位基因多样性、有效群体大小及群体结构等的变化。合成群体的等位基因多样性依赖于亲本数目、差异程度以及选择强度。遗传多样性也可以通过其他方式表达,等位基因数目Ae=1/∑pi,pi是等位基因i的频率;从不连锁标记LD(r2)的估计可以得出大约的有效群体大小Ne=1/(2r2),减少有效群体大小可引起遗传漂变。在合成群体中,起始几代的连锁不平衡水平很高,因此基因组扫描能探测到大的染色体片段与性状关联,并追溯到父母本的单倍型;在随后的几代中,重组产生的LD衰减,更有利于精细作图。但是合成群体经常遭受轮回选择,强烈的选择将有力的等位基因聚合在一起或增加遗传漂变而建立起LD,因此,经受轻微选择或无选择的群体更有利于关联分析。若性状评估精确时,选择可以以表型为基础,同标记之间的关联可以得以建立;但当田间试验不能得到精确的数据时,选择就会较多

2

地依赖于基因型数据。在合成群体选择中,就需

要更深入的基因型分析,因为在每一循环中都需要检测新的后代个体以了解群体的状态和标记辅助选择的情况。另一方面群体信息是一个多年的积累,允许对育种者感兴趣的性状进行渐进地精

[2]

确地遗传分析。

3群体结构的估计

在进行关联分析时,一个必需考虑和解决的问题是群体的结构。因为群体结构会增加染色体间的连锁不平衡性,使目的性状与不相关的基因座间表现出关联,即造成伪关联,可能会导致作图错误

[3]

。群体结构指的是一个群体内亚群存在

的情况。亚群的混合使整个群体的LD强度增强,可能导致基因多态性位点与性状的相关性并非由功能性等位基因引起,从而提供假阳性结果。解决这一问题的办法是在假设群体结构对基因组所有基因座影响相同的情况下,选出一定数量的与目的基因座不连锁的分子标记,去检测它们间是否存在关联性,并予以矫正。如果群体中出现明显的分组现象,则在每个亚群中分别进行关联分析,亚群间结果还可以互相验证,删除一些亲缘关系很近的姊妹系,使群体达到平衡。评价群体结构所需要的标记数目,如果使用SSR标记通常大于100个,如果是双等位的SNP标记,需要的标记数目会更大,这主要依赖于亚群分化的程度

[4]

目前已发展了多种统计方法对不同群体结构进行统计上的控制。可以使用贝叶斯分析方法使群体数量化,使用不连锁的标记将个体分配到不同亚群间。其他多变量的统计分析,如聚类(clustering)、排列(scaling)都可以用来分析群体结构。育种群体中个体间的关系可以通过以下方式决定:以标记为基础的个体间同源相同(identi-tybydescent)的估计;由相关个体间协方差产生的亲本系数;或者2种类型的分析同时进行

[5]

4关联作图的背景标记

在关联研究中,一套不连锁的、选择中性的、

覆盖整个基因组的背景标记是非常有用的,有利于将个体遗传组成特征化。根据背景标记,可以将个体分配到相应的群体,并且在群体结构存在

第6期王彩洁等:关联分析在植物育种中的应用现状35

的情况下可以阻止假关联的产生,背景标记还可以估计亲缘关系和自交程度。RAPD和AFLP虽然可以作为背景标记,但由于是显性遗传,用来估计群体遗传参数时需要特殊的统计方法。而共显SNP在估计群体结构和血性的微卫星或者SSR、缘关系矩阵时更具优势。

由于SSR标记是多等位基因的、可重复的、以PCR为基础的并且选择中性的,因此在血缘和群体研究中是一种占支配地位的分子标记。半自动化系统的存在为多元化探测和将以荧光标记为基础的SSR产品大小化提供了非常有利的条件,因此将极大地增加探测等位基因大小的精确性和基因型的能力。另外,也有研究认为SSR标记在跟踪群体结构方面比SNP标记更有效。

由于具有高的基因组密度、低的突变频率和SNP成为复杂对高通量探测系统的良好服从性,

性状分解研究的分子标记选择。一种特殊的基因型技术的选择不但依靠SNP标记的数目而且也要看将被分析的个体。SNP每代每点的突变频率比SSR每代的突变率低好几倍,因此,在某一个具体位点,由于SNP的双等位基因性,它比多等位的SSR的信息含量低,这样在许多作物中估计群体结构和相关时与SSR相比需要更多的SNP背景标记。但这不应被认为是SNP的缺点,因为SNP在整个基因组的分布非常广泛并且比SSR分析便宜许多。

最近的研究发现,在人类基因组中存在许多,即单倍的块状区域,一般称为“haplotypeblock”域。仅通过少数遗传标记就可以识别单倍域中的大部分单倍型,这些遗传标记被称为单倍型标签位点。其中大部分是SNP,称为htSNP,即单倍型标签SNP。因为不必对某区域内所有位点进行分型就可以推测出该区域大部分位点的个体类型,所以单倍型标签位点对关联分析极为有用。识别和使用单倍型标签SNP将极大地促进在全基因组范围内对复杂性状进行关联研究

[6]

5关联作图的表型分析

确定研究的表型是研究设计中的首要问题。

研究表型的选择应当尽量遵照以下原则:第一,选择遗传度较高的表型;第二,选择测量简单、准确的数量表型。5.1

田间设计

表型分析从未受到像基因型分析那样的重视,当基因型分析的能力和精准性都大幅提高的时候,在大规模的关联作图过程中想得到足够的表型数据仍然非常困难,搜集多年、多点具有足够重复的表型数据更是一种挑战。不完全区组排列、恰当的统计方法并且考虑到QTL与环境互作的这样一种有效的田间设计应当被开发以提高作图能力,尤其是在田间条件不很一致的情况下。这类研究非常具有挑战性,因为直接的凭经验的田间设计需要同质的田间条件在不同水平下的广泛研究,并且需要遗传学家和统计学家通力协作

[7]

由于关联作图的多样性,考虑开花时间对其他相关性状的表达影响是至关重要的。如果感兴趣的性状依靠发育转变,就可以通过开花时间来阻止田间试验。其他需要考虑的表型包括光周期敏感性、倒伏以及对流行性病原菌的易感性,主要是因为这些性状能够影响其他农艺或形态性状的

[8]

测量。5.2

数据收集

高质量的表型数据收集是遗传作图研究的基本要求。关联作图是长期的工程,表型数据通常是多年多点获得的,在这种情况下,任何新发现的候选基因多态性都可以同已存的表型数据进行关联验证。如果原本的关联作图是通过对其他复杂性状的评估以及足够的表型数据的收集构建的,那么从候选基因到全基因组的转变就会非常顺利。为保证从广泛的试验中得到高质量的数据,并且应该对每位研究者负责的试验质量进行评估。试验具体的信息,如对照表现和环境生长条件,都应该包括在性状数据库中作为对试验的注释。在已建立的程序中,条形码系统和以扫描仪为基础的数据收集极大地方便了数据搜集进程。对关联作图中大项目的数据储存和生物信息学研究,不同的模式已经建立,包括玉米多样性研

。Zhang等

创建了运用动态规划寻找标签SNP的方法,并证明利用标签SNP进行关联分析确实能在统计效力损失很少的情况下大幅度减少分型工作量。这项研究再次表明基于单倍型的关联分析具有比传统的单个遗传标记的关联分析更强的统计效力。

36山东农业科学第44卷

究组的基因组多样性和表型数据模式计划,及大

[9]

麦CAP工程使用的发芽计划。步的统计分析中。修改后的具有逻辑斯蒂克回归的SA已在某些关联研究中使用过,其全面线性模式版本在软件TASSEL中可以得到

[11]

6研究设计类型

考虑到研究的成本、基因分型的成本以及研

究的把握度等方面的因素,关联分析的研究设计目前分为单个阶段(One-stagedesign)、两个阶段(Two-stagedesign)或多个阶段研究设计(Multiple-stagedesign)。6.1

单个阶段研究

即选择了足够样本后,在所有研究对象中一次性对所有选中的SNP进行基因分型。然后分析每个SNP与性状的关联,分别计算关联强度和OR值。该设计的最大缺陷在于基因分型耗资巨大。为节约基因分型的数量和成本,两阶段研究正在被越来越多的研究者所采用。6.2

两阶段或多阶段研究

第一阶段先在小样本中对全基因组范围选择的所有SNP进行基因分型,统计分析后筛选出较少数量的阳性SNPs;第二阶段在更大的样本中对筛选出的阳性SNPs进行基因分型,然后结合两个阶段的结果进行分析。第一阶段的基因分型可以以个体为单位,也可以是以DNApool为单位,而后者可大大降低基因分型的工作量。已有多项研究证明采用DNApool结合Affymatrix微阵列试剂盒可以低成本、高效益地进行SNP的筛[10]选。

最近发展出了一种统一的混合模式的关联作

[12]

图方法,可以用来说明多水平的相关。在该方法中,随机标记被用来估计群体结构(Q)和血缘关系矩阵(K),然后将它们代入混合模式框架验证标记—性状的关联。这种混合模式方法跨过了以家族和以群体为基础样本的界限,是对当前关联作图可获得方法的一个有力补充。

主成分分析已经在遗传多样性分析中得到了长时间应用,最近作为一种快的、有效的方式被用来诊断群体结构。主成分分析能够将在所有标记中观察到的变异总结成小数目的基本组分变异,这些主成分与分离的、无法观察的亚群体有关。每一个主成分中的每一个个体的装载描述了群体的成员资格或者每一个成员的祖先。用主成分分析代替混合模式中的Q已显示出某些发展前景,但需要增加额外的研究来建立对作物物种的适合性。

Pritchard等建立了一种统计方法,可将群体结构的估计直接合并到关联分析试验的统计中。这种方法能使研究者将分辨率从20cM的区域提高到单基因水平。7.2

样本大小和背景标记的数目

在许多植物连锁分析研究中样本大小一般包括250个个体,它们具有同质的、双父母本遗传背景。在关联作图中,遗传变异通常比连锁群体的大很多,如果功能位点不具有大的效应以及在该位点测验的标记不是处于高度的连锁不平衡,那么在一个小群体中鉴定标记—性状的关联将很困难,无论使用的是候选基因还是全基因组扫描的方法。用经验式玉米数据进行初步模拟结果显示,为增加探测到中等大小遗传效应的能力需要

[7]

大的样本。

确定精确估计遗传关系所需的背景标记的数目是一个常见的问题,这在候选基因关联作图研究中也是需要说明的。双等位基因的SNP比多等位基因的SSR所需的标记数目高许多。某一物种所需的SSR标记的数目大约是该物种染色体数目的4倍,每一染色体臂上大约是2个标记。当然,染色体的长度、物种和样本的多样性以及标

7

7.1

关联作图的统计分析

方法

关联分析基本的统计方法包括线性回归、方

t检验和χ2检验。对于因群体差分析(ANOVA)、

结构产生假阳性的问题,需要设计不同的统计方

法来解决。传递不平衡检验(TDT)被用来研究人类疾病的遗传基础,而数量传递不平衡检验(QT-DT)被用来对数量性状进行分解。GC(genomiccontrol)和SA(structuredassociation)是人类和植物关联研究中两种最常用的方法。所谓GC,就是在假定群体结构对所有位点都具有相似效应的基础上,使用一套随机标记来估计测验统计学被群体结构膨胀的程度。而SA是先使用一套随机标记来估计群体结构,然后把这种估计应用到进一

第6期王彩洁等:关联分析在植物育种中的应用现状37

记系统的花费和可获得性都会影响在研究中背景标记使用的数目。

LD在关联分析中起核心作用,另外,因此覆盖整个基因组的标记数目由连锁不平衡程度决

LD延伸的距离决定关联分析中标记的数目和定,

密度。对基因座间连锁不平衡性较低的染色体区段,在进行关联分析时需要检测较多的分子标记,但极易找到与靶基因(或QTL基因座)紧密连锁的标记,从而实现关联分析的精确作图。反之,在连锁不平衡性高的基因组区段,可能只需检测很少的标记就可以找到与目标基因座相关联的标记,但是却很难找到与目标基因座紧密连锁的标记,因此,作图效果反而不会太理想。因此,异花授粉植物的关联分析效果要普遍好于自花授粉植[13]物,只是作图时,异交作物需要检测更多的分子标记。例如,玉米必须保证每100~200bp检测一个SNP,而拟南芥只需每50kb一个多态性标记即可。7.3软件

有许多软件包可供关联作图数据分析使用。TASSEL是植物关联作图中经常使用的软件,可以随着新方法的发展不断更新。TASSEL也被用来计算、绘图以及浏览和输入基因型和表型数

[14]

据。而STRUCTURE软件则是典型用来估计Q的,Q是一个n×p矩阵,n是个体数目,p是亚群体数目。SPAGeDi软件是用来估计个体中的K

个挑战。除了454GSFLX和Illumina1GGenomeAnalyzer,其他平行的测序平台像AppliedBio-sytems’SupportedOligonucleotideLigationandDe-tectionSystem(SOLiD)和HelicosBioSciences’HeliScope也即将完成并投入市场。随着在序列读取长度和精确性上的提高,尤其是随着每Mb测序花费的继续下降,在基因型分析中的应用会变得非常常见。

目前已经开发了两种新的方法,能够显著提高目标基因测序的效率。第一种方法与多基因扩增和大规模平行测序相结合,利用选择器技术以一种高度多元的、目标特殊的方式扩增候选基因,该技术花费非常低,并且与整个基因组程序相比在靶区具有更大的序列测量深度,适合特殊基因组区域的重新测序。第二种方法与以阵列为基础的杂交和非常高的测序能力结合。在这种方法中,设计高密度的寡脱氧核苷酸阵列来捕捉基因组中的特定片段,杂交之后,捕捉到的片段被进一步洗脱并再加工成适合高通量测序分析的小片[16]段。

当前,科研团体正致力于发展一种新的技术,它对与整个哺乳动物基因组大小相似的序列进行重新测序只需1000美金。如果这种具有纪念意义的技术可以完成,那么接下来的问题就是在作物关联研究中如何将千百万的基因组序列进行编目和统计分析。8.2

基因组扫描和候选基因关联分析

当前的关联分析包括全基因组扫描和候选基因关联。全基因组扫描需要一定密度的SNP标记,而候选基因关联分析只涉及候选基因序列。这两种方法的成功依赖于群体的大小和LD程度,全基因组扫描在具有中度到高度LD物种中通常非常有用,而候选基因关联作图在具有低LD的物种中更有效。

随着基因组技术的进一步发展,我们肯定希望看到在不同的植物物种中更多的基因组范围的关联分析得以完成,但到目前为止,候选基因关联研究只搜寻了基因组的一小部分,且关于候选基

具有高密度因关联作图成功的结果很少。因此,

的SNP覆盖度、大的样本、小的群体结构的关联

研究在复杂性状的分解上非常具有前景。这对于以候选基因测序和背景标记为起始的研究组来

K是一个n×n矩阵,的,其对角线以外的元素是Fij,是以标记为基础的个体统一性的估计。K矩0.5×(1+Fx)表阵对角线上的元素1表示自交,示非自交个体,其中Fx表示自交系数。EINGEN-STRAT软件用来估计标记数据的PC,修正群体层化的试验统计结果。其它在关联作图中经常使用的软件还有Merlin和QTDT。SAS或R软件通常被编程者作为发展不同方法的平台来使用。ASREML和MTDFREML是在个体非常多的情况下在动物遗传混合模式数据分析中经常使用的两个软件包。

[15]

8

8.1

前景

测序和基因型分析

下一代测序技术平台的到来对于现在占支配

地位的以sanger为基础的毛细管测序技术将是一

38山东农业科学第44卷

说,将会对群体结构、家族相关、核苷酸多样性、LD衰退以及关联作图的其他方面有更深刻的理解。候选基因方法能否成功的另一原因在于候选基因的选择方式。许多候选基因是通过突变型和野生型的比较发现的,这些位点自然发生的效应我们并不理解,即使功能基因的丧失产生显著的表型变异,我们也只能期望温和的突变对表型产生中等的效应。而这些变化在关联作图群体中是能够发现的。

8.3巢式关联作图(nestedassociationmapping,NAM)

Yu等[17]发展了一种巢式关联作图(NAM)的方法,能够将关联作图和连锁分析整合在一起并充分利用两者的优点,从而提高作图分辨率而不需要过浓的标记密度。他们通过计算机模拟展示了NAM在基因组扫描方面的强大力量,通过将遗传设计、自然多态性和基因组技术整合在一起,这种新的分解复杂性状的策略能够更加有效地将复杂性状的表型变异和分子变异联系起来。NAM的程序如下:①选择不同的奠基者,发展一套相关联的作图后代;②完全测序或者将奠基者进行高密度的基因型分析;③将奠基者及后代利用小数目的目标标记进行基因型分析以界定染色体片段和设计高密度的标记信息;④将后代的复杂性状进行表型分析;⑤利用设计好的高密度的标记对后代进行相关表型的全基因组的关联分析。NAM具有对遗传异质性低的敏感度和在使用基因组序列、高密度标记上的高能力、高效率的优点,并且由于使用多个奠基者还具有高等位基因丰富度的特点。在NAM中,连锁分析的设计作图群体和关联作图的高分辨率的优点通过发展大的不同奠基者的RIL群体而结合到一起。

Lou与Yu的想法相同,利用增加数据方法和EM运算法则,提出了以似然法为基础的方法,将连锁分析和关联分析组合在一起形成了统一的框架,认为该方法的特点是:第一,比以家族为基础的关联试验或传统的连锁分析具有更强的能力;第二,不管关联是否存在都能对遗传参数进行无偏估计,矫正了在关联存在的情况下传统连锁分析的偏差和低精确度;第三,能够单独鉴定紧密连锁。将分离、连锁、关联分析组成一个复合的作图策略,能够捕获遗传结构的两个互补方面。对连

锁而言,是适应于LD数量的LOD值法;当LD真

正存在时可以利用它,当LD很弱或不存在时,又退回到标准的LOD方法;另一方面,这又是一种整合了系谱单倍型分析的关联研究。

NAM在分解数量在连锁不平衡低的物种中,

性状遗传基础方面是一个更好的方法,这在玉米中已经得到了证明。对于其他作物,可以根据可获得的资源、大群体RIL创建及表型测量的难易和LD的水平来决定选择何种遗传设计。

9结语

,关联分析也存在作图“盲区”对遗传多样性偏低群体的作图效果不如QTL作图,因此植物遗传学家不应该完全抛弃连锁作图,只赞成关联作[18]

图。关联分析相对于连锁分析的成功,具有物种特异性和群体特异性。举例来说,对于具有低遗传多样性的物种,连锁分析要优于关联分析,在这种情况下,即使是最好的种质搜集也不可能包含足够的多样性以弥补统计能力的损失。尽管关联分析在遗传分析中起着很关键的作用,它也只是许多有价值的方法之一,理想的分析方法应该是连锁和关联分析的结合。

献:

[1]ZhuCS,GoreM,BucklerES,etal.Statusandprospectsof

associationmappinginplants[J].ThePlantGenome,2008,1(1):15-20.

[2]DoergeRW.Mappingandanalysisofquantitativetraitlociin

experimentalpopulations[J].Nat.Rev.Genet.,2002,3:43-52.

[3]Flint-GarciaSA,ThornsberryJM,BucklerⅣES,etal.

Structureoflinkagedisequilibriuminplants[J].Annu.Rev.PlantBiol.,2003,54:357-374.

[4]PritchardJK,StephensM,DonnellyP.Inferenceofpopula-tionstructureusingmultilocusgenotypedata[J].Genetics,2000,155:945-959.

[5]FalushD,StephensM,PritchardJK.Inferenceofpopulation

structureusingmultilocusgenotypedata:Linkedlociandcorre-latedallelefrequencies[J].Genetics,2003,164:1567-1587.[6]

KuiZ,CalabreseP,NordborgM,etal.Haplotypeblockstructureanditsapplicationstoassociationstudies:Powerandstudydesigns[J].Am.J.Hum.Genet.,2002,71:1386-1391.

[7]WangWYS,BarrattBJ,ClaytonDG,etal.Genome-wide

associationstudies:Theoreticalandpracticalconcerns[J].Nat.2005,6(2):109-118.Rev.Genet.,

(下转第62页)

62

献:

山东农业科学第44卷

2005,3:叶绿素荧光指标影响的研究[J].辽宁农业科学,31-32.[12]万

群,熊维全.不同砧木、嫁接方法和遮光处理对黄瓜

.植物生徐.马铃薯遮光处理的效应研究[J]

J].江苏农业科学,2009,4:185-186.嫁接苗的影响[[13]李佩华,彭

2007,23(4):220-225.理科学,

[14]高妍萍,何莉莉,陈俊琴,等.遮光对辣椒果实中辣椒素及

J].华北农学报,2008,23(3):129-132.其相关酶的影响[

[15]秦舒浩,李玲玲.遮光处理对西葫芦幼苗形态特征及光合

2006,17(4):653-生理特性的影响[J].应用生态学报,656.

[16]秦俊芬,邢晓静,刘维信.大葱对遮光处理的形态和生理反

.中国农学通报,2010,26(6):204-207.应[J][17]李[18]何

宁,蒋欣梅,于锡宏.遮光处理对青花菜体内碳、氮代明,张伟春,山

春.遮光和密度对茄子不同耐弱光品

.东北农业大学学报,2008,39(6):33-36.谢的影响[J]

.辽宁农业科学,2002,4:7-8.种生长发育的影响[J]

[19]姜财勇,陈日远,孙光闻,等.遮光和无土栽培方式对红葱

.中国蔬菜,2008,4:24-26.生长及品质的影响[J][20]刘厚诚,黄

琴,陈日远.遮光对芥蓝生长和菜薹产量及品

.华中农业大学学报,2004,Z2:215-218.质的影响[J]

[21]高莉敏,陈运起,于贤昌,等.大葱主要农艺性状的相关与

.山东农业科学,2005,1:25-27.通径分析[J]

[1]陈运起,.北京:中国高莉敏.大葱生产关键技术问答[M]

2007.农业出版社,[2]李

.西北园艺,伟.夏番茄地面覆盖碎麦草效果试验[J]2004,9:13-14.

[3]尹文书,郑满江,翁振健.马铃薯稻田免耕不同覆盖物对产

J].耕作与栽培,2006,6:34.量的影响初报[

[4]王中英,杨佩芳,古润泽,等.秸秆覆盖对黄土高原旱地苹

.中国农业科学,1992,25(5):42-49.果园的影响[J]

[5]刘建新.覆草对果园土壤肥力及苹果产量与品质的影响

[J].干旱地区农业研究,2004,22(1):102-105.

[6]刘建新.覆草对杏园土壤物理性状、肥力及果实产量与品质

.水土保持学报,2004,18(2):183-I85.的影响[J][7]刘建新,王

95.[8]刘厚诚,雷

雨,陈日远.遮光处理对节瓜光合作用特性的

.植物资源与环境学报,2005,14(3):33-36.影响[J]

[9]王丽娟,顾青海,孙世海,等.遮光对番茄生理特性的影响

[J].天津农学院学报,2006,13(3):17-22.

[10]王久兴,阎立英,毛秀杰.遮光对越夏番茄生长及产量的影

.江苏农业科学,2008,1:140-143.响[J]

[11]高绍森,朱延姝,冯

辉.连续遮光对番茄苗期生长发育和

鑫,杨建霞.覆草对果园土壤腐殖质组成和

.水土保持学报,2005,19(4):93-生物学特性的影响[J]

權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權權

[13]HollandJB.Geneticarchitectureofcomplextraitsinplants(上接第38页)

[8]EskridgeKM.Fielddesignandthesearchforquantitativetrait

lociinplants[EB/OL].http://www.stat.colostate.edu/graybillconference2003/Abstracts/Eskridge.html,2008-5-20.

[9]McCarthyMI,AbecasisGR,CardonLR,etal.Genome-

wideassociationstudiesforcomplextraits:356-369.

[10]BreseghelloF,SorrellsME.Associationanalysisasastrategy

forimprovementofquantitativetraitsinplants[J].CropSci.,2006,46:1323-1330.

[11]DevlinB,RoederK.Genomiccontrolforassociationstudies

[J].Biometrics,1999,55:997-1004.

[12]YuJ,PressoirG,BriggsWH,etal.Aunifiedmixed-model

methodforassociationmappingthataccountsformultiplelevelsofrelatedness[J].Nat.Genet.,2006,38:203-208.

consensus,

uncertaintyandchallenges[J].Nat.Rev.Genet.,2008,9:

[J].Curr.Opin.PlantBiol.,2007,10:156-161.[14]BradburyPJ,ZhangZ,KroonDE,etal.TASSEL:Software

forassociationmappingofcomplextraitsindiversesamples[J].Bioinformatics,2007,23:2633-2635.

[15]HardyOJ,VekemansX.SPAGeDi:Aversatilecomputer

programtoanalyzespatialgeneticstructureattheindividualorpopulationlevels[J].Mol.Ecol.Notes,2002,2:618-620.[16]OkouDT,SteinbergKM,MiddleC,etal.Microarray-

basedgenomicselectionforhigh-throughputresequencing[J].Nat.Methods,2007,4:907-909.

[17]YuJ,HollandJB,McMullenMD,etal.Geneticdesignand

statisticalpowerofnestedassociationmappinginmaize[J].Genet.,2008,178:539-551.

[18]GuptaPK,RustgiS,etal.Linkagedisequilibriumand

associationstudiesinhigherplants:Presentstatusandfutureprospects[J].PlantMol.Biol.,2005,57:461-485.


相关内容

  • (强烈推荐)现代农业主题研究报告
  • (此文档为word 格式,下载后您可任意编辑修改!) 国家高技术研究发展计划(863计划) 现代农业技术主题战略目标论证报告 主题名称:现代农业技术 所属领域:生物与现代农业技术 编报日期:二○○一年七月十七日 一.概要 当前,我国农业已进入新的发展阶段,正面临着由传统农业向现代农 业转变,由计划经 ...

  • 中国农业市场运行态势分析报告
  • 中国市场调研在线 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性的思路和参考. 一份有价值的行业研究报告,可以完成对行业系统 ...

  • [蔬菜育种学]教案
  • <蔬菜育种学>教案 第一章 绪论 一.学时:2学时 二.教学目的: 本章介绍蔬菜育种学的概念.主要内容,以及我国蔬菜育种取得的成就,使学生掌握育种学.品种.无性系.良种的概念,熟悉蔬菜育种学的研究任务.蔬菜育种的目标,了解蔬菜育种的发展趋势. 三.主要内容: 1.蔬菜及蔬菜育种学的概念 ...

  • 太空育种的伦理思考
  • 2010年7月第23卷第4期 保定学院学报 JOURNALOFBAODINGUNIVERSITY Jul.,2010 VoL23No.4 太空育种的伦理思考 王景胜,陈佳琪 (渤海大学政法学院,辽宁锦州121000) 摘要:太空育种是一项高科技.高投入.高产出的技术,发展和运用太空育种技术有利于人类 ...

  • 我国花卉育种现状与发展策略
  • 种子 Seed 2002年 第5期 (总第125期 ) 分裂, 产生大量愈伤组织, 随后由愈伤组织分化形成不定芽再发育成幼苗.M adhu ri Sharon 等将原球茎一特定部位处作划伤处理, 未划伤的作对照, 结果发现划伤的原球基形成大量愈伤组织而对照直接形成完整小植株.陈进勇等认为原球茎表面产 ...

  • 人工诱变技术在药用植物育种中的应用与展望
  • 中草药 ChineseTraditionalandHerbalDrugs 第37卷第7期2006年7月 药材和药用植物原料需要,黄檗的社会需求量却在迅速增加.大力促进黄檗的人工栽培,既能缓解对现有森林资源的破坏压力,又可提高药用植物原料的供给能力和效率.References: [1] ZhouZ,C ...

  • 大学生开题报告(1)
  • 长江大学 毕业论文开题报告 题 目 名 称 不同硬果型番茄品种比较试验 题 目 类 别 毕 业 论 文 学 院(系) 园 艺 园 林 学 院 专 业 班 级 园艺职30902班 学 生 姓 名 江 小 强 指 导 教 师 饶 贵 珍 开题报告日期 2012年11月11日 不同硬果型番茄品种比较试验 ...

  • 马铃薯组织培养
  • 马铃薯组织培养研究进展 Potato tissue culture research progress 07级 生物工程 何丽芳 摘要:当马铃薯组织脱毒培养, 愈伤组织解除分化形成新个体时, 体细胞有丝分裂的异染色质延迟复制行为较正常活体植株更严重, 后代变异较自然群体变异高出500 倍,若在培养过 ...

  • 生物教育专业本科毕业论文设计参考题目
  • 生物教育专业本科毕业论文参考题目 一. 分子生物学 1. 参考文献:遗传工程学报.微生物学通报.生物化学与生物物理学 进展.生物学通报及分子生物学与基因工程的相关书籍与资料. 2. 题目: (1)酶制剂在基因工程中的应用 (2)核酸的变性.复性与分子杂交 (3)DNA 分子结构研究的新进展 (4)病 ...