莱州市金海种业有限公司玉米种子小麦种子脱毒甘薯种苗

博文精选

您现在的位置：首页 > 博文精选

如何理解杂种优势群及数值系谱

发布时间：2012-04-02 点击次数：20336

————摘自张世煌

网友“平凡是福”在他的博客上把我们2007年11月8日上传的187份自交系的数值系谱与2010年1月8日上传的375份自交系的数值系谱做了比较。发现有很多差异，表示不太理解。他比较了19对常见自交系，最后两对自交系非常典型。我下面用他最后一张表来对这个问题进行讨论。

	PA	Reid（Bsss）	LRC	PB	Lan	SPT	A	B
B73	0.077	0.796	0.058	0.008	0.007	0.054	0.931	0.069
B73	0.002	0.992	0.003	0.001	0.001	0.001	0.997	0.003
沈5003	0.844	0.041	0.014	0.065	0.019	0.016	0.899	0.101
沈5003	0.004	0.981	0.004	0.002	0.007	0.002	0.989	0.011

我的答复如下：

这些结果不是很好么？比较这些结果，启示我们对杂种优势群不要做绝对化理解，对两次实验所划分的杂种优势群首先要看它们的方向是否一致，然后再看一致性的程度。这些是相对的概念。一些玩分子标记的玉米“育种者”（包括博导和专家）理解不了分子标记的这层含义，有个别人更把SSR标记与种质的关系绝对化，甚至同性状对应起来。更有甚者说先玉335的母本含有昌7-2血统，那是毫无道理的张狂和哗众取宠。虽然PH6WC很像是紧凑型自交系，但基本种质属于SS。现在，越来越多的研究生对SSR分子标记的理解已经不再绝对化，这些年确实前进了不少。当然，这和普遍采用SNP新技术分不开。但即使采用SNP技术，自交系的DNA结构仍然是相对概念。最终判断异同，还是要靠统计，靠概率。

我们要记住，虽然被称作“基因”，但绝大多数SSR标记没有育种学上所理解的那种遗传学含义。它们大多存在于紧邻结构基因附近的重复序列里，而不在结构基因里。所以只是连锁标记。就好像某人脸上有一颗痣，那只是他的一个标记。不等于说在下巴上有痣的就一定姓毛。姓毛的不一定都有那颗痣。至少儿孙就没有。玉米中大量存在简单重复序列，这些序列可能有多态性变化，于是可以通过许多这样的变异组合来定义一个自交系的特征指纹。我们在这里用中国育种者所熟悉的那6个种质分别代表遗传结构的符号，这些记号是相对的，那是对实验数据做过统计分析之后，根据每一组自交系的种质集中程度人为加上去的符号。如果我用1，2，3，4，5，6代表那6个种质类群，最后归纳成两个符号，就成了A和B。1-6有种质意义，但A和B更有育种价值。现在，我们面前有SS、PA、旅大红骨种质，还有PA、Lan和四平头种质。今后还会面对许许多多类似这样的“新种质”，也许有一两百个之多，但归纳成SS×NSS这个杂种优势模式以后，更有育种学价值。

要理解这一段话需要费些脑筋，至少有那么一伙人至今想不明白。有的人离开了北京市农科院，到别处去了，还是没想明白。前面那个说先玉335的母本含有昌7-2血统的人，其实是把自己没有做过、从别人那里自然而然接受过来的分析思路与结果，以及前述的定性过程都当成了理所当然的绝对真理。他的思维方式是先设定一个结论，然后解释数据。还有从我这里出去的学生到了北京市以后也想不明白。他们以研究玉米自交系的DNA分子“指纹”自居，却理解不了指纹特征的含义。还说根据SSR标记制定玉米DUS测试指南是受我的启发，简直乱弹琴，这是把他自己的帽子扣在别人头上。

我在以前的博客日志中解释过，这是70个375×375的庞大矩阵衍生的更庞大矩阵海量运算的结果。对那187个自交系而言，两批运算条件不同，结果会有微小差异，但基本方向不会有大的变动。什么是条件呢？几十万个数据组成的矩阵，有一点点变化，整个运算条件就变了。何况第一次是187个自交系，第二次是375个自交系，你说这两个不同矩阵的运算条件该有多么大的变化？第二次增加的任何自交系都会对第一次那187个自交系数据的运算过程产生影响。如果在做分子标记分析的时候，增加了SSR引物的数量，运算的结果就更会有些差异。类似这种情况经常发生在不同实验设计的产量配合力分析过程中。在你们头脑里想得比较多的总是线性方程，而这里的计算方法却是非线性的。尽管矩阵的数据差异这么大，两次运算结果却惊人的一致，那不是很好的结果吗？

为什么说这里的结果很好呢？我们可以想象一下，如果用一个骨干自交系，譬如黄早四参加不同的实验设计，经过田间试验获得数据，计算出来的一般配合力会千差万别，甚至连方向都可能是相反的。我们在阅读文献的时候经常遇到这种情况却熟视无睹，那是因为我们能够理解数量遗传学参数和田间试验的关系与特点。而这里分子遗传距离的微小差异却引起不理解，可能折射出我们对分子试验结果陷入了绝对化思维。所以，我们需要再强调一次，分子标记分析的个例都是精确的，但由此集合而成的数据要做海量的统计分析才能判断自交系之间的关系，那可不是精确的，而只是定性结果。

正因为这一点，有人跟我抬杠，说只有把每一个玉米自交系的DNA结构都搞清楚了（全基因组测序）才能正确划分杂种优势群。但我要告诉他，即使把所有自交系的DNA结构分析出来了，也只是一堆数据的集合，还是需要统计分析，才能得出相对和抽象的结果。SS和NSS就是抽象，如果A和B那更是抽象。

这里，我们不妨理解为矢量。判断一维线性方向的标准是50%。B73那个自交系，两次运算的结果，A分别是93%和99%，而沈5003的A成分是90%和99%。不但方向完全一致，而且指向的程度很接近。在另一个表里面，黄早四的A成分分别是1.4%和0.6%，这是极好的结果。丹340是一个内在变异特别丰富的自交系，但我们两次分析的结果却惊人地相似，分别是91%和99%。两次试验分析了5个掖478样本，一个样本的A成分88%，4个样本在99%以上，平均97%，说明数据和结果的集中度都非常高。

两次分析沈5003的PA和SS成分恰好颠倒，但我们已经用多个试验数据的计算方法证明，中国的PA和美国的SS是一个种质。不管PA和SS怎么颠倒，它们是一回事，这里的关键是最后计算A和B的数值和方向一致。

也有两次分析结果差距很大的情况。K12两次运算分别是21%和0.7%，郑58两次结果分别是67%和94%。原因不清楚。没有进一步的试验数据，不好瞎猜。昌7-2两次分析结果差距也不小，分别是12%和1%。但以50%划线，这也算是合理。方向没有错。

塘四平头自交系的结果很有意思，分别是35%和48%，平均41.5%，而黄早四（平均1%）跑到极端去了，这说明黄早四确实是向两边推开进行改良的典范。它与掖478（平均97%，众数99%）均成为典型的标准测验种和很难被继续改良，也许原因就在这里。对比一下美国B73和Mo17的聚类情况，也是从他们的亲本推向两个极端方向，这就容易理解了。(请参阅2011年1月12日中国玉米博客“美国解密自交系聚类图”一文)

用分子标记划分自交系的杂种优势群，与用SCA划分杂种优势群的道理是一样的。后者更可靠，也更贴近育种实践。于是，我们先对分子标记的原始数据作中心化处理，然后聚类分析的结果就更符合SCA的计算结果了。但不同试验室用不同参试材料和在不同条件下做试验，每一次计算的GCA和SCA结果都是很不一样的，取决试验条件。不仅仅是取决于整个试验的基因型（参试材料）组成，还取决于试验环境和条件，那个误差可就更大了去了。但只要方向对就行了。

人，不应该期望得不到的东西。

对这个问题需要引申讨论。郭庆法对大量杂交种进行亲本的数值分析，发现父本和母本的数值方向求代数和，趋向于〇，这表明它们是互补的。而农博士经过对杂交种的数据分析也得到类似的结论，历史上好杂交种的亲本SS-NSS求代数和趋向于〇。这证明了两群论可以用来指导玉米育种。这启示我们，玉米育种的实质就是把种质资源推往两个方向。

这只是从成功的一个方向做出的证明。我们还需要从另外两个方向去证明它。

第一是对进入区域试验的杂交种组合进行类似的验证分析。这一条很难做到。第二是发现和解释SS-NSS远离〇的事件，这一条受很多复杂因素干扰。许多没有通过区域试验或生产上失败的组合可能是由于抗逆性不足，还有许多杂交种虽然获得审定，却包含着没有生产意义的杂种优势效应，这些效应都会干扰对SS-NSS代数和效用的分析。因为品种试验和审定那一边的非科学因素太多，而品种在生产上取得成功还包含许多复杂因素，不可能完全同自交系的SSR数值系谱对应。所以，从成功的方向去揭示一个道理似乎容易，但要从相反的方向去排除对立面和反证成功的事例，却很难。

（本文于2011年2月25日曾经上载本博客。最近作了许多修改，添加了内容，再次上载。）