科学家发现纯数学和遗传学之间的惊人联系-背后的原理

背景

我们经常看到自然界在宏观形态上遵循数学规律, 比如下图春黄菊的头状花序上,小花呈螺旋状排列,从不同方向可以数出21(深蓝)和13(浅蓝)条旋臂,为相邻的斐氏数。类似的螺旋状排列还可见于多种植物。

 

近来,又有研究发现,自然界不只在宏观层面上显示出惊人的数学精确性,在微观的基因层面也同样遵循深刻的数学原理。

 

来自牛津大学、哈佛大学、剑桥大学、古斯特大学、麻省理工学院、帝国理工学院和艾伦图灵研究所的研究人员团队发现,数论中的数字和函数(sums-of-digits function)与遗传学中的一个关键数量指标表型突变稳健性之间存在着深刻的联系。

 

我们知道当一个基因发生突变时,即其DNA/RNA序列发生了变化,这可能导致基因型编码的特徵发生改变,进而影响到相应的表型。然而,有些基因型在面对突变时能够保持不变,即便其序列发生了变异,仍然表现出相同的特徵。这种基因型被认为是基因型稳健的。

举个例子来说明,假设有两个基因型A和B,它们分别编码了不同的眼睛颜色。在正常情况下,基因型A会导致蓝色眼睛,基因型B会导致棕色眼睛。然而,如果发生了突变,比如基因型A发生了变异,则可能导致眼睛颜色变为棕色。在这种情况下,基因型A的稳健性较低,因为其在面对突变时表型发生了改变。而基因型B的稳健性较高,因为即便发生突变,它仍然能够保持表型未变。

本文来讨论尝试解释这个结论背后的原理。

作者的研究思路

概述(TLDR 简化版):

基因突变点之间的可以用汉明图表示,每个可能的基因突变点,可以对应汉明图上一个顶点,突变差异小的,对应着汉明距离近。基因差异达到一定程度会事带来表现型的改变。假设这个差异值是d,也就是汉明距离小于d的两个基因差异,不会有显型差异。 观察这样的图可以知道在图中肯定存在这样的一些点,从这个些点出发,距离在d之内的点数量最大。这些点就是基因突稳健性的最优解。也就是不同显性差异之间可以容纳最多的突变。他们的论文证明了,大自然使用采用的方案与数学证明得到的结果一致。

基因型转换到汉明图

汉明图(Hamming graph)是一种图论中的概念,指的是一类由二进制码字构成的无向图。

在汉明图中,每个节点都由一个二进制码字表示。这些码字的长度相同,且节点之间的边表示两个码字之间的汉明距离是1。汉明距离是指两个等长字符串之间对应位置上不同字符的个数。

举个例子,假设每个二进制码字长度为n。那么汉明图中的每个节点都由n位二进制码字表示。节点之间有一条边,当且仅当它们对应的二进制码字的汉明距离为1时。

汉明图在信息论和计算机科学中具有重要的应用。它可以用于纠错码的设计和分析、DNA序列比对、网络通信和数据压缩等领域。在纠错码中,汉明图可以帮助检测和纠正错误。在DNA序列比对中,汉明图可以帮助找到相似的DNA序列。在网络通信中,汉明图可以用于检测和纠正传输中的错误。在数据压缩中,汉明图可以用于构建压缩算法。

 

 

首先,作者将基因型空间映射到汉明图,其中每个基因型对应一个汉明图的顶点,汉明距离为1的基因型之间连接一条边。这样一来,基因型到表型的映射就变成了汉明图的一个诱导子图。 构建规则:

  1. 基因型图中的每个节点代表一个基因型,比如一个RNA序列。

  2. 汉明图中的每个节点也代表一个基因型。

  3. 如果基因型图中的两个基因型只相差一个碱基,则在汉明图中,这两个基因型对应的节点间有一条边。

  4. 基因型图中的一组基因型(例如编码同一结构的RNA序列)在汉明图中对应一个诱导子图。

  5. 这个诱导子图就表示这个表型的中性集。

  6. 中性集的表型稳健性等于这个诱导子图的平均节点数。

 

诱导子图

诱导子图(induced subgraph)是图论中的一个概念,指的是从一个图中选择部分顶点以及这些顶点之间的所有边,构成的一个子图。

具体而言,在一个图G(V,E)中:

  1. V是图G中的全部顶点集合。

  2. E是图G中的全部边集合。

  3. 若从V中选择一个子集U构成顶点集,并从E中选择U中顶点相关的所有边构成边集F。

  4. 则子图G'(U,F)就是图G的一个诱导子图。

在基因型-表型映射的汉明图中:

  1. 每个顶点代表一个基因型。

  2. 映射到一个表型的所有基因型组成这个表型的中性集。

  3. 中性集可看成汉明图的一个诱导子图。

  4. 这个诱导子图反映了这个表型的突变稳健性等重要性质。

在 汉明图中 求解 砖砌图

然后,作者再将求解最大基因稳健性问题再转化成求解 图论中的砖砌图的问题。砖砌图是按照一定规则在汉明图中选择顶点得到的图。

在编码理论中,砖砌图对应于一种汉明码字集合,这种码字集合的平均误码率是最小的。这是由 Harper 在 1960s 年的工作中提出的。 在图论中,砖砌图是汉明图的一个诱导子图,它的边界最小,即节点到子图外部的边数最少。这意味着砖砌图的稠密程度和连通性是最大的。这一概念是在 Reeves 等人在 2000 年的论文中使用“砖砌图”这个术语提出的。砖砌图的概念源于编码理论和图论领域的早期工作,它反映了码字集合的连通性和图的稠密性等性质。将这一概念应用到基因型-表型映射中表型稳健性的研究,探讨了理论上的稳健性上界。

在汉明图中,作者们证明砖砌图对应的诱导子图的边数最多,也就是鲁棒性最大。

大概求解过程

  1. 汉明图H中所有顶点按照顶点标签的字典序排序,标签为0到2^l-1的整数,每个整数转换为l位二进制数就是其汉明图中的顶点标签。

  2. 从H中选择标签从0到n-1的n个顶点,按照其标签顺序组成顶点集V。

  3. 考虑V中的任意两个顶点u和v,如果在H中存在从u到v的边,则在诱导子图G中也存在这条边。所有这样的边组成边集E。

  4. 然后G=(V,E)就是汉明图H的一个砖砌图,包含n个顶点。

  5. G由编码理论保证,在所有n顶点的H的诱导子图中,G的边数最大。

  6. 通过数位和函数可以计算出G包含的最大边数。

  7. 从而G的表型稳健性达到最大值。

砖砌图 与 数位和函数(Sums-of-digits function)

最后,作者利用编码理论的结果,证明砖砌图中的边数等于0到n-1的数的k进制表示中所有数位之和,也就是数位和函数。

  1. 砖砌图是汉明图的一种特殊诱导子图,它由n个顶点组成。

  2. 编码理论证明,这n个顶点对应的二进制序列的数位和,就是砖砌图包含的最大边数。

  3. 例如n=5时,对应二进制序列00000、00001、00010、00011、00100,它们的数位和分别是0、1、1、2、1,加起来等于5,这就是该砖砌图的最大边数。它表示如果总共有5种表型基因,平均允许的最大突变数量为5。

  4. 一般地,计算0到n-1的二进制表示的数位和,可以递归地得到砖砌图的最大边数,这就是数位和函数Sk(n)。

  5. 应用数位和函数,可以直接写出砖砌图的最大稳健性公式。

  6. 更进一步,数位和函数Sk(n)与编码理论中的“Connectedness”概念等价。

  7. 所以数位和函数为砖砌图最大边数、最大稳健性提供了精确计算,也给出了编码理论的对应表达。

也是就是:如果自然懂数学他应该让: 突变最大稳健性 可以近似于 砖砌图对应的诱导子图 也就是近似于 Sk(n) 也事实也是如此!

结论

通过上面的对应,原文建立了基因型空间与数论之间的联系。基因型到表型映射中的重要参数——表型鲁棒性,其理论上的最大值与数位和函数直接相关。这展示了组合优化问题与数论之间的联系,为进一步研究提供了新的思路。


参考:

https://auburnpub.com/partners/video-elephant/life-entertainment/technology/scientists-find-pure-math-at-work-in-evolutionary-genetics/video_be158e35-7dab-5d9c-81d8-414eee134149.html

https://www.ebiotrade.com/newsf/2023-8/20230805064802901.htm

https://www.sciencealert.com/scientists-discover-pure-math-is-written-into-evolutionary-genetics

https://royalsocietypublishing.org/doi/10.1098/rsif.2023.0169

https://royalsocietypublishing.org/doi/pdf/10.1098/rsif.2023.0169

https://zh.wikipedia.org/zh-hans/%E7%89%9B%E5%A5%B6%E5%87%8D%E6%9B%B2%E7%B7%9A