基因测序过程中引入ECC(Error-Correction Code)技术后,可以让碱基测序错误率降到万分之一以下。
那么ECC究竟是一种什么样的神奇技术呢?
ECC是Error-Correction Code(纠错码)的缩写,是一种广泛应用在通信领域的技术,解决的是一个非常普遍的问题,那就是:
说人话就是:
这个问题可不简单。我们知道一句话经常传着传着就变了味,甚至变成了谣言。
那怎样才能让你不会听错我说的话呢?敲黑板吗?
最简单的办法:
张三先生,您好,请听到广播后速到服务台,您的家人正在等你。
为什么要念好几遍?就是怕只念一遍你听不清楚。
但是我们仔细想想,广播要表达的意思,其实在第一遍播报时已经表达完了,第二遍、第三遍播报并没有提供新的信息,它们的存在只是为了不被听错。
换句话说,出现了“冗余信息”。
这种反反复复重复的信息,就是冗余信息。把一段内容重写一遍,并在重写的过程中加入冗余信息,就叫做纠错码。纠错码加入的冗余信息虽然没什么新鲜内容,但可以让信息的传递更加精准。
生物学里有一个类似的例子:很多细胞都是二倍体,这意味着它们有两套基因组。这两套基因组除了性染色体和其他少数杂合突变的地方,基本是一样的。也就是说,细胞觉得自己的遗传信息很重要,重要的信息要存两份,有信息冗余。
那有了两套基因组有什么作用呢?细胞就可以进行同源重组修复了。
细胞会受到各种各样的因素都可能造成细胞中的DNA发生损伤。当一条DNA发生双链断裂时,细胞就可以启动同源重组修复机制,利用另一套基因组里的DNA作为模板来修复断裂的DNA,保证遗传信息的稳定性。
DNA同源修复机制。来源:Wright WD et al. Homologous recombination and the repair of DNA double-strand breaks. J Biol Chem (2018).
以上就是纠错码最简单的一种形式:简单重复。
好了,我们现在知道了,纠错码就是用重复来让信息传递的过程不出错。但是这个简单重复有点太简单了,有没有不那么简单的方法?
有的。我们生物学中就有一个广为人知的例子:
编码氨基酸序列的密码子。
我们知道,当mRNA被翻译成蛋白质的过程中,是三个碱基对应一个氨基酸。碱基一共有四种:A、C、G、T。那么三个碱基就可以组合出4^3=64种密码子,理论上最多可以编码64种氨基酸。可实际上呢?这64种密码子只编码了20种氨基酸。很多不同的密码子编码的却是相同的氨基酸。最多的,像亮氨酸、丝氨酸和精氨酸,都有6个密码子。
多个密码子编码相同的氨基酸,就使得有时即使发生了基因突变,最后表达出来的蛋白质仍然是不变的。
生物体的遗传密码也是纠错码,这从另一方面保证了遗传信息在传递过程中的稳定性。
其实,有一个网络老梗也暗含了纠错码的原理:
你可能已经会心一笑了。这句话本来应该是:
| 研究表明,汉字顺序并不一定影响阅读。
事实上,如果这句话里有一些错别字:
| 研究表明,汉子顺序并不一定影像阅读。
或者盖住一些字:
| 研■表明,汉字■序并不一定影响■读。
你仍然可以看出这句话本来的样子。你是怎么做到的呢?
原因就在于,这是一句“废话文学”。它要表达的意思很简单,可却用了多达16个汉字来描述。废话就是冗余信息,使得无论是打乱顺序、错别字还是盖住一部分文字,我们都能还原出这句话。
那么反过来,精炼的语言虽然可能具有更高的文学价值,却经不起我们这样折腾。我们知道唐诗中有一个典故“推敲”,讲的是诗人贾岛一天骑着驴,忽然吟了两句诗:“鸟宿池边树,僧推月下门。”过一会儿觉得“推”字不如改成“敲”,犹豫琢磨之间,竟然忘了回避韩愈的仪仗。韩愈也不气恼,而是和贾岛并骑而行,讨论诗文,一时传为佳话。
但如果我们以纠错码的视角来看待这两句诗,就会发现它并没有废话文学那种“自纠错”的能力。今天我们知道,这句诗定稿为“僧敲月下门”,但设若在千百年的传播中,有一个字散佚了:
| 鸟宿池边树,僧■月下门。
我们就很难知道这里究竟是“推”还是“敲”了。也许很多文学教授们会皓首穷经,开无数的研讨会,认为“敲”字更佳,但也不能确定贾岛当年是不是写的就是这个字。事实上,的确有很多的诗词古籍在千百年的传播中走了样,直到最近几年的考古发掘中找到了更古老的版本,我们才看到这些古籍的原貌。
纠错码的例子还有很多。通信领域是纠错码的故乡,3G、4G、乃至近年大火的5G通信技术,都用到了不同的纠错码。而我们日常生活接触最多的纠错码的例子,可能就是二维码了。大家可以扫描下面的二维码来打赏作者来了解先进的高通量测序技术:
很多时候,我们扫描二维码的环境不会特别理想,可能光线非常昏暗、有反光或者污损。但二维码中通常包含了冗余信息,换句话说,它是一种纠错码,使得我们在不理想的条件下也能顺利扫描出来。大家可以试着再扫一遍:
纠错码就是这样一种技术。它利用冗余信息,极大地提高了信息传递过程的准确性。而赛纳生物的纠错码测序,就像上面提到的这些例子一样,能够抵抗测序过程中的各种噪音,提供极高准确度的测序数据,为生命科学和临床医学提供更好的研究和检测工具。
那么,纠错码到底是怎样和测序技术结合起来的呢?请听下回分解。。。
关于赛纳生物
关注赛纳生物
获取更多内容