赛纳生物测序中的ECC纠错编码到底是怎么一回事儿？(2)

原创赛纳生物赛纳生物

好了，我们今天来介绍赛纳生物最难懂的技术：ECC纠错码测序技术。

我们先回顾一下Fluogenic荧光发生测序化学。有兴趣的同学可以温（引）习（流）一下我们之前的文章：《Fluorogenic荧光发生测序化学技术助力测序技术变革》（戳这里跳转）

简单来说，我们在核苷酸上标记了一个特殊的基团，它只有在核苷酸被合成到DNA新生链上时才会被切下并放出荧光，于是我们可以根据荧光强度来知道反应了多少核苷酸。

Fluorogenic荧光发生测序化学的原理

基于这样一个测序化学，我们又研发了一个BitSeq技术，有兴趣的同学可以再温（引）习（流）一下我们之前的文章：

👉《bioRxiv｜赛纳生物核心技术BitSeq原理发布！》（点击跳转）

简单讲，就是一次反应加入两种不同的核苷酸，根据每次放出的荧光强度，可以得到一条二元模糊序列。这种二元模糊序列可以像正常的四碱基序列一样比对到参考基因组上，于是常见的拷贝数变异、转录组测序等“计数”型的应用就都能做了。

BitSeq的原理

假如所有奇数次反应都加入K（G和T），所有偶数次反应都加入M（A和C），那么得到的就是由M和K组成的二元模糊序列。虽然很多时候已经够用了，但BitSeq毕竟不能测出具体的四碱基DNA序列，怎么办呢？

没有什么是一顿烧烤一轮BitSeq解决不了的，如果有，那就来三顿轮。

哪三顿烧烤三轮BitSeq呢？让我们看看：四种碱基分成两两一组，有几种分法？

有三种：MK，RY，WS

碱基两两分组的分法

这三种分法，就对应了三种BitSeq。也就是说，我们会有MK-BitSeq、RY-BitSeq和WS-BitSeq。

我们对同一条DNA进行三次不同组合的BitSeq，并把每个位置上测出来的简并碱基取交集，就可以得到具体的DNA序列了。例如，对某条DNA序列的第一个碱基，MK-BitSeq告诉我是AC中的一个，RY-BitSeq告诉我是CT中的一个，WS-BitSeq告诉我是CG中的一个，那这个碱基只能是C了。

这种依靠三轮不同的BitSeq取交集来获得DNA序列的方法，就是ECC。

ECC通过三轮不同的BitSeq取交集来获得DNA序列

有同学可能会问：我好像听懂了，但还是感觉好复杂……我一个碱基一个碱基地加，也能测出序列来，不用测三轮，也不用取交集，那ECC搞这么复杂是图啥呢？

别急，我们回到取交集这件事上来。MK、RY、WS三轮取交集，一共会有2×2×2=8种情况：

奇怪的事情发生了：这8种情况中，有4种情况分别是4种碱基，但还有4种情况却是空集。

比如说，M是AC，R是AG，S是CG，这三种简并碱基里随便选两种都能有交集，但三种合一起就没有公共碱基了。

这怎么办？万一测序真要给M、R、S取交集，又找不到这样一个碱基，序列岂不是测不出来了吗？

等等，DNA上一定是有碱基的。作为一台成熟的测序仪，断然不会说出“错的不是我，而是这个（D）世（N）界（A）”这样的话来。

既然DNA不会出错，那出错的就只能是测序信号了。也就是说，空集提示存在测序错误。知错能改，善莫大焉，于是我们的测序仪就启动算法开始改错了。改错的要旨，就在于如何尽量小地调整测序信号，来消灭所有的空集。

能检错、能纠错，这就是它为什么叫纠错编码（error-correction code, ECC）测序技术。它能达到极高的准确率：

有了这样一个高准确度的神兵利器，我们能开始怎样的神奇之旅呢？

拭目以待

END

关注赛纳生物

获取更多内容

继续滑动看下一个