我们今天借助三视图的概念,来直观地解释BitSeq和ECC测序这两大核心技术之间的联系。
让我们先回顾一下赛纳生物的几项核心技术:
首先,我们有一个荧光发生测序化学,它能让DNA复制时放出荧光,进而让我们知道参与复制的核苷酸种类和数量。
👉《Fluorogenic荧光发生测序化学技术助力测序技术变革》
最后,我们做出了ECC纠错编码测序,它是三轮不同的BitSeq,通过取交集的方法获得DNA序列,检测并校正潜在的测序错误。
三视图和BitSeq、ECC测序有什么关系呢?
小黄鸭的三视图
让我们来看看BitSeq和ECC测序如何与三视图联系起来。要做到这一点,首先要把四种碱基表示为三维图形。例如,我们可以这样表示:
其中,A是从原点到点(1,1,1)的一条直线段,C、G、T分别是三个互成120°角的椭圆。严谨起见,我给出这4个图形的参数方程:
其中A中t的取值范围是0 ~ 1,而C、G、T中t的取值范围都是-π ~ π。
我们来看看4个碱基的三视图:
我们发现有意思的事情:
A和C的正视图(YOZ平面上的投影)都是一条直线段,G和T的正视图都是一个圆;
A和G的左视图(XOZ平面上的投影)都是一条直线段,C和T的左视图都是一个圆;
A和T的俯视图(XOY平面上的投影)都是一条直线段,C和G的俯视图都是一个圆。
碱基两两分组的分法
(给个小提示:每个简并碱基代表谁)
A和C的正视图相同,G和T的正视图相同,这就像它们和简并碱基的关系一样:A和C同属于M,G和T同属于K。所以正视图就相当于MK-BitSeq一样,绘制四种碱基的正视图,就得到了M和K。
同样的道理,左视图和俯视图分别代表的是RY-BitSeq和WS-BitSeq。也就是这样一个对应关系:
这三个视图中的直线段分别代表简并碱基M、R、W,圆形分别代表简并碱基K、Y、S:
我们还可以验证下列事实:
每个碱基的三个视图中,任取两个出来,足以重构出这个碱基对应的图形。这就像任意两轮BitSeq都可以取交集得到一条DNA序列。
如果三个视图都是圆,或者是一个圆和两条直线段,那么不可能从这三个视图重构出任何图形。这就像三轮BitSeq取交集有时会得到空集一样,空集表明存在测序错误,并提示算法予以纠正。
BitSeq相当于是从物体的影子来猜测这个物体是什么。比方说下面三个黑影中我们一眼就能找到小黄鸭:
ECC为什么准呢?因为如果一个物体左看右看,从三个角度看都像小黄鸭,那它一定是小黄鸭无疑了。
说到这里,有读者可能已经意识到了:DNA序列就像一个三维物体,BitSeq是这个物体的三视图,而ECC测序则是根据三视图重构物体三维结构的过程。
讲到这里,相信你对BitSeq和ECC测序有了更加直观的认识,也了解到了测序技术和三视图之间的神奇联系。
这也是继集合论、信息论之后我们认识BitSeq和ECC测序的第三个视角。
END
关注赛纳生物
获取更多内容