高通量测序已被广泛应用于生物学和医学研究。在其众多的应用中,绝大多数属于重测序,即在已知参考基因组的情况下,将所测得的序列比对至参考基因组,并根据大量序列的比对结果推断样品组成。典型的重测序包括单核苷酸变异(SNV)检测、无创产前筛查(NIPT)、转录组测序(RNA-seq)、宏基因组测序(metagenomic sequencing)等。如何针对重测序的特点设计一个高效、准确的测序方法,就显得尤为重要。
近日,北京大学黄岩谊教授团队与赛纳生物等合作者联合在预印本网站bioRxiv上公开了题为“A fuzzy sequencer for rapid DNA fragment counting and genotyping”的研究论文,提出了一种模糊测序模式,可以在不获得确切的四碱基DNA序列的情况下,将所测DNA片段精确比对到参考基因组上,快速、准确地获得重测序的分析结果。
重测序的数据分析中,最关键的步骤是将序列比对到参考基因组上。团队首先发现,影响比对准确性的因素包括序列所包含的信息熵和序列的读长。传统测序方法得到的是确切的、由四种碱基组成的序列,因此其信息熵总是读长的2倍。而如果寻求一种模糊的测序方法,则这一倍数关系就有可能被打破。为了提高比对准确性,就需要在有限的测序循环数之内,获得尽可能高的信息熵和读长。
基于这一想法,团队提出了两种模糊测序的方法。其中,BitSeq基于团队之前提出的荧光发生测序化学(Fluorogenic Sequencing),在每个测序循环中交替加入2种碱基。例如,在所有奇数次循环中加入G和T(合称K),在所有偶数次循环中加入A和C(合称M)。通过反应产生的荧光信号强度,可以推断反应中延伸的碱基数。数十次测序循环后,就可以得到一条由K和M组成的二元模糊序列。虽然得到的序列是模糊的,但BitSeq每次循环产生的信息熵与传统可逆终止子测序法相当(均为2 bit/cycle),读长却是后者的2倍。另一种模糊测序方法SuperBitSeq在BitSeq的基础上,给每次循环加入的两种碱基标记不同颜色的荧光基团。例如,奇数次循环中加入的G和T分别标记绿色和红色荧光基团,偶数次循环中加入的A和C也分别标记绿色和红色荧光基团。在这种差异化的荧光标记下,SuperBitSeq每次循环的读长和BitSeq相当(均为2 bp/cycle),但信息熵提升至3.37 bit/cycle。利用人和拟南芥基因组作模拟比对实验,发现要达到相同的独特比对率,BitSeq和SuperBitSeq所需的测序循环数均显著少于传统可逆终止子测序法。
模糊测序在信息熵和读长上兼具高效率
为了实现模糊测序,团队构建了一个完整的测序系统,包括芯片、仪器、试剂、算法等。芯片由大量微坑组成,待测DNA在这些微坑中发生测序反应。仪器控制试剂流体经过芯片,通过升温引发测序反应,并通过相机采集荧光信号。荧光信号经图像处理、失相校正后,输出模糊序列。为了防止微坑内的荧光分子相互扩散,团队采用油封的方式来分隔各个微坑。值得一提的是,大量微坑的反复油封在工程上极具挑战性,而团队经过反复优化,实现了数以亿计的微坑在多达数十次的反复油封后,其有效利用面积仍超过90%。
BitSeq的实现
为了证明BitSeq的实用性,团队先后测试了拷贝数变异检测(CNV)、无创产前筛查(NIPT)、转录组测序(RNA-seq)、宏基因组测序(metagenomic sequencing),其结果均与传统可逆终止子法、半导体测序法高度一致。
BitSeq与其他测序方法在重测序上的比较
团队同时探求了SuperBitSeq的基本性质。BitSeq特别适用于上述计数型应用,但不能检测很多类型的单核苷酸变异(SNV)。而得益于更高的信息效率,SuperBitSeq可检测的SNV类型大大增加。统计RefSNP和ClinVar两大数据库可发现,SuperBitSeq不可检测的SNV比例仅在万分之一乃至百万分之一数量级,证明其可适用绝大多数SNV的检测。有意思的是,SuperBitSeq的测序信号经过编码后,可在二维平面上排列成独特的分形图案,称之为“SuperBitSeq灰尘”。这一分形结构也提示SuperBitSeq可能存在值得进一步探索的深刻数学原理。
SuperBitSeq的基本性质
团队进一步实现了高通量的SuperBitSeq,并成功区分了egfr基因的G719S和T790M两种突变型序列及其对应的野生型序列。进一步地,团队还用SuperBitSeq测试了新冠病毒中的SNV检测,其结果也与传统方法一致。
高通量SuperBitSeq识别出单核苷酸变异
综上所述,本文提出一种模糊测序仪,包含BitSeq和SuperBitSeq两种模式,在相同测序循环数内能提供超越传统测序方法的信息熵和读长,在不获得确切四碱基序列的情况下将所测DNA片段比对至参考基因组,得到准确的重测序分析结果,并进一步利用拷贝数变异检测、无创产前筛查、转录组测序、宏基因组测序、单核苷酸变异检测等多个应用案例验证了模糊测序仪的有效性和准确性。
https://www.biorxiv.org/content/10.1101/2023.10.24.563729v1
END
关注赛纳生物
获取更多内容