当前位置: 首页 > 期刊 > 《生命科学研究》 > 2014年第5期
编号:12711507
高通量测序序列比对研究综述(2)
http://www.100md.com 2014年5月1日 《生命科学研究》 2014年第5期
     2.2 基于前/后缀树的索引方法

    后缀树是一种重要的数据结构,AVID、MUMmer、MUMmer等序列比对算法都是基于后缀树的这个结构,但与两序列相似性比对时用于寻找最大公共子序列不同,read在参考序列中mapping时,是将read或其子序列在按序排列的所有后缀中一一比对找到匹配位置。算法VCAKE、SSAKE、SHARCGS、BWA-SW应用前缀树数据结构,它将序列所有的前缀用树的结构表示,原理与后缀树相同。如图3所示为序列S=GATGAC的前缀树和前缀DAWG (DirectedAcyclic Word Graph,有向无环词图)。

    由于后缀树结构在比对大型序列时,空间占用比较大,Abouelhoda等改进了Manber和My-ers提出的后缀树存储方法,称为增强后缀数组来提高空间利用率。Ferragina和Manzini提出的FM (full-text minute-space)-indexc是一种基于BWT (burrows-wheeler transform)的全文本压缩索引结构 ......
上一页1 2

您现在查看是摘要页,全文长 3924 字符