FIND:从下一代单端测序数据中快速查找Indel的方法
鍏抽敭璇嶏細Indel查找,下一代测序,滑动窗口算法
![]() |
第1页 |
参见附件(2882KB,4页)。
宋琳琳 顾朝辉 韦朝春 上海交通大学生命科学技术学院;上海生物信息技术研究中心;上海交通大学医学院附属瑞金医院上海血液学研究所 医学基因组学国家重点实验室;上海交通大学系统生物医学研究院;上海交通大学微生物分子生态学基因组学实验室;
【摘要】目的:针对下一代测序数据,尤其是单端测序数据,研究快速、准确查找Indel的方法。方法:先与全基因组参考序列进行快速比对,筛选出包含Indel的序列;再对这些序列进行双向的二次比对,确定Indel长度;最后借助长度信息在锁定范围内查找Indel的确切位置和相关信息。结果:本文成功构建FIND(Fast INDel detection system)系统,用于从单端测序数据中查找Indel信息。以模拟测序数据作为测试数据,在12X测试数据情况下,FIND的灵敏度和特异性分别为87.71%和99.66%,而且该性能还随着测序倍数的增加而提升。结论:充分利用比对过程获取的信息,在确定Indle长度的同时也确定出其大致位置,最终在局部范围内实现对单端测序数据中Indle的快速而准确的查找。
【关键词】 Indel查找 单端测序 下一代测序 滑动窗口算法
【基金】国家863计划(2009AA02Z310) 上海市基础重点项目(08JC1416700)
【分类号】Q75
前言插入和缺失(Indels,Insertions/deletions)是DNA结构变异中最常见的形式之一,果蝇中约有16%的遗传多态性表现为Indel[1],线虫中为25%[2]。据估计,人类基因组中的Indel总量约为160~250万个,占遗传多态性的16%~25%[3]。自2006年人类首张全基因组Indel图谱绘制完成以来[3],
------
前言
对此,本文提出FIND(FaStINdeI Detection)方法,用于在下一代单端测序序列中快速查找Indel。FIND采用特殊机制对同一序列进行两次比对,首先锁定Indel长度和大致位置,随后采用滑动窗口比对方法快速查找Indel。
您现在查看是摘要介绍页,详见PDF附件(2882KB,4页)。
限于服务器压力,网站部分信息只供爱心会员或有一定积分的注册会员流览。
此 pdf全文 需要 5 积分(免费注册登录后每天可以领取10个积分)。
淇℃伅浠呬緵鍙傝€冿紝涓嶆瀯鎴愪换浣曚箣寤鸿銆佹帹鑽愭垨鎸囧紩銆傛枃绔犵増鏉冨睘浜庡師钁椾綔鏉冧汉锛岃嫢鎮ㄨ涓烘鏂囦笉瀹滆鏀跺綍渚涘ぇ瀹跺厤璐归槄璇伙紝璇烽偖浠舵垨鐢佃瘽閫氱煡鎴戜滑锛屾垜浠敹鍒伴€氱煡鍚庯紝浼氱珛鍗冲皢鎮ㄧ殑浣滃搧浠庢湰缃戠珯鍒犻櫎銆�
寰俊鏂囩珷
鍏虫敞鐧炬媷
璇勮鍑犲彞
鎼滅储鏇村
|