当前位置: 首页 > 期刊 > 《医学信息》 > 201513
编号:13645857
基于ChIP—seq测序数据的二维快速检索技术(1)
http://www.100md.com 2015年4月2日 《医学信息》 201513
     摘要:ChIP-seq技术是研究全基因组范围内转录因子结合位点的重要技术。ChIP-seq测序数据晦涩难懂,2009年Simon Anders发明了Hilbert曲线方法,将一维测序数据以二维图像形式呈现。本文在前人工作基础上,研究使用三种图像相似性检索的技术,对测序数据进行快速检索。通过模拟数据测试,证明了图像相似性检索方法在操作性和计算速度方面比传统的序列比对(Blast)检索技术有显著优势。本研究对高通量测序数据的医学诊断或有裨益。

    关键词:ChIP-seq;Hilbert曲线;图像检索;感知哈希算法;颜色直方图;颜色相关图

    中图分类号:R857.3 文献标识码:B

    Two-Dimensional Fast Retrieval Technologies for ChIP-seq Data

    LI Da,SONG Xin-rui,JIN Rong-xia,ZHAO Yong,ZHOU Jia-peng

    (Beijing Computing Center, Beijing 100094,China)

    Abstract:ChIP-seq technology is an important technology for researching transcript factor binding sites in the whole genome. ChIP-seq data is obscure, so Simon Anders developed the HilbertVis method to show it two-dimensionally. In the present study, three image similarity retrieval technologies were used in order to rapid retrieval for sequencing data. Via simulation data, the operability and calculation speed of image similarity retrieval method showed a significant advantage over the conventional sequence alignment (Blast). This study may be helpful for application of high-throughput sequencing data in medical diagnosis.

    Key words:ChIP-seq;HilbertVis;Image retrieval;pHash;Color histogram;Color correlograms

    1引言

    近年来越来越多的研究发现,基因的转录调控与人类疾病存在密切关系。转录因子结合位点(TFBS)是转录调控研究中的核心内容。ChIP是研究体内蛋白质与DNA相互作用的有力工具,通常用于转录因子结合位点或组蛋白特异性修饰位点的研究。将ChIP与高通量测序相结合的ChIP-seq技术,充分发挥了二者的优势,能够高效地在全基因组范围内研究目的蛋白的结合位点。ChIP-seq技术可以产生高分辨率的数据来精确定位转录因子结合位点,使得医学科研工作者可以更加深入细致地研究转录调控水平的疾病发生机理。

    1.1二维化理念 现实生活中最常见也是最成功的二维化应用就是二维码的普及, 二维码较一维码有如下优点:信息密度高、存储容量大、错误纠正能力强、保密性好、译码率低和识读速度快等[1,2]。

    在感官层面,二维数据的展现形式比一维数据更加直观、生动和形象。在技术层面,数据存储、保密性、容灾性、译码率及识别速度上,二维数据也具有先天优势。

    1.2 ChIP-seq测序数据二维化转换 将ChIP-seq的一维测序数据转换为二维化的数据格式,在前人的研究中,已经有比较成熟的技术。Simon Anders[3]在2009年发表的文章中实现了使用Hilbert曲线将ChIP-seq数据进行二维转换,通过可视化技术对数据进行直观展示,并表述了其颜色分布的物理意义。

    1.3图像检索技术 所谓图像检索技术就是专门处理并提供能够快速且准确地查找数字图像资源的信息检索技术。当前业内主要通过数据库和计算机视觉两个不同的角度来区分并研究图像检索技术。前者是基于文本的图像检索技术(简称TBIR),而后者是基于内容的图像检索技术 (简称CBIR)[4]。本文所用的三种检索方法,均采用CBIR类技术。

    1.3.1感知哈希函数 感知哈希是多媒体数据集到感知摘要集的一类单向映射,即将具有相同感知内容的多媒体数字表示唯一的映射为一段数字摘要,并满足感知鲁棒性和安全性[5]。

    传统的图像感知哈希的构造,主要步骤有:图像预处理、图像感知特征提取、加密、量化和编码[6]。基于本文的应用场景及算法要求,主要介绍提取图像感知特征的过程:①缩小尺寸:去除高频和细节的最快方法是缩小图片,将图片缩小到8x8的尺寸;②简化色彩:将8*8的小图片转换成灰度图像;③计算平均值:计算所有64个像素的灰度平均值;④比较像素的灰度:将每个像素的灰度,与平均值进行比较,大于或等于平均值记的为1,小于平均值的记为0;⑤计算hash值:将上一步的比较结果,组合在一起,就构成了一个64位的二进制数,这就是图片的指纹。

    1.3.2颜色直方图 颜色直方图是常用的图像颜色特征表示方法,反映图像颜色的统计分布,描述的是图像的整体颜色特征。对于一幅图像I,其颜色由L级组成,每一种颜色值为Ci(i=1,2,…,L)。在整幅图像中,具有Ci值的像素个数为hi,则一组像素的统计值hl,h2,?,hf,就称为该图像的颜色直方图[7]。, 百拇医药(李达等)
1 2下一页