控件中国网现已改版,您看到的是老版本网站的镜像,系统正在为您跳转到新网站首页,请稍候.......
中国最专业的商业控件资讯网产品咨询电话:023-67870900 023-67871946
产品咨询EMAIL:SALES@COMPONENTCN.COM

腾讯工程师提议用中文索引算法创建DNA搜索引擎

作者:佚名 出处:互联网 2010年07月04日 阅读:

腾讯工程师提议用中文索引算法创建DNA搜索引擎
 
科学家解码了越来越多的基因组,但对遗传学家或研究人员来说,寻找有机体的共享基因组是一件十分艰巨的任务——因为要对比的DNA字母难以计数。

如何快速搜索巨大的生物信息学数据库?多数研究人员使用的是BLAST或FASTA算法,它们本质上逐一比较每个基因组。现在中国第三大搜索引擎、腾讯旗下搜搜(SOSO.com)的一位计算机科学家王亮(Wang Liang)提出应用中文索引算法去检索生物信息。

王亮指出,中文的每个字之间没有留下间隔,因为索引中文文档的一种方法是将文本分解成N个片段(n-grams),N代表字数,1-grams 表示一个汉字,2-grams表示两个汉字,3-grams表示三个汉字,如果搜索3个汉字,比如“敏感词”,可以通过搜索“敏感”和“感词”完成。一些中文搜索引擎就只索引2-grams。王亮称,DNA序列的统计分布应该遵循齐夫定律(Zipf'slaw)。

齐夫定律是指一个单词出现的频率与它在频率表里的排名成反比,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。王亮应用同样标准去寻找拟南芥、曲霉、果蝇和老鼠的基因组字母平均长度,他发现平均长度为12个字母,因此用12-gram索引基因组数据也许最优。

 

热推产品

  • ActiveReport... 强大的.NET报表设计、浏览、打印、转换控件,可以同时用于WindowsForms谀坔攀戀Forms平台下......
  • AnyChart AnyChart使你可以创建出绚丽的交互式的Flash和HTML5的图表和仪表控件。可以用于仪表盘的创......
首页 | 新闻中心 | 产品中心 | 技术文档 | 友情连接 | 关于磐岩 | 技术支持中心 | 联系我们 | 帮助中心 Copyright-2006 ComponentCN.com all rights reserved.重庆磐岩科技有限公司(控件中国网) 版权所有 电话:023 - 67870900 传真:023 - 67870270 产品咨询:sales@componentcn.com 渝ICP备12000264号 法律顾问:元炳律师事务所 重庆市江北区塔坪36号维丰创意绿苑A座28-5 邮编:400020
在线客服
在线客服系统
在线客服
在线客服系统