在EST数据库建立过程中,DNA测序后,一般要对DNA序列进行处理,首先要转换为通用格式——FASTA格式,基因注释分析,根据同源性比较信息如得分值(score值)、一致性百分率(identity,%)和e值(expect)等,推测查询序列属何种物种,及该序列上含有何种基因及其功能。在常规的GenBank中的Blastn进行同源分析时,如果查询序列是某种已知基因或同源基因的序列,在Blastn结果列表中,每一条这样的查询序列都会有大量的同源基因的信息。实际上,在每一条查询序列的同源性比较分析的信息结果中,有相当数量的信息项对注释结果的解释“意义不大”,因此,在处理这些信息项时,可以予以“剔除”,而将那些对查询序列注释结果的解释起关键作用的信息项如同源基因所属物种的名称、基因名称和索引号、同源性参数(得分值,一致性百分率,e值)和基因功能等予以提取保存。筛选出目标序列后要将目标序列从总序列库中提取出来。
ESTtools的功能简介
3.1 转换多个文本文档中的序列为 FASTA 格式:所测序列保存在文本文档中,而且每个文档中只有一条序列,该功能可将其转换为通用格式——FASTA格式,并将这些分散到多个文档中的序列合并到一个文本文档中,以便于操作。
3.2 提取多个文本文档中的 ncbi BLAST 结果:将Blast结果中Score值最高的同源基因信息保存在一个文本文档中,每个文本文档只保存一条同源基因的信息。然后,提取关键信息项(gi号、注释、SOURCE 、Score值、bits、Expect值、Identities、Gaps、Strand、function、product、chromosome)。
3.3 提取一个文本文档中的 ncbi BLAST 结果:从保存于一个文本文档里的批量Blast结果中选出Score值最高的同源基因信息,然后,提取关键信息项(注释、SOURCE 、Score值、bits、Expect值、Identities、Gaps、Strand)。
3.4 从总序列文件库中提取目标序列:只需要目标序列的文件名列表文件(不包括扩展名的文本文档),可一次性自动地将这些条件序列从的所有查询序列文本文档库中提取出来。