Skip to content

Latest commit

 

History

History
101 lines (60 loc) · 4.87 KB

README.md

File metadata and controls

101 lines (60 loc) · 4.87 KB

简介

这是一个全自动进行多基因联合构树的程序, 使用了ClustalW算法进行批量处理比对序列,程序使用了多线程。 可以实现fasta格式的序列文件的批量分割,合并,聚类,基因查找,基因位置导出,等等功能。

准备

  1. 需要克隆这个项目到本地,前提是安装git下载地址
git clone https://gitee.com/theing/bio_tools.git

​ 或者直接下载本项目到您的使用目录

  1. 安装MEGA-CC,因为使用的是win系统,所以需要安装这个内核,在Linux系统下不需要安装,后续有机会会开发适配Linux系统的程序。安装请选择Command Line(CC), Windows版本安装。 下载地址

  2. 安装Python解释器。

功能

  1. 分割序列

    功能介绍:有时候我们需要提取出整个序列单个基因的序列文件,可以用到这个功能。

    使用:把需要分割的fasta源文件放入source文件夹中,在bin目录中执行命令,程序会自动执行,执行完毕会在目录里生成bulid文件夹中生成相应文件名,里面存放着相应文件分割后的单基因序列文件。

    python split_seq.py
  2. gene 聚类

    功能介绍:有时候我们需要多个物种的同一个基因写入到同一个fasta文件中,此时可以用到这个命令(都是批量的,后续如果有需求会添加聚类单个基因的选项)。添加功能,可以自动查找可用于多基因联合构树的基因,导出到use目录下。

    使用:把需要分割的fasta源文件放入source文件夹中,执行命令会在目录里生成bulid文件夹,默认名称为sequence + geneName,在bin目录下执行:

    python class_seq.py
  3. 批量比对

    功能介绍:在聚类出相同的基因后可以用这个功能进行批量的比对,默认使用MEGAX内核集成的ClustalW算法对蛋白质进行比对,程序使用了多线程,相比上一个版本大幅缩短了比对的时间。

    使用:默认读取目录为\bulid\class\use\,为聚类的输出目录,后续看需求是否增加选项,在bin目录下执行。

    python align_seq.py
  4. merge 合并

    功能介绍:当时聚类了很多的单基因后得到了很多的多个物种的单基因文件,比对后又得到很多的比对后的文件,此时又要把这些只有一个基因的的序列文件合并成,一个物种的整条序列。可以用到这个功能,基本是聚类的逆向工程。为什么要写这两个功能,因为如果直接排序基因参与比对的话算法似乎不准确,得到的序列大多参差不齐,所以需要拆分这些基因单独的进行比对,然后再合并成一个物种的整个序列,得到比对好的序列,可直接拿来建树。

    使用:默认读取的单基因fasta文件为bulid\megax\aligned中,会在bulid\marged中生成合并并排序好序列的fasta文件,在bin目录下执行。

    python merge_seq.py
  5. 自动标注标签

    功能介绍:有时候我们得到一个整个序列只有ATCG的序列文件,没有标注基因头信息,可以用到这个功能。

    需要的头信息可以在文件里面更改。或者提供csv表格,每行的第一格为基因名称,第二格为起始位置,第二格为终止位置,第三格(+/-)为正序或互补序列。

    注意:

  • dataInforcsv文件,格式如

    trnH-GUG,2,75,-,
    psbA,421,1482,-,
    trnK-UUU,1782,1816,-,exon2
    matK,2092,3612,-,
    trnK-UUU,4377,4413,-,exon1
    
  • sourcefasta文件未标注的序列中第一行标注结尾为 [] ,没有请自行添加

    使用:把已经有的csv文件,添加到dataInfor文件中命名为lable.csv,把对应的基因序列文件放在source文件夹中,在bin目录下终端中执行命令,执行程序可在bulid文件夹中生成标注好的fasta格式的文件

    python autoLable_seq.py
  1. sort 自动排序基因序列

    功能介绍:有时候我们需要几个物种的好几个基因参与比对,但是基因的位置方向不一致,可以用到这个功能。

    使用:把需要排序基因的物种的fasta格式的文件通通放入source文件夹中,执行就可以了。会在bulid文件夹中生成相应文件名的,基因方向一致的fasta格式的文件。

    注意: 基因顺序为首字母顺序排序。

     python sort_seq.py

    如果该程序帮助到您,请给一刻五角星收藏,感谢对开源的支持。