Skip to content

mydatascience/bio_bundle

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Набор скриптов для тестирования инструментов для выравнивания коротких и длинных ридов и нахождения нуклеотидных полиморфизмов.

usage: test.py [-h] [-i INPUT] [-1 READS1] [-2 READS2] -r REF [-t THREADS]
               [--hash HASHSZ] -o OUT [--tech {illumina,454,ionTorrent}]
               [--skip_test] [-v] [-m MAPPERS] [-s SNP_CALLERS] [-c STORAGE]

Параметры:

  -i INPUT              fasta, fastq файл с ридами или отсортированный проиндексированный bam файл с выравниванием для поиска snp
  -1 READS1             fasta, fastq файл с ридами
  -2 READS2             fasta, fastq файл с ридами
  -r REF, --ref REF     fasta файл с референсом
  -t THREADS, --threads THREADS количество потоков, используемое в программах, работающих в многопоточном режиме [4]
  --hash HASHSZ         размер хэшэй или k-меров [10]
  -o STORAGE, --out STORAGE директория для хранения результатов тестов
  --tech {illumina,454,ionTorrent}   используемая технология секвенирования [illumina]
  -v                    найти snp для файлов, полученных в результате выравнивания
  -m MAPPERS, --mappers MAPPERS список программ, используемых для выравнивания; 
                                если список не задан, но заданы файлы с ридами, то выполняется выравнивание с использованием всех программ, 
                                доступных для выбранной технологии и типа ридов(pe, se)
  -s SNP_CALLERS, --snp SNP_CALLERS список программ, используемых для нахождения snp, 
                                    если список не задан, то выполняется поиск с использованием всех возможных программ

Скрипт для сбора статистики по результатам тестов

usage: collect_stats.py [-h] -i IN_DIR [--vcf VCF] -n NAME

optional arguments:
    -i IN_DIR             каталог с результами тестов, полученных при запуске test.py. Если тестировался только variant calling, указывается каталог родитеский каталогу с результатами тестирования
    --vcf VCF             проиндексированный vcf файл для сравнения 
    -n NAME, --name NAME  базовое имя для vcf файлов, полученных в результате тестирования, совпадает с базовым именем ридов/bam файла для которого запущены тесты


Примеры использования:

test.py -1 read1.fq -2 read2.fq -v -r ref.fa -o out -t 4 # проводит тестирование выравнивания с использованием всех допустимых программ выравнивания парных ридов illumina в 8 потоков, а также всех возможных программ для поиска snp для каждого полученного выравнивания.
collect_stats.py -i out -n read1 --vcf gold.vcf.gz # сбор статистики

test.py -i test.bam -r ref.fa -o test_res/out # проводит тестирование поиска snp для файла test.bam
collect_stats.py -i test_res -n test --vcf gold.vcf.gz # сбор статистики

About

mydatascience.com

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published