Skip to content

Latest commit

 

History

History
27 lines (24 loc) · 2.09 KB

README.md

File metadata and controls

27 lines (24 loc) · 2.09 KB

sirius2016

Проект июльской смены Сириус 2016, направление Big Data, команда "Исправление последовательностей антител"

Задача

Найти сбивку рамки считывания и исправить последовательность

Описание решения

  1. Если на вход подается файл из прочтения Illumina, то программа сливает два прочтения последовательностей ДНК - прямое и обратное.
  2. Классификация последовательностей на good, bad, trash, в good хранятся последовательности, в которых нашлись все четыре FR региона, в bad - последовательности, в которых наелся хотябы один FR-регион, в trash - все остальное.
  3. Эвристика: класс Bad разделяется на new_bad и new_good, классификация происхоит за счет нахождения FR1 или FR4-регионов, если все остальные FR-регионы уже нашлись.
  4. Разделение на семейства в зависимости от совпадения FR-регионов.
  5. Класс bad исправлятся с помощью скрытых Марковских моделей и востанавливает наиболее вероятную последовательнось, обучаясь на классе good.
  6. Создана презентация всего проекта.
  7. Все загружено на Github.

Участники команды

  • Алёхин Сергей
  • Башарин Артём
  • Григорян Олег
  • Деб Натх Максим
  • Калугин Владислав
  • Семёнова-Звенигородская София
  • Терехова Алина
  • Тимонина Мария
  • Туркин Игорь
  • Федорова Ирина
  • Харёв Павел