Skip to content

Latest commit

 

History

History
126 lines (73 loc) · 7.69 KB

README.md

File metadata and controls

126 lines (73 loc) · 7.69 KB

Проект по биоинформатике

Организм: human.

Структура ДНК: ZDNA_DeepZ.

Гистоновая метка: H3K9me3.

Тип клеток: MCF-7.

Chip-seq эксперименты: https://www.encodeproject.org/files/ENCFF501UHK/, https://www.encodeproject.org/files/ENCFF518MOR/

0. Скачивание данных.

Скачиваем данные экспериментов командами:

wget https://www.encodeproject.org/files/ENCFF501UHK/@@download/ENCFF501UHK.bed.gz
wget https://www.encodeproject.org/files/ENCFF518MOR/@@download/ENCFF518MOR.bed.gz

Оставим только первые 5 столбцов:

zcat ENCFF501UHK.bed.gz | cut -f1-5 > H3K9me3_MCF7.ENCFF501UHK.hg38.bed
zcat ENCFF518MOR.bed.gz | cut -f1-5 > H3K9me3_MCF7.ENCFF518MOR.hg38.bed

Приведем данные из версии hg38 к версии hg19 командами:

wget https://hgdownload.cse.ucsc.edu/goldenpath/hg38/liftOver/hg38ToHg19.over.chain.gz
liftOver H3K9me3_MCF7.ENCFF518MOR.hg38.bed  hg38ToHg19.over.chain.gz   H3K9me3_MCF7.ENCFF518MOR.hg19.bed   H3K9me3_MCF7.ENCFF518MOR.unmapped.bed 
liftOver H3K9me3_MCF7.ENCFF501UHK.hg38.bed  hg38ToHg19.over.chain.gz   H3K9me3_MCF7.ENCFF501UHK.hg19.bed   H3K9me3_MCF7.ENCFF501UHK.unmapped.bed

1. Анализ пиков гистоновой метки

Построим гистограммы длин участков для каждого эксперимента до и после конвертации из верси hg38 в hg19, используя программу len_hist.R

  • Эксперимент ENCFF501UHK, версия hg38, количество пиков 40646:

H3K9me3_MCF7.ENCFF501UHK.hg38

  • Эксперимент ENCFF501UHK, версия hg19, количество пиков 40249:

H3K9me3_MCF7.ENCFF501UHK.hg19

  • Эксперимент ENCFF518MOR, версия hg38, количество пиков 39779:

H3K9me3_MCF7.ENCFF518MOR.hg38

  • Эксперимент ENCFF518MOR, версия hg19, количество пиков 39216:

H3K9me3_MCF7.ENCFF518MOR.hg19

Выкинем слишком длинные пики (>5000), используя программу используя программу filter_peaks.R, и построим гистограммы после фильтрации для данных hg19

  • Эксперимент ENCFF501UHK, количество пиков 40166:

H3K9me3_MCF7.ENCFF501UHK.hg19

  • Эксперимент ENCFF518MOR, количество пиков 39189:

H3K9me3_MCF7.ENCFF518MOR.hg19

Посмотрим, где располагаются пики гистоновой метки относительно аннотированных генов. Для этого построим графики типа пай-чарт, используя программу chip_seeker.R.

  • Эксперимент ENCFF501UHK:

H3K9me3_MCF7.ENCFF501UHK.hg19

  • Эксперимент ENCFF518MOR:

H3K9me3_MCF7.ENCFF518MOR.hg19

Объединим данные двух экспериментов командой:

cat  *.filtered.bed | sort -k1,1 -k2,2n | bedtools merge > H3K9me3_MCF7.merge.hg19.bed

Визуализируем исходные два набора ChIP-seq пиков, а также их объединение в геномном браузере. Ссылка на сессию в геномном браузере будет далее в отчете.

2. Анализ участков вторичной стр-ры ДНК

Построим гистограмму распределения длин участков вторичной стр-ры ДНК. Количество пиков 19394:

DeepZ

Посмотрим, где располагаются участки стр-ры ДНК относительно аннотированных генов:

DeepZ

3. Анализ пересечений гистоновой метки и стр-ры ДНК

Найдём пересечение гистоновой метки и структуры ДНК при помощи команды:

bedtools intersect  -a DeepZ.bed   -b  H3K9me3_MCF7.merge.hg19.bed  >  H3K9me3_MCF7.intersect_with_DeepZ.bed

Построим гистограмму распределения длин пересечений гистоновой метки и структуры ДНК. Количество пиков 528:

H3K9me3_MCF7.intersect_with_DeepZ

Посмотрим, где располагаются участки пересечений относительно аннотированных генов.

H3K9me3_MCF7.intersect_with_DeepZ

Визуализируем в геномном браузере исходные участки стр-ры ДНК, а также их пересечения с гистоновой меткой. Ссылка на сессию в геномном бруазере:

http://genome.ucsc.edu/s/avogar/hse21_H3K9me3_ZDNA_human

Приведём 2 места пересечаения гистоновой метки со структурой ДНК.

  • Ген ZNF300, координаты chr5:150,284,250-150,285,000:

intersection1

  • Ген LOC100499194, координаты chr2:114,737,200-114,737,700:

intersection2

Произведём ассоциацию полученных пересечений с ближайшими генами при помощи программы ChIPpeakAnno.R. Всего удалось проассоциировать 64 пика. Уникальных генов всего 46. Полный список уникальных генов можно посмотреть здесь.

Проведём GO-анализ для полученных уникальных генов при помощи сайта http://pantherdb.org/. Приведем список наиболее статистически значимых категорий:

go_categories

Полный результат GO-анализа можно посмотреть здесь.