Skip to content
This repository has been archived by the owner on Nov 28, 2020. It is now read-only.

bam fields

Agnieszka Szmurło edited this page Feb 11, 2020 · 12 revisions

BAM fields

CIGAR string:

Niesie informacje o dopasowaniu odczytu do referencji.

M - dopasowanie
I - insercja w stosunku do referencji
D - delecja w stosunku do referencji
N - pominięty kawałek
S - soft clip (poczatek lub koniec odczytu), sekwencja jest w SEQ
H - hard clip (poczatek lub koniec odczytu) sewkencja jest w SEQ

przykłady:

CIGAR: 63M 
63 bazy dopasowane (UWAGA, w tym mogą być SNPy)
dlugosc sekwencji: 63

CIGAR 3M1I3M1D5M
3 bazy dopasowane, insercja o dlugosci 1, 3 dopasowania, delecja o dlugosci 1, 5 dopasowan
dlugosc sekwencji: 3 + 1 + 3 + 5 = 12

CIGAR: 2S3M1I3M1D5M2S
jw, tylko ze z przodu i na koncu jeszcze po 2 bazy sclipowany
dlugosc sekwencji: 2 + 3 + 1 + 3 + 5 + 2 = 16

MD Tag:

liczba - liczba zgodnych baz z referencja
A/C/G/T - w REF znajduje sie wskazana baza (w odczycie co innego)
^ - delecja
0 - separator miedzy del a snp
  • Niesie informacje o referencji, której nie przekazuje read seq. (W SEQ odczytu mamy ALT baze, ale nie mamy REF bazy na tym miejscu). Dotyczy straty informacji w stosunku do ref.
  • Nie dotyczycy soft/hard clips.

Przykłady:

MD: 10A5^AC6
10 baz jak w REF, potem w REF jest A (w odczycie jest to co w SEQ), 5 baz jak w REF, 
delecja (^) o dlugosci 2 w REF było AC a w odczycie tego nie ma, 6 jak w referencji
dlugosc sekwencji wg MD: 10 + 1 + 5 + 6 = 22

CIGAR i MD Tag:

CIGAR: 100M
MD: 50A49

wg CIGAR 100 dopasowan do REF.
wg MD widzimy, ze jest SNP na na pozycji 51. W REF jest A a to co w odczycie, trzeba sprawdzic w SEQ.
dlugosc sek = 100

CIGAR: 50M10I50M
MD: 100

wg CIGAR mamy 50 baz dopasowanych, potem insercje o dlug. 10, potem znowu 50 dopasowan.
W MD jest tylko 100 baz jak w REF. W MD NIE MA INSERCJI!
dlug sek wg CIGAR: 110
dlug sek wg MD: 100

Reprezentacja zmian w CIGAR i MDTag:

SNP:

  • W CIGAR SNP jest "ukryty", jest określony jako dopasowanie (M)
  • W MD, mamy dokładną lokalizację SNP, ale podana jest baza z REF
  • => zeby poznać ALT baze gdzie wystąpił SNP trzeba zajrzeć pod określoną pozycję (znana z MD TAG) z SEQ

DEL:

  • W CIGAR mamy określoną długość delecji (xD)
  • W MD mamy informację o tym jakie referencyjne bazy "wypadły"
  • => nie ma potrzeby sięgania do SEQ.

INS:

  • w CIGAR mamy określoną długość insercji (xI)
  • W MD nie ma w ogóle insercji
  • => żeby poznac sekwencję INS musimy sięgnąć pod określone pozycje (znane z CIGAR) z SEQ

Wnioski

Pileup można policzyć znając CIGAR, SEQ i REF, ale wymagałoby to weryfikacji zgodności baz SEQ/REF dla każdej przetwarzanej pozycji (przez to ze dopasowanie M, zawiera w sobie zarowno zgodnosci i niezgodnosc z REF). Jeśli skorzystamy z MD, możemy wyłapać gdzie są SNPy i sięgnać do SEQ tylko wtedy gdy jest to niezbędne: dla SNP i dla INS.

Useful resources