This repository has been archived by the owner on Nov 28, 2020. It is now read-only.
-
Notifications
You must be signed in to change notification settings - Fork 12
bam fields
Agnieszka Szmurło edited this page Feb 11, 2020
·
12 revisions
Niesie informacje o dopasowaniu odczytu do referencji.
M - dopasowanie
I - insercja w stosunku do referencji
D - delecja w stosunku do referencji
N - pominięty kawałek
S - soft clip (poczatek lub koniec odczytu), sekwencja jest w SEQ
H - hard clip (poczatek lub koniec odczytu) sewkencja jest w SEQ
przykłady:
CIGAR: 63M
63 bazy dopasowane (UWAGA, w tym mogą być SNPy)
dlugosc sekwencji: 63
CIGAR 3M1I3M1D5M
3 bazy dopasowane, insercja o dlugosci 1, 3 dopasowania, delecja o dlugosci 1, 5 dopasowan
dlugosc sekwencji: 3 + 1 + 3 + 5 = 12
CIGAR: 2S3M1I3M1D5M2S
jw, tylko ze z przodu i na koncu jeszcze po 2 bazy sclipowany
dlugosc sekwencji: 2 + 3 + 1 + 3 + 5 + 2 = 16
liczba - liczba zgodnych baz z referencja
A/C/G/T - w REF znajduje sie wskazana baza (w odczycie co innego)
^ - delecja
0 - separator miedzy del a snp
- Niesie informacje o referencji, której nie przekazuje read seq. (W SEQ odczytu mamy ALT baze, ale nie mamy REF bazy na tym miejscu). Dotyczy straty informacji w stosunku do ref.
- Nie dotyczycy soft/hard clips.
Przykłady:
MD: 10A5^AC6
10 baz jak w REF, potem w REF jest A (w odczycie jest to co w SEQ), 5 baz jak w REF,
delecja (^) o dlugosci 2 w REF było AC a w odczycie tego nie ma, 6 jak w referencji
dlugosc sekwencji wg MD: 10 + 1 + 5 + 6 = 22
CIGAR: 100M
MD: 50A49
wg CIGAR 100 dopasowan do REF.
wg MD widzimy, ze jest SNP na na pozycji 51. W REF jest A a to co w odczycie, trzeba sprawdzic w SEQ.
dlugosc sek = 100
CIGAR: 50M10I50M
MD: 100
wg CIGAR mamy 50 baz dopasowanych, potem insercje o dlug. 10, potem znowu 50 dopasowan.
W MD jest tylko 100 baz jak w REF. W MD NIE MA INSERCJI!
dlug sek wg CIGAR: 110
dlug sek wg MD: 100
- W CIGAR SNP jest "ukryty", jest określony jako dopasowanie (M)
- W MD, mamy dokładną lokalizację SNP, ale podana jest baza z REF
- => zeby poznać ALT baze gdzie wystąpił SNP trzeba zajrzeć pod określoną pozycję (znana z MD TAG) z SEQ
- W CIGAR mamy określoną długość delecji (xD)
- W MD mamy informację o tym jakie referencyjne bazy "wypadły"
- => nie ma potrzeby sięgania do SEQ.
- w CIGAR mamy określoną długość insercji (xI)
- W MD nie ma w ogóle insercji
- => żeby poznac sekwencję INS musimy sięgnąć pod określone pozycje (znane z CIGAR) z SEQ
Pileup można policzyć znając CIGAR, SEQ i REF, ale wymagałoby to weryfikacji zgodności baz SEQ/REF dla każdej przetwarzanej pozycji (przez to ze dopasowanie M, zawiera w sobie zarowno zgodnosci i niezgodnosc z REF). Jeśli skorzystamy z MD, możemy wyłapać gdzie są SNPy i sięgnać do SEQ tylko wtedy gdy jest to niezbędne: dla SNP i dla INS.