Otázka:
Zarovnání sekvence pomocí Markovova modelu
Zeyuan
2018-09-11 13:30:16 UTC
view on stackexchange narkive permalink

Učím se o aplikaci Markovova modelu na zarovnání sekvence. Profesor říká, že pravděpodobnosti přechodu ze zarovnání mezery a zbytku do vyrovnání zbytkové mezery a naopak jsou obě 0. Existuje nějaký biologický / matematický důvod za tímto tvrzením? Proč jsou (X, Y) a (Y, X) buňka 0? Toto je přednáškový snímek přednášky 1, 4. týden kurzu „Bioinformatika: Úvod a metody“ na Coursera. enter image description here

Dva odpovědi:
Chris_Rands
2018-09-11 14:09:49 UTC
view on stackexchange narkive permalink

Pokud správně rozumím vaší otázce, pak si myslím, že v případě párového zarovnání existuje jednoduché vysvětlení.

Domnívám se, že klíčovým poznatkem je, že: nesoulad by měl vždy dosáhnout lepšího výsledku než mezera . *

Toto vyplývá biologicky, protože míra inzerce / delece (indel) je zhruba 1/10 rychlosti substituce (tj. výskyt změn jednotlivých nukleotidů), alespoň v obratlovců. (To se liší napříč stromem života, ale myslím si, že míra substituce prakticky vždy převyšuje rychlost indelu.)

Chcete-li pochopit, proč je to důležité, zvažte příklad:

  ATG -AGATGT-G  

Toto je „nemožné zarovnání“ v rámci pravděpodobností, které jste uvedli, protože zde máme přechod od zarovnání mezery ke zbytku k zbytkové mezeře.

Avšak za našeho předpokladu, že neshody jsou biologicky pravděpodobnější než indels, by správné zarovnání mělo být:

  ATGAGATGTG  

Ten druhý skutečně vypadá jako lepší zarovnání.

Toto také následuje u komplexnějších příkladů, takže toto:

  ATG - AAGATGTT-AG  

Stává se tímto:

  ATG-AAGATGTTAG  

(Nebo toto:

  ATGA-AGATGTTAG  

)

* Přísně mám na mysli, že substituce by měla skóre lépe než indel (s přidruženými sankcemi za otevření mezery a prodloužení). Ve skutečnosti, aby předpoklad byl vždy pravdivý, měl by běh neshod stále skóre horší než jeden indel. To nemusí být vždy správný předpoklad, zvažte tento příklad níže, je to skutečný případ zarovnání 1) nebo 2) nebo něco jiného? Nebo je zde globální zarovnání špatné a mělo by to být rozděleno na 2 místní zarovnání? Existuje pravděpodobná biologická mutační událost, která by to mohla vysvětlit? Ptám se na tyto otázky, jen abych poukázal na to, že to není černobílé, nemám jasné odpovědi.

1)

  CGTACGTAGAGGAATGCCCCCCCCCCC ------ --AGCAACGTAGCAT CGTACGTAGAGGAATG --------- TTTTTTTTTAGCAACGTAGCAT  

2)

  CGTACGTAGAGGAATGCCCCCCCCCAGCAACGTAGCAT CGTACGTAGAGGAATGTTTTTTTT-AGCAACGTAGCAT  
user172818
2018-09-12 23:51:02 UTC
view on stackexchange narkive permalink

Chris_Rands říká všechno správně: nastavíte pravděpodobnost $ X \ na Y $ a $ Y \ na X $ na 0, abyste zakázali sousední vkládání / mazání v zarovnání. Mnoho učebnic, včetně některých klasických, toto pravidlo používá, ale ve skutečnosti je toto pravidlo diskutabilní. Je to snazší vidět na Smithově-Watermanově zarovnání pod pokutou za afinní mezeru, což je do značné míry nepravděpodobný pohled na spárované HMM.

U penalizace za afinní mezeru je mezera délky $ k>0 $ hodnoceno jako $$ g (k) = - (d + k \ cdot e) $$, kde $ d \ ge0 $ je pokuta za otevření mezery a $ e>0 $ je pokuta za prodloužení mezery. Předpokládejme, že používáme jednoduchou skórovací matici, kde neshoda získá $ -b $, $ b>0 $. Můžeme vidět vložení bezprostředně následované odstraněním (a naopak), pokud $ b>2e $. Ve skutečnosti to není tak těžké. Například pro zarovnání člověka s myší (viz blastzový papír) se $ e = 30 $ a $ b $ pohybuje v rozmezí od 31 do 125. Je možné, že $ X \ až Y $ v zarovnání je upřednostňován přechod.

Teoreticky řečeno má větší smysl uvažovat o okamžitých přechodech mezi vložením a odstraněním. V praxi je ale rozdíl mezi povolením / zakázáním takových přechodů po většinu času pravděpodobně malý.

EDIT: na Chrisově příkladu

  CGTACGTAGAGGAATGCCCCCCCCCCC ------ --AGCAACGTAGCAT CGTACGTAGAGGAATG --------- TTTTTTTTTAGCAACGTAGCAT  

Pokud použijeme skórovací matici s $ b>2e $, ale zakážeme sousední přechody in-to-del, pravděpodobně skončíme se zarovnáním jako

  CGTACGTAGAGGAATGCCCCCCCCC ------- AGCAACGTAGCAT CGTACGTAGAGGAATG -------- TTTTTTTTAGCAACGTAGCAT  

Toto skóre zarovnání bude nižší .



Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 4.0, pod kterou je distribuován.
Loading...