Pokud správně rozumím vaší otázce, pak si myslím, že v případě párového zarovnání existuje jednoduché vysvětlení.
Domnívám se, že klíčovým poznatkem je, že: nesoulad by měl vždy dosáhnout lepšího výsledku než mezera . *
Toto vyplývá biologicky, protože míra inzerce / delece (indel) je zhruba 1/10 rychlosti substituce (tj. výskyt změn jednotlivých nukleotidů), alespoň v obratlovců. (To se liší napříč stromem života, ale myslím si, že míra substituce prakticky vždy převyšuje rychlost indelu.)
Chcete-li pochopit, proč je to důležité, zvažte příklad:
ATG -AGATGT-G
Toto je „nemožné zarovnání“ v rámci pravděpodobností, které jste uvedli, protože zde máme přechod od zarovnání mezery ke zbytku k zbytkové mezeře.
Avšak za našeho předpokladu, že neshody jsou biologicky pravděpodobnější než indels, by správné zarovnání mělo být:
ATGAGATGTG
Ten druhý skutečně vypadá jako lepší zarovnání.
Toto také následuje u komplexnějších příkladů, takže toto:
ATG - AAGATGTT-AG
Stává se tímto:
ATG-AAGATGTTAG
(Nebo toto:
ATGA-AGATGTTAG
)
* Přísně mám na mysli, že substituce by měla skóre lépe než indel (s přidruženými sankcemi za otevření mezery a prodloužení). Ve skutečnosti, aby předpoklad byl vždy pravdivý, měl by běh neshod stále skóre horší než jeden indel. To nemusí být vždy správný předpoklad, zvažte tento příklad níže, je to skutečný případ zarovnání 1) nebo 2) nebo něco jiného? Nebo je zde globální zarovnání špatné a mělo by to být rozděleno na 2 místní zarovnání? Existuje pravděpodobná biologická mutační událost, která by to mohla vysvětlit? Ptám se na tyto otázky, jen abych poukázal na to, že to není černobílé, nemám jasné odpovědi.
1)
CGTACGTAGAGGAATGCCCCCCCCCCC ------ --AGCAACGTAGCAT CGTACGTAGAGGAATG --------- TTTTTTTTTAGCAACGTAGCAT
2)
CGTACGTAGAGGAATGCCCCCCCCCAGCAACGTAGCAT CGTACGTAGAGGAATGTTTTTTTT-AGCAACGTAGCAT