Vysoce heterozygotní čtení mapování

cmdoret

2019-01-11 03:18:05 UTC

view on stackexchange narkive permalink

Mám krátké (67 bp) čtení Hi-C z vysoce heterozygotního organismu (~ 15% divergence SNP mezi haplotypy) a mám oba referenční haplotypy.

Chtěl jsem zkusit porovnat různé haplotypy software pro čtení Hi-C pomocí těchto čtení jako srovnávací datová sada. Když mapuji čtení zvlášť na každý haplotyp, získávám dobrou statistiku mapování. Když mapuji čtení na jeden haplotyp se všemi heterozygotními SNP maskovanými (do N), dostanu velmi špatné rychlosti mapování.

Chtěl bych být schopen mapovat čtení, když skutečné haplotypy nejsou známy (reference je směs haplotypů).

Používám minimap2 k mapování čtení pomocí předvolby sr. Snažil jsem se snížit pokutu za nesoulad (-B) na 1 a zvýšit hodnotu --score-N, ale nemělo to žádný účinek.

Jak je vidět na přiloženém snímku IGV, pokrytí klesne na 0, když SNP hustota se zvyšuje. Je možné mapovat čtení s tak vysokou heterozygotností na jednu (maskovanou) referenci? Mám použít jiný nástroj?

Mohl byste popsat vaše čtení trochu víc? DNA / mRNA? SE / PE? 50bp / 100bp / atd.? Pokud bych to měl uhodnout, řekl bych, že máte problémy se správným nasazením svých čtení pro zarovnání. Také by mohlo být užitečné vědět, proč potřebujete mapovat maskovaná čtení, když mapování samostatně funguje dobře.

Děkuji za zpětnou vazbu ! Aktualizoval jsem otázku, abych přidal další pozadí a informace.

Jen pro potvrzení, že je heterozygotní a není příliš opakující se?

Jo, jen vysoce heterozygotní, je to hybridní kvasinka

S touto úrovní heterozygotnosti můžete jednoduše sestavit vše a oddělit haplotypy. Nejsem si jistý, jestli se jedná o optimální srovnávací datovou sadu.

Máte pravdu, použiji k tomu jiný datový soubor, ale stále jsem byl zvědavý na proveditelnost :)