Otázka:
Vysoce heterozygotní čtení mapování
cmdoret
2019-01-11 03:18:05 UTC
view on stackexchange narkive permalink

Mám krátké (67 bp) čtení Hi-C z vysoce heterozygotního organismu (~ 15% divergence SNP mezi haplotypy) a mám oba referenční haplotypy.

Chtěl jsem zkusit porovnat různé haplotypy software pro čtení Hi-C pomocí těchto čtení jako srovnávací datová sada. Když mapuji čtení zvlášť na každý haplotyp, získávám dobrou statistiku mapování. Když mapuji čtení na jeden haplotyp se všemi heterozygotními SNP maskovanými (do N), dostanu velmi špatné rychlosti mapování.

Chtěl bych být schopen mapovat čtení, když skutečné haplotypy nejsou známy (reference je směs haplotypů).

Používám minimap2 k mapování čtení pomocí předvolby sr. Snažil jsem se snížit pokutu za nesoulad (-B) na 1 a zvýšit hodnotu --score-N, ale nemělo to žádný účinek.

Jak je vidět na přiloženém snímku IGV, pokrytí klesne na 0, když SNP hustota se zvyšuje. enter image description here Je možné mapovat čtení s tak vysokou heterozygotností na jednu (maskovanou) referenci? Mám použít jiný nástroj?

Mohl byste popsat vaše čtení trochu víc? DNA / mRNA? SE / PE? 50bp / 100bp / atd.? Pokud bych to měl uhodnout, řekl bych, že máte problémy se správným nasazením svých čtení pro zarovnání. Také by mohlo být užitečné vědět, proč potřebujete mapovat maskovaná čtení, když mapování samostatně funguje dobře.
Děkuji za zpětnou vazbu ! Aktualizoval jsem otázku, abych přidal další pozadí a informace.
Jen pro potvrzení, že je heterozygotní a není příliš opakující se?
Jo, jen vysoce heterozygotní, je to hybridní kvasinka
S touto úrovní heterozygotnosti můžete jednoduše sestavit vše a oddělit haplotypy. Nejsem si jistý, jestli se jedná o optimální srovnávací datovou sadu.
Máte pravdu, použiji k tomu jiný datový soubor, ale stále jsem byl zvědavý na proveditelnost :)
Jeden odpovědět:
Lucas Boatwright
2019-02-19 20:15:12 UTC
view on stackexchange narkive permalink

Věřím, že dokážete zmapovat vaše čtení, ale nevím, jak to udělat s minimap2.

Doporučuji spustit gsnap, který je tolerantnější vůči SNP a poskytuje řadu parametrů, které pravděpodobně pomohou.

Například věřím, že většina zarovnávačů bude zacházet se znaky „N“ jako neshody při zarovnávání. GSNAP má parametry, které to zohledňují.

  --query-unk-mismatch = INT Zda počítat neznámé (N) znaky v dotazu jako nesoulad (0 = ne (výchozí), 1 = ano) - genome-unk -mismatch = INT Zda počítat neznámé (N) znaky v genomu jako nesoulad (0 = ne, 1 = ano (výchozí))  

Má také parametr neshody podobný ten, který jste popsali pro minimap2.

  -m, --max-mismatches = FLOAT maximální povolený počet neshod  

Zkuste spustit s 'genome-unk parametr -mismatch 'výše (s maskovaným odkazem). To může být vaše nejlepší sázka. Mohou pomoci i další parametry, ale mělo by to být dobrý začátek.



Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 4.0, pod kterou je distribuován.
Loading...