Mám krátké (67 bp) čtení Hi-C z vysoce heterozygotního organismu (~ 15% divergence SNP mezi haplotypy) a mám oba referenční haplotypy.
Chtěl jsem zkusit porovnat různé haplotypy software pro čtení Hi-C pomocí těchto čtení jako srovnávací datová sada. Když mapuji čtení zvlášť na každý haplotyp, získávám dobrou statistiku mapování. Když mapuji čtení na jeden haplotyp se všemi heterozygotními SNP maskovanými (do N), dostanu velmi špatné rychlosti mapování.
Chtěl bych být schopen mapovat čtení, když skutečné haplotypy nejsou známy (reference je směs haplotypů).
Používám minimap2 k mapování čtení pomocí předvolby sr. Snažil jsem se snížit pokutu za nesoulad (-B) na 1 a zvýšit hodnotu --score-N, ale nemělo to žádný účinek.
Jak je vidět na přiloženém snímku IGV, pokrytí klesne na 0, když SNP hustota se zvyšuje. Je možné mapovat čtení s tak vysokou heterozygotností na jednu (maskovanou) referenci? Mám použít jiný nástroj?