Mám bam soubor RNA-seq a existuje jen málo čtení, které mě zaráží.
Podle záhlaví bam je tento bam soubor seřazen podle souřadnic, vytvořen pomocí tophat a krok markduplicate není Hotovo. Ale některá čtení jsou označena jako duplicitní v samflag. Horší je, když spustím picard markduplicate, přepne se tento příznak duplikátu PCR těchto značek, což je ne duplikát. Také jsem ručně našel duplikát tohoto čtení (identické čtení se stejnými počátečními pozicemi a počátečními kamarády), takže počáteční označení vypadá pravdivě.
Takže moje otázky jsou:
Nějaký nápad, proč by to se stalo?
Znamená to, že značka Tophat je duplicitní? (Nemyslím si) A přepíná picard markduplicate
duplicitní příznak, pokud jsou čtení již označena jako duplikáty?
Zde je způsob, jak čtení vypadá před a po značce duplicitní krok.
Před:
C0RTF 1187 17 7579880 255 61M10754N40M = 7579927 10902 CTC ... 0UNP1 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC .. .
Po Markduplicate:
C0RTF 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC ... 0UNP1 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC .. .