Když se podíváte na všechny soubory genomu dostupné z Ensemblu. Zobrazí se vám spousta možností. Který z nich je nejlepší použít / stáhnout?
Máte několik možností.
Možnosti první části:
- dna_sm - Opakuje měkké maskování (převádí opakující se nukleotidy na malá písmena)
- dna_rm - Opakuje maskované (převádí opakování na N)
- dna - Žádné maskování
Možnosti druhé části:
-
.toplevel - Zahrnuje informace o haplotypu ( nejste si jisti, jak se s tím vyrovnávače vyrovnávají)
-
.primary_assembly - jedna referenční základna na pozici
Právě teď pro analýzu obvykle používám nemaskovanou primární sestavu, takže v případě lidí: Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz
smysl pro standardní RNA-Seq, ChIP-Seq, ATAC-Seq, CLIP-Seq, scRNA-Seq atd ...?
V jakých případech bych upřednostňoval jiné genomy? Které nástroje / zarovnávače zohledňují opakované oblasti s maskovanou maskou?