Jakou verzi genomu Ensembl mám použít pro zarovnání? (např. toplevel.fa vs. primary_assembly.fa)

Otázka:

Jakou verzi genomu Ensembl mám použít pro zarovnání? (např. toplevel.fa vs. primary_assembly.fa)

story

2017-06-07 18:23:52 UTC

view on stackexchange narkive permalink

Když se podíváte na všechny soubory genomu dostupné z Ensemblu. Zobrazí se vám spousta možností. Který z nich je nejlepší použít / stáhnout?

Máte několik možností.

Možnosti první části:

dna_sm - Opakuje měkké maskování (převádí opakující se nukleotidy na malá písmena)
dna_rm - Opakuje maskované (převádí opakování na N)
dna - Žádné maskování

Možnosti druhé části:

.toplevel - Zahrnuje informace o haplotypu ( nejste si jisti, jak se s tím vyrovnávače vyrovnávají)
.primary_assembly - jedna referenční základna na pozici

Právě teď pro analýzu obvykle používám nemaskovanou primární sestavu, takže v případě lidí: Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz

smysl pro standardní RNA-Seq, ChIP-Seq, ATAC-Seq, CLIP-Seq, scRNA-Seq atd ...?

V jakých případech bych upřednostňoval jiné genomy? Které nástroje / zarovnávače zohledňují opakované oblasti s maskovanou maskou?

Relevantní příspěvek na blogu: http://genomespot.blogspot.ch/2015/06/mapping-ngs-data-which-genome-version.html

Jaký druh „zarovnání“? Protein tblastn? Zarovnání celého genomu? Zarovnání čtení NGS? Zarovnání na genové úrovni?

čtyři odpovědi:

Devon Ryan

2017-06-07 18:29:18 UTC

view on stackexchange narkive permalink

Málokdy je dobrý důvod použít hard-maskovaný genom (někdy k výbuchu, ale to je vše). Z tohoto důvodu používáme soft-maskované genomy, které mají tu výhodu, že ukazují zhruba, kde jsou opakování (nikdy to nevyužíváme pro naše experimenty * -seq, ale jsou tam pro případ, že bychom někdy chtěli).

Pro primární vs. toplevel dokáže velmi málo zarovnávačů správně zpracovat další haplotypy. Pokud náhodou používáte BWA, pak by vám sestava toplevel prospěla. Pro STAR / hisat2 / bowtie2 / BBmap / atd. haplotypy vám způsobí problémy kvůli nesprávnému zvýšení rychlosti multimapperů. Upozorňujeme, že žádný z nich ve skutečnosti nepoužívá maskování.

Existují nějaké de bruijnské typy grafů, které využívají informace o haplotypu?

Ne, že alespoň vím.

user172818

2017-06-07 20:04:08 UTC

view on stackexchange narkive permalink

Obecně byste měli používat měkkou maskovanou nebo nemaskovanou primární sestavu. Mezidruhové zarovnávače celého genomu, zejména starší, potřebují znát regiony s měkkou maskou; jinak mohou být neprakticky pomalé pro savčí genomy. Moderní zarovnávače čtení jsou navrženy tak, aby efektivně fungovaly s opakováním, a proto nemusí vidět měkkou masku.

U GRCh38 bych ale doporučil použít oficiální build na GRC FTP. Většina lidí si pravděpodobně vybere „no_alt_analysis_set“. Používání verze Ensembl se nedoporučuje kvůli pojmenování chromozomů. U GRCh38 používáme častěji „chr1“ místo „1“. V jednom okamžiku Ensembl skutečně souhlasil s použitím „chr1“ také, ale myslím, že se tak nestalo kvůli technickým problémům.

Pokud jde o alternativní haplotypy, většina zarovnávačů s nimi nemůže pracovat ; Žádní variantní volající nemohou využít výhod těchto sekvencí. Když se srovnáte s referenčním genomem obsahujícím haplotypy se zarovnávačem, který tyto další sekvence nepodporuje, získáte špatné výsledky mapování.

Chris_Rands

2017-06-07 19:08:52 UTC

view on stackexchange narkive permalink

Které nástroje / zarovnávače berou v úvahu oblasti opakování softmasked?

Pokud děláte celý genom - zarovnání celého genomu (spíše než číst zarovnání), pak použijete genom softmasked je rozhodně nejlepší. Nástroje vhodné pro takový úkol zarovnání ve velkém měřítku mají tendenci ve svých počátečních krocích úplně přeskočit označená opakování, aby se zabránilo vytváření falešných krátkých zarovnání, které mohou mít obrovský dopad na výkon z hlediska využití času a paměti. Například LASTZ přeskočí malá písmena během fáze očkování.

Kapeel Chougule

2017-06-07 19:44:42 UTC

view on stackexchange narkive permalink

TOPLEVEL

Tyto soubory obsahují všechny oblasti sekvencí označené jako toplevel v Ensemblschema. To zahrnuje chromozomy, oblasti neshromážděné do chromozomů a N polstrované oblasti haplotypu / záplaty.

Např .: Použil jsem měkké maskované sestavy pro anotační kanály genomu, jako je MAKER, také toplevel unmasked ones pro RNA-seq, ChipSeq analýza

PRIMARY ASSEMBLY

Primární sestava obsahuje všechny oblasti sekvence toplevel s výjimkou haplotypů a oprav. Tento soubor je nejvhodnější použít k vyhledávání podobnosti sekvencí, kde by sekvence patchů a haplotypů mohly matou analýzu.

ⓘ

Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.

about - legalese

Loading...