Otázka:
Lze použít přizpůsobený soubor GRCh38 .gtf s některou z vydaných oprav GRCh38?
TasosGlrs
2017-06-09 14:15:27 UTC
view on stackexchange narkive permalink

Dostal jsem přizpůsobený soubor GRCh38.79 .gtf (upravený tak, aby neobsahoval žádné geny MT) a potřebuji z něj vytvořit referenční genom (pro potrubí 10xGenomics CellRanger). Mám podezření, že část .79 je číslo Ensembl, které je podle tohoto seznamu archivu souborů spárováno s opravou GRCh38.p2.

Mám použít soubor fasta této opravy nebo bylo by v pořádku použít některou z oprav GRCh38?

Zvažovali jste zasílání e-mailů 10xGenomics a dotazování? Už jim platíte peníze za jejich produkty, takže vám odpoví.
Vím, jak vytvořit referenční genom pomocí cellrangeru, v takovém případě by mohli pomoci. Moje otázka je více o tom, jak funguje verzování GRCh ##, pro které si myslím, že zde je lepší a rozhodně rychlejší místo, kde se ptát, než 10xGenomics.
Různá vydání Ensembl jsou spojena s patche genomu s různými patchovými kontigy, takže se stává otázkou, zda jejich software zvládne chybějící kontigy.
Dobře, správně! To je otázka, kterou bych jim měl položit. Díky @DevonRyan. Pokud je však jejich odpověď kladná, bylo by stále podstatně lepší použít obě části stejného vydání, nebo to moc nezměnilo?
Pokud to nerozbije jejich software, pak by to nemělo vadit :) Ve skutečnosti je triviální odstranit celý chromozom z GTF, takže stačí použít GTF / fasta z nejnovějšího vydání Ensembl a dostanete o něco spolehlivější výsledky.
BTW, buďte povzbuzeni, abyste zveřejnili svou odpověď, od té doby bude indexována na google.
Jeden odpovědět:
tweirick
2017-06-11 04:09:04 UTC
view on stackexchange narkive permalink

Přesnou sestavu si můžete prohlédnout v souboru README na stránce ke stažení genomu Ensemblu. ftp://ftp.ensembl.org/pub/release-89/fasta/homo_sapiens/dna/README

Jak vidíte, aktuální sestava je GCA_000001405.25. Ensembl 79 používá verzi GCA_000001405.17. Můžete očekávat určité rozdíly mezi verzemi sestavení.

Pokud se podíváte na https://www.ncbi.nlm.nih.gov/assembly?term=GRCh38&cmd=DetailsSearch

Můžete vidět, že 20 466 394 bp bylo přidáno od 17 -> 25. To je jen asi 0,6% změna, takže bych hádal, že mezi těmito verzemi není až tak velký rozdíl. Kdybych však byl tebou, použil bych odpovídající verzi Ensemblu. Ještě lepší by bylo použití nejnovější verze Ensemblu, protože mezi verzemi se může měnit nejen primární sekvence genomů, ale také pozice genů ( https://doi.org/10.1093/bib/bbw017) .



Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...