Stahování referenčního genomu pro Bowtie2

Otázka:

EMiller

2017-06-01 03:56:27 UTC

view on stackexchange narkive permalink

Jak stáhnu referenční genom, který mohu použít s bowtie2? Konkrétně HG19. Na UCSC existuje spousta možností souborů.

Dva odpovědi:

Konrad Rudolph

2017-06-01 14:38:53 UTC

view on stackexchange narkive permalink

Myslím, že jde o preference, ale doporučuji sestavení sestavení. Rozhodněte se, zda chcete sestavu nahoře nebo nahoře a zda chcete soubory s maskovanými, opakovanými nebo nemaskovanými soubory. Schéma pojmenování je velmi jednoduché; kombinace jsou popsány v souboru README a všechny soubory jsou umístěny v jednom adresáři.

Například pokud chcete demaskovanou primární sestavu, soubor ke stažení by byl Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz .

Co se týká GoldenPath / UCSC , není třeba stahovat a zřetězovat samostatné chromozomy (na rozdíl od toho, co řekla druhá odpověď); si můžete stáhnout celou (toplevel) referenci z bigZips adresáře; z README:

Tento adresář obsahuje sestavu lidského genomu z února 2009 (hg19, GRCh37 Genome Reference Consortium Human Reference 37 (GCA_000001405.1)), stejně jako opakované anotace a sekvence GenBank.

Zde jsou v zásadě tři možnosti:

chromFa.tar.gz , který obsahuje celý genom v jednom chromozomu na soubor;
chromFaMasked.tar.gz , to samé s opakováním maskovanými N ;
hg19.2bit , což je celý genom v jednom souboru, ale je třeba jej extrahovat pomocí obslužného programu twoBitToFa , který je třeba stáhnout samostatně.

V každém případě si vždy stáhnu referenci a vytvořím svůj vlastní index pro mapování, protože mi to umožňuje větší kontrolu; ne každý možná bude potřebovat tolik kontroly, ale pak je vytváření indexu jednou poměrně rychlé.

Myslím, že to vyvolává další otázku „jaký je rozdíl mezi různými verzemi stejného genomu?“. Odpověď na tuto otázku by měla zahrnovat rozdíl mezi analýzou DNA a RNA-seq / funkční genomiky. Ve světě DNA / variant se lidé obecně budou držet všeho, co velké sekvenční projekty / Heng Li rozhodne, že jsou „nejlepší“. Ve světě RNA-seq / funkční genomiky je důležité pečlivé vyléčení genomů, v závislosti na načteném mapovači a také na tom, co podporují následné nástroje (větší sada nástrojů znamená delší ocas méně používaných nástrojů s idiosynkratickými požadavky).

Manuel

2017-06-01 04:21:54 UTC

view on stackexchange narkive permalink

tl; dr: Stačí použít buď soubory ke stažení na domovské stránce Bowtie2, nebo Illumina iGenomes. Nebo jednoduše dekomprimujte a zřetězte soubory FASTA nalezené na UCSC goldenpath a poté vytvořte index.

Trochu delší odpověď:

Existují dvě komponenty k " genom pro čtecího mapovače "jako Bowtie nebo BWA.

Nejprve musíte zvolit skutečnou sekvenci (uvolnění genomu jako GRCh37 / hg19 nebo GRCh38 / hg38). Existují vydání patchů, jako je GRCh37.p3, kde je možné vyměňovat některé základny a v závislosti na vydání mohou být přidány některé „nemapované“ lokusové konfigurace, ale obecně je GRCh37.p1 zhruba stejný jako například GRCh37.p2. Lidé se obvykle dohodli na nějaké konkrétní verzi patche pro každé čtení a používají ji pro mapování čtení.

Obecně existuje příchuť UCSC hg19 / hg38 atd. A příchuť NCBI / GRC GRCh37, GRCh38 atd. (podobně jako myš). UCSC nemá kromě vydání genomu žádné verze a podle mého nejlepšího vědomí neaktualizuje sekvenci genomu po vydání souboru FASTA hg19.

Zadruhé, musíte vytvořit indexové soubory pro každý genom. V závislosti na použitém mapovači čtení můžete nebo nebudete potřebovat pro zarovnání původní soubory FASTA. Pro Bowtie a Bowtie 2 nepotřebujete po vytvoření indexu původní soubory FASTA, protože Bowtie 1/2 může rekonstruovat sekvenci „za běhu“ ze souborů indexu.

HTH

Nevím, jak se mi podařilo vynechat stahování na domovské stránce motýlek. Doufám, že to pomůže někomu jinému!

ⓘ

Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.

about - legalese