Jak stáhnu referenční genom, který mohu použít s bowtie2? Konkrétně HG19. Na UCSC existuje spousta možností souborů.
Jak stáhnu referenční genom, který mohu použít s bowtie2? Konkrétně HG19. Na UCSC existuje spousta možností souborů.
Myslím, že jde o preference, ale doporučuji sestavení sestavení. Rozhodněte se, zda chcete sestavu nahoře nebo nahoře a zda chcete soubory s maskovanými, opakovanými nebo nemaskovanými soubory. Schéma pojmenování je velmi jednoduché; kombinace jsou popsány v souboru README
a všechny soubory jsou umístěny v jednom adresáři.
Například pokud chcete demaskovanou primární sestavu, soubor ke stažení by byl Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz
.
Co se týká GoldenPath / UCSC , není třeba stahovat a zřetězovat samostatné chromozomy (na rozdíl od toho, co řekla druhá odpověď); si můžete stáhnout celou (toplevel) referenci z bigZips
adresáře; z README
:
Tento adresář obsahuje sestavu lidského genomu z února 2009 (hg19, GRCh37 Genome Reference Consortium Human Reference 37 (GCA_000001405.1)), stejně jako opakované anotace a sekvence GenBank.
Zde jsou v zásadě tři možnosti:
chromFa.tar.gz
, který obsahuje celý genom v jednom chromozomu na soubor; chromFaMasked.tar.gz
, to samé s opakováním maskovanými N
; hg19.2bit
, což je celý genom v jednom souboru, ale je třeba jej extrahovat pomocí obslužného programu twoBitToFa
, který je třeba stáhnout samostatně. V každém případě si vždy stáhnu referenci a vytvořím svůj vlastní index pro mapování, protože mi to umožňuje větší kontrolu; ne každý možná bude potřebovat tolik kontroly, ale pak je vytváření indexu jednou poměrně rychlé.
tl; dr: Stačí použít buď soubory ke stažení na domovské stránce Bowtie2, nebo Illumina iGenomes. Nebo jednoduše dekomprimujte a zřetězte soubory FASTA nalezené na UCSC goldenpath a poté vytvořte index.
Trochu delší odpověď:
Existují dvě komponenty k " genom pro čtecího mapovače "jako Bowtie nebo BWA.
Nejprve musíte zvolit skutečnou sekvenci (uvolnění genomu jako GRCh37 / hg19 nebo GRCh38 / hg38). Existují vydání patchů, jako je GRCh37.p3, kde je možné vyměňovat některé základny a v závislosti na vydání mohou být přidány některé „nemapované“ lokusové konfigurace, ale obecně je GRCh37.p1 zhruba stejný jako například GRCh37.p2. Lidé se obvykle dohodli na nějaké konkrétní verzi patche pro každé čtení a používají ji pro mapování čtení.
Obecně existuje příchuť UCSC hg19 / hg38 atd. A příchuť NCBI / GRC GRCh37, GRCh38 atd. (podobně jako myš). UCSC nemá kromě vydání genomu žádné verze a podle mého nejlepšího vědomí neaktualizuje sekvenci genomu po vydání souboru FASTA hg19.
Zadruhé, musíte vytvořit indexové soubory pro každý genom. V závislosti na použitém mapovači čtení můžete nebo nebudete potřebovat pro zarovnání původní soubory FASTA. Pro Bowtie a Bowtie 2 nepotřebujete po vytvoření indexu původní soubory FASTA, protože Bowtie 1/2 může rekonstruovat sekvenci „za běhu“ ze souborů indexu.
HTH