Otázka:
Soubor hg38 GTF s anotacemi RefSeq
Mark Ebbert
2017-09-21 06:17:29 UTC
view on stackexchange narkive permalink

Nejsem si jistý, co mi chybí, ale snažím se najít oficiální soubor hg38 GTF s anotacemi RefSeq. Chtěl bych poskytnout GTF Salmon, abych získal anotace na úrovni genů.

Zde jsou informace o nápovědě Salmona pro --geneMap:

Soubor obsahující mapování přepisů na geny. Pokud je tento soubor poskytnut, bude losos odesílat soubory quant.sf i quant.genes.sf, kde druhý obsahuje agregované odhady četnosti genů. Mapování transkriptu na gen by mělo být poskytnuto buď jako soubor GTF, nebo v jednoduchém formátu odděleném tabulátory, kde každý řádek obsahuje název přepisu a gen, ke kterému patří, oddělené tabulátorem. Přípona souboru se používá k určení, jak má být soubor analyzován. Předpokládá se, že soubory končící na „.gtf“, „.gff“ nebo „.gff3“ jsou ve formátu GTF; Předpokládá se, že soubory s jakoukoli jinou příponou jsou v jednoduchém formátu. Ve formátu GTF / GFF se předpokládá, že „transcript_id“ obsahuje identifikátor transkriptu a „gen_id“ obsahuje odpovídající identifikátor genu.

Tady je to, co jsem zkoušel:

  1. Zdá se, že NCBI poskytuje pouze soubory GFF . Vím, že mezi nimi můžete převádět, ale to mi v minulosti dobře nefungovalo. Oba formáty souborů umožňují velkou volnost, což činí nedbalé převody. Salmon konkrétně hledá poznámky gene_id a transcript_id .
  2. UCSC poskytuje soubory GTF z RefSeq, ale Anotace gene_id je identická s anotací transcript_id (tj. je to číslo NM). Nebo možná existuje možnost, kterou mi chybí.
  3. Ensembl poskytuje přesně formát a všechny informace, v které bych mohl doufat, kromě toho, že transcript_id je Ensembl ID (ENST #) , ne RefSeq (NM #).

Může mi někdo říct, jak získat soubor GTF s anotacemi hg38 RefSeq?

refseq ID jsou na přepis, takže se očekává, že ID genu a přepisu budou stejná. Vzhledem k tomu, co byste jako gen_id chtěli?
@Devon Ryan Hádám ID EntrezGene ID nebo HUGO symbol?
@Mark Ebbert: Jaké jsou vaše následné aplikace? Pokud vím, výstup z lososa nezahrnuje gen_id, takže by nemělo záležet na tom, že je stejný jako transcript_id.
Oceňuji tvou pomoc. Přidal jsem lososovou pomoc na `--geneMap`. Očekávají, že parametr „gene_id“ bude obsahovat „identifikátor genu“. Chápu, že to může být několik věcí, ale dal bych přednost symbolu HUGO, jak navrhl @IanSudbery. Z mého pohledu by měl losos pravděpodobně zacílit na `gene_name`, přinejmenším na to, jak Ensembl formátuje GTF. V obou případech mě překvapil komentář @DevonRyan's, že parametr `gene_id` by se rovnal parametru` transcript_id`. Netvrdím, že tomu tak je, ale k čemu to někomu dělá ?? :-)
@IanSudbery, Nakonec chci agregovat transkripční expresi do rodičovských genů. Včera v noci jsem zjistil, že jeden z autorů Salmon nyní doporučuje `tximport` (https://github.com/COMBINE-lab/salmon/issues/98), který použiji. Není to ale poprvé, co jsem „potřeboval“ RefSeq GTF a nemohl jsem ho najít. Jen mě překvapuje, ale možná to naznačuje, že musím posoudit svůj přístup?
Jeden odpovědět:
Christopher Lee
2017-09-21 23:11:33 UTC
view on stackexchange narkive permalink

Pravděpodobně vás bude zajímat následující wiki stránka UCSC, která vysvětluje, jak přejít od většiny tabulek UCSC k GTF / GFF:
http://genomewiki.ucsc.edu/index.php / Genes_in_gtf_or_gff_format

Základní podstata spočívá v tom, že UCSC neukládá žádná data interně jako GTF nebo GFF, a proto budete muset použít náš nástroj genePredToGtf, abyste mohli konvertovat z našeho interně uloženého genePred formát do GTF / GFF3.

Toto je příkaz, který obvykle zadám, když dostaneme tuto otázku do našeho seznamu adres:

 $ mysql --user = genome --host = genome- mysql.cse.ucsc.edu -A -N -e "vybrat * z refGene" hg19 | řez -f2- | genePredToGtf -source = hg19.refGene.ucsc soubor stdin stdout 

Změňte stdout na výstupní název souboru, který chcete v posledním příkazu získat hg19 refGene GTF soubor:

 chr1 hg19.refGene Přepis .ucsc 11869 14362. +. gen_id "LOC102725121"; transcript_id "NR_148357"; gen_name "LOC102725121"; chr1 hg19.refGene.ucsc exon 11869 12227. +. gen_id "LOC102725121"; transcript_id "NR_148357"; exon_number "1"; exon_id "NR_148357.1"; gen_name "LOC102725121"; chr1 hg19.refGene.ucsc exon 12613 12721. +. gen_id "LOC102725121"; transcript_id "NR_148357"; exon_number "2"; exon_id "NR_148357.2"; gen_name "LOC102725121"; chr1 hg19.refGene.ucsc exon 13221 14362. +. gen_id "LOC102725121"; transcript_id "NR_148357"; exon_number "3"; exon_id "NR_148357.3"; gen_name "LOC102725121"; přepis chr1 hg19.refGene.ucsc 11874 14409. +. gen_id "DDX11L1"; transcript_id "NR_046018"; gene_name "DDX11L1"; ... 

Máte-li další dotazy týkající se dat nebo nástrojů UCSC, neváhejte poslat dotaz na některý z níže uvedených seznamů adresátů:

  • Obecné otázky: genome@soe.ucsc.edu
  • Dotazy týkající se soukromých údajů: genome-www@soe.ucsc.edu
  • Dotazy týkající se zrcadlových stránek: genome-mirror@ose.ucsc. edu
Bylo by docela hezké, kdyby výstup formátu „GTF“ z prohlížeče tabulek UCSC jednoduše vrátil přesně toto (včetně položek „gen“, které vždy chybí). To je druh věcí, které od toho lidé ve skutečnosti očekávají.
Souhlasím, že by to bylo ideální. Problém je v tom, že vrácený gen_id nemusí být tím, co lidé chtějí. Například pokud se pokoušíte získat výstup GTF pro tabulku wgEncodeGencodeBasicV27, chtěli byste genový identifikátor jako DDX11L1 nebo genový identifikátor jako ENSG *? Druhým problémem je prostý formát tabulky genePred, který nemá ani pole name2, tak co v tomto případě přiřadíme jako gene_id? Co když je tabulka nějakou jinou variantou genePred, která také nemá name2? Používáme mnoho různých variant tabulek a je těžké podporovat výstup GTF pro všechny z nich.
@ChristopherLee, to je perfektní, děkuji. Pokud jde o vaši odpověď na komentář @DevonRyan's, mohu ocenit, že je obtížné (a možná nereálné) podporovat všechny možné varianty, ale také bych tvrdil, že HUGO je pravděpodobně to, co většina lidí chce. V obou případech jsem si jist, že hlášení ID přepisu pro * oba * `gene_id` a` transcript_id` není ideální! :-)


Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...