Soubor hg38 GTF s anotacemi RefSeq

Mark Ebbert

2017-09-21 06:17:29 UTC

view on stackexchange narkive permalink

Nejsem si jistý, co mi chybí, ale snažím se najít oficiální soubor hg38 GTF s anotacemi RefSeq. Chtěl bych poskytnout GTF Salmon, abych získal anotace na úrovni genů.

Zde jsou informace o nápovědě Salmona pro --geneMap:

Soubor obsahující mapování přepisů na geny. Pokud je tento soubor poskytnut, bude losos odesílat soubory quant.sf i quant.genes.sf, kde druhý obsahuje agregované odhady četnosti genů. Mapování transkriptu na gen by mělo být poskytnuto buď jako soubor GTF, nebo v jednoduchém formátu odděleném tabulátory, kde každý řádek obsahuje název přepisu a gen, ke kterému patří, oddělené tabulátorem. Přípona souboru se používá k určení, jak má být soubor analyzován. Předpokládá se, že soubory končící na „.gtf“, „.gff“ nebo „.gff3“ jsou ve formátu GTF; Předpokládá se, že soubory s jakoukoli jinou příponou jsou v jednoduchém formátu. Ve formátu GTF / GFF se předpokládá, že „transcript_id“ obsahuje identifikátor transkriptu a „gen_id“ obsahuje odpovídající identifikátor genu.

Tady je to, co jsem zkoušel:

Zdá se, že NCBI poskytuje pouze soubory GFF . Vím, že mezi nimi můžete převádět, ale to mi v minulosti dobře nefungovalo. Oba formáty souborů umožňují velkou volnost, což činí nedbalé převody. Salmon konkrétně hledá poznámky gene_id a transcript_id .
UCSC poskytuje soubory GTF z RefSeq, ale Anotace gene_id je identická s anotací transcript_id (tj. je to číslo NM). Nebo možná existuje možnost, kterou mi chybí.
Ensembl poskytuje přesně formát a všechny informace, v které bych mohl doufat, kromě toho, že transcript_id je Ensembl ID (ENST #) , ne RefSeq (NM #).

Může mi někdo říct, jak získat soubor GTF s anotacemi hg38 RefSeq?

refseq ID jsou na přepis, takže se očekává, že ID genu a přepisu budou stejná. Vzhledem k tomu, co byste jako gen_id chtěli?

@Devon Ryan Hádám ID EntrezGene ID nebo HUGO symbol?

@Mark Ebbert: Jaké jsou vaše následné aplikace? Pokud vím, výstup z lososa nezahrnuje gen_id, takže by nemělo záležet na tom, že je stejný jako transcript_id.

Oceňuji tvou pomoc. Přidal jsem lososovou pomoc na `--geneMap`. Očekávají, že parametr „gene_id“ bude obsahovat „identifikátor genu“. Chápu, že to může být několik věcí, ale dal bych přednost symbolu HUGO, jak navrhl @IanSudbery. Z mého pohledu by měl losos pravděpodobně zacílit na `gene_name`, přinejmenším na to, jak Ensembl formátuje GTF. V obou případech mě překvapil komentář @DevonRyan's, že parametr `gene_id` by se rovnal parametru` transcript_id`. Netvrdím, že tomu tak je, ale k čemu to někomu dělá ?? :-)

@IanSudbery, Nakonec chci agregovat transkripční expresi do rodičovských genů. Včera v noci jsem zjistil, že jeden z autorů Salmon nyní doporučuje `tximport` (https://github.com/COMBINE-lab/salmon/issues/98), který použiji. Není to ale poprvé, co jsem „potřeboval“ RefSeq GTF a nemohl jsem ho najít. Jen mě překvapuje, ale možná to naznačuje, že musím posoudit svůj přístup?

chr1 hg19.refGene Přepis .ucsc 11869 14362. +. gen_id "LOC102725121"; transcript_id "NR_148357"; gen_name "LOC102725121"; chr1 hg19.refGene.ucsc exon 11869 12227. +. gen_id "LOC102725121"; transcript_id "NR_148357"; exon_number "1"; exon_id "NR_148357.1"; gen_name "LOC102725121"; chr1 hg19.refGene.ucsc exon 12613 12721. +. gen_id "LOC102725121"; transcript_id "NR_148357"; exon_number "2"; exon_id "NR_148357.2"; gen_name "LOC102725121"; chr1 hg19.refGene.ucsc exon 13221 14362. +. gen_id "LOC102725121"; transcript_id "NR_148357"; exon_number "3"; exon_id "NR_148357.3"; gen_name "LOC102725121"; přepis chr1 hg19.refGene.ucsc 11874 14409. +. gen_id "DDX11L1"; transcript_id "NR_046018"; gene_name "DDX11L1"; ...