Nejsem si jistý, co mi chybí, ale snažím se najít oficiální soubor hg38
GTF
s anotacemi RefSeq. Chtěl bych poskytnout GTF
Salmon, abych získal anotace na úrovni genů.
Zde jsou informace o nápovědě Salmona pro --geneMap
:
Soubor obsahující mapování přepisů na geny. Pokud je tento soubor poskytnut, bude losos odesílat soubory quant.sf i quant.genes.sf, kde druhý obsahuje agregované odhady četnosti genů. Mapování transkriptu na gen by mělo být poskytnuto buď jako soubor GTF, nebo v jednoduchém formátu odděleném tabulátory, kde každý řádek obsahuje název přepisu a gen, ke kterému patří, oddělené tabulátorem. Přípona souboru se používá k určení, jak má být soubor analyzován. Předpokládá se, že soubory končící na „.gtf“, „.gff“ nebo „.gff3“ jsou ve formátu GTF; Předpokládá se, že soubory s jakoukoli jinou příponou jsou v jednoduchém formátu. Ve formátu GTF / GFF se předpokládá, že „transcript_id“ obsahuje identifikátor transkriptu a „gen_id“ obsahuje odpovídající identifikátor genu.
Tady je to, co jsem zkoušel:
- Zdá se, že NCBI poskytuje pouze soubory
GFF
. Vím, že mezi nimi můžete převádět, ale to mi v minulosti dobře nefungovalo. Oba formáty souborů umožňují velkou volnost, což činí nedbalé převody. Salmon konkrétně hledá poznámkygene_id
atranscript_id
. - UCSC poskytuje soubory
GTF
z RefSeq, ale Anotacegene_id
je identická s anotacítranscript_id
(tj. je to číslo NM). Nebo možná existuje možnost, kterou mi chybí. - Ensembl poskytuje přesně formát a všechny informace, v které bych mohl doufat, kromě toho, že
transcript_id
je Ensembl ID (ENST #) , ne RefSeq (NM #).
Může mi někdo říct, jak získat soubor GTF
s anotacemi hg38 RefSeq?