Otázka:
Ověřte předpokládaný protein v jednom genomu v jiném genomu stejného druhu
aechchiki
2017-11-13 18:10:21 UTC
view on stackexchange narkive permalink

Mám dvě genomové sestavy stejného nemodelového druhu, nazývám je Sestava 1 (generovaná z údajů Illumina) a Sestava 2 (generovaná z dat PacBio).

Pro Sestavu 1 mám také předpokládaná data proteomu, generovaná pomocí EVM. Řekněme, že existuje protein, říkejte tomu Protein X, pro který mám sekvenci fasta z předpovědí, ale mám podezření na chybu v Assembly 1 (protože Protein X má dlouhý segment auto-identity). Z tohoto důvodu bych chtěl ověřit sestavení lokusu kódujícího Protein X v Sestavě 2 a / nebo ověřit přítomnost Proteinu X v Sestavě 2.

Data v mém vlastnictví:

  • obě genomové sestavy (fasta)
  • surová data rna-seq
  • referenční transkriptomová sestava založená na každé sestavě genomu (fasta / gtf)
  • sada predikovaných proteinových sekvencí na základě shromáždění 1 (fasta)

Věci, na které jsem myslel:

  • vytvořte předpovědi EVM na shromáždění 2 a ověřte identitu Proteinu X jednoduchou kontrolou identity fasta
  • podívejte se na proteinovou sekvenci v Sestavě 2. Pro získání nejpravděpodobnějšího nukleotidu bych mohl použít něco podobného Reverse Translate sekvenci ze vstupní aminokyselinové sekvence proteinu X, pak ji zarovnejte s Assembly 2 a zkontrolujte souřadnice místa, ze kterého pochází - ale nejsem si moc jistý relevantností a / nebo správností tohoto postupu
  • něco, co umožňuje „výbuch“ proteinu sekvence v Assembly 2 (ale nevím o žádném softwaru, který by to dokázal)

Nějaké nápady, jak bych to mohl udělat?

Jeden odpovědět:
terdon
2017-11-13 18:18:19 UTC
view on stackexchange narkive permalink

To by mělo být velmi snadné. Zde je několik možností:

  1. Použijte nástroj jako Osvobození nebo GeneWise, který může při pokusu o přizpůsobení proteinových sekvencí genomové DNA modelovat spojovací weby atd.

  2. Jak jste řekli, odstřelte. Na tom, co popisujete, není nic zvláštního, ve skutečnosti k tomu tBLASTn slouží. Stačí použít váš protein jako sekvenci dotazu a tBLASTn jako příchuť blastu, která vezme proteinový dotaz a porovná jej se všemi 6 možnými čtecími rámečky databáze DNA. Nastavte sestavu jako výbuch DB a poté odstřelte jako obvykle.

Z těchto dvou je použití prvního přístupu mnohem lepší, protože se pokusí vytvořit pro vás platný genový model, místo aby jednoduše našel oblasti s vysokou homologií, protože výbuch bude dělat.

Konečně, pro úplnost můžete jít na starou školu a spustit na své sestavě plný nástroj pro predikci genů de-novo. Například něco jako GeneID. Ale to je jistě přehnané, pokud hledáte jediný gen.



Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...