Ověřte předpokládaný protein v jednom genomu v jiném genomu stejného druhu

aechchiki

2017-11-13 18:10:21 UTC

view on stackexchange narkive permalink

Mám dvě genomové sestavy stejného nemodelového druhu, nazývám je Sestava 1 (generovaná z údajů Illumina) a Sestava 2 (generovaná z dat PacBio).

Pro Sestavu 1 mám také předpokládaná data proteomu, generovaná pomocí EVM. Řekněme, že existuje protein, říkejte tomu Protein X, pro který mám sekvenci fasta z předpovědí, ale mám podezření na chybu v Assembly 1 (protože Protein X má dlouhý segment auto-identity). Z tohoto důvodu bych chtěl ověřit sestavení lokusu kódujícího Protein X v Sestavě 2 a / nebo ověřit přítomnost Proteinu X v Sestavě 2.

Data v mém vlastnictví:

obě genomové sestavy (fasta)
surová data rna-seq
referenční transkriptomová sestava založená na každé sestavě genomu (fasta / gtf)
sada predikovaných proteinových sekvencí na základě shromáždění 1 (fasta)

Věci, na které jsem myslel:

vytvořte předpovědi EVM na shromáždění 2 a ověřte identitu Proteinu X jednoduchou kontrolou identity fasta
podívejte se na proteinovou sekvenci v Sestavě 2. Pro získání nejpravděpodobnějšího nukleotidu bych mohl použít něco podobného Reverse Translate sekvenci ze vstupní aminokyselinové sekvence proteinu X, pak ji zarovnejte s Assembly 2 a zkontrolujte souřadnice místa, ze kterého pochází - ale nejsem si moc jistý relevantností a / nebo správností tohoto postupu
něco, co umožňuje „výbuch“ proteinu sekvence v Assembly 2 (ale nevím o žádném softwaru, který by to dokázal)

Nějaké nápady, jak bych to mohl udělat?