Mám dvě genomové sestavy stejného nemodelového druhu, nazývám je Sestava 1 (generovaná z údajů Illumina) a Sestava 2 (generovaná z dat PacBio).
Pro Sestavu 1 mám také předpokládaná data proteomu, generovaná pomocí EVM. Řekněme, že existuje protein, říkejte tomu Protein X, pro který mám sekvenci fasta z předpovědí, ale mám podezření na chybu v Assembly 1 (protože Protein X má dlouhý segment auto-identity). Z tohoto důvodu bych chtěl ověřit sestavení lokusu kódujícího Protein X v Sestavě 2 a / nebo ověřit přítomnost Proteinu X v Sestavě 2.
Data v mém vlastnictví:
- obě genomové sestavy (fasta)
- surová data rna-seq
- referenční transkriptomová sestava založená na každé sestavě genomu (fasta / gtf)
- sada predikovaných proteinových sekvencí na základě shromáždění 1 (fasta)
Věci, na které jsem myslel:
- vytvořte předpovědi EVM na shromáždění 2 a ověřte identitu Proteinu X jednoduchou kontrolou identity fasta
- podívejte se na proteinovou sekvenci v Sestavě 2. Pro získání nejpravděpodobnějšího nukleotidu bych mohl použít něco podobného Reverse Translate sekvenci ze vstupní aminokyselinové sekvence proteinu X, pak ji zarovnejte s Assembly 2 a zkontrolujte souřadnice místa, ze kterého pochází - ale nejsem si moc jistý relevantností a / nebo správností tohoto postupu
- něco, co umožňuje „výbuch“ proteinu sekvence v Assembly 2 (ale nevím o žádném softwaru, který by to dokázal)
Nějaké nápady, jak bych to mohl udělat?