Jak se vypořádat s heterozygotností během leštění genomové sestavy na základě dlouhých čtení?

Otázka:

Kamil S Jaron

2017-05-21 16:49:59 UTC

view on stackexchange narkive permalink

Všechny platformy pro dlouhé čtení sekvencí jsou založeny na sekvenování jedné molekuly, což způsobuje vyšší míru chyb na bázi. Z tohoto důvodu byl do potrubí shromáždění genomu přidán krok leštění - mapování raw čte zpět na shromáždění a opravu podrobností shromáždění.

Mám slušný soubor dat PacBio RSII jediného individuálního genomu silně heterozygotních nemodelských druhů . Sestavení proběhlo dobře, ale když jsem se pokusil vyleštit sestavu pomocí toulce, nemohlo se to sblížit během několika iterací a vsadím se, že je to kvůli příliš velké odlišnosti haplotypů. Existuje nějaký jiný způsob, jak vyleštit genom s takovými vlastnostmi? Existuje například způsob, jak oddělit dlouhá čtení podle haplotypu, takže bych mohl vyleštit pouze pomocí jednoho haplotypu?

Dva odpovědi:

roblanf

2017-05-22 08:36:12 UTC

view on stackexchange narkive permalink

Několik možností:

Falcon

Vyzkoušejte sokol a rozbalte sokol. Ty jsou určeny přesně pro váš problém a vaše data: https://github.com/PacificBiosciences/FALCON

Not Falcon

Pokud si myslíte, že jste sestavili haplotypy (což se zdá být rozumné očekávat při dostatečném pokrytí), měli byste být schopni tyto dva haplotypy vidět pouhým provedením všech párových zarovnání vašich kontig. Haplotypy by se měly ukázat jako dvojice kontigů, které jsou mnohem podobnější (i se spoustou divergence mezi haplotypy) než jiné páry. Jakmile budete mít všechny takové páry, můžete jednoduše vybrat jeden z každého páru k vyleštění.

Opravdu mám obě haplotypové sekvence. Získal jsem je pomocí nástroje s názvem [haplomerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592). Ale tento nástroj produkuje chimérickou haploidní sestavu, proto to nejsou skutečně správně fázované haplotypy. Falcon-unzip je skutečně software, který by mohl fungovat. V té době to bylo příliš mladé na to, abych to zkusil, ale teď bych to mohl zkusit dát znovu.

gringer

2017-05-22 13:12:38 UTC

view on stackexchange narkive permalink

Můžete se také podívat na Canu. Je navržen pro dlouhé čtení (PacBio i Nanopore), i když ne konkrétně pro složité sekvenování populace. Pokouší se svléknout genom do svých jedinečných komponent a generuje cesty z těch komponent, které jsou při čtení dobře podporovány.

Pokud jde o leštění, zdá se, že leštění není konvergovat a bude spousta variant, které jen oscilují mezi dvěma možnostmi. Pro mě a alespoň jednu další osobu na London Calling v letošním roce nebyl v podstatě žádný zisk v přesnosti pro leštění kolem třetí iterace. Použil jsem svůj vlastní algoritmus pro opravu chyb, ale použili „standardnější“ leštění s Pilonem. Za to stojí za to, že nanopore WGS konsorcium použilo Racon k leštění svých sestav Canu.

Vlastně jsem sestavil genom pomocí Canu, dostal jsem ~ 2x haploidní velikost genomu, který jsem zhroutil na haplotypy pomocí [HaploMerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592). vězte, že globálně je shromáždění dobré. Je třeba to jen vyleštit.

Ano, ano Omlouvám se, podíval jsem se na první odpověď a předpokládal jsem, že jde jen o montáž. Teď si uvědomuji, že otázka byla spíše o * leštění * než o montáži.

@gringer Také jsem se snažil vyleštit vysoce heterozygotní genomovou sestavu (generovanou canu) pomocí Raconu (Toulec by zhroutil haplotypy), ale nemohl jsem získat uspokojivý výstup (v zásadě se žádná statistika nezměnila). nějaká rada?

Mým obecným doporučením by v tuto chvíli bylo použít nanopolish v methylačním režimu ke korekci, pak Pilon s Illuminou čte * pouze * korekci fragmentů homopolymeru (tj. Bez korekce SNP a bez lešení s dlouhým dosahem). Na základě toho: https: //github.com/rrwick/Basecalling-comparison#methylation

ⓘ

Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.

about - legalese