Otázka:
Canu shromáždění nedělá jediný konsenzus?
thestatnoob
2017-12-03 02:35:38 UTC
view on stackexchange narkive permalink

Stáhl jsem čtení z tohoto BioProjectu. Použitím canu s výchozími parametry (bez korekce) mám 4 kontigy, z nichž žádný opravdu nevypadá jako referenční plazmid zde.

Příkaz, který jsem použil, byl:

  canu -p ip40a -d ip40a_assembly -useGrid = false -maxThreads = 6 -genomeSize = 175k -nanopore-raw reads.fastq  

Grant, původní publikace pro tuto sekvenci byl použit minimapa / miniasmus, ale moje otázky jsou:

A. Proč dostávám více kontigů? Nevytváří canu jedinou sestavenou sekvenci?

B. Toto je plazmid, ale canu říká suggestCircular = false . Co se tady děje?

Dva odpovědi:
Bioathlete
2017-12-03 04:09:15 UTC
view on stackexchange narkive permalink

Zdá se, že odkaz, který jste zadali, se zdá být pouze 30% přečtených. coli. Navrhoval bych filtrování čtení pro ty, které se shodují s e. coli a uvidíš, kam se to dostane. Popsala původní publikace metodu, kterou použili k čištění dat?

A:

  https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?run=SRR3385327 Neidentifikovaná čtení: 68,82% Identifikovaná čtení : 31,18% buněčné organismy: 30% Bakterie: 30% Proteobakterie: 28,09% Gammaproteobakterie: 19,7% Enterobacterales: 13,3% Enterobacteriaceae: 12,54% Vibrionales: 0,01% Viry: 1,17%  

B:

Bez dobré sestavy nebude canu schopen určit, zda je shromážděný genom kruhový. Ignoroval bych to, dokud nebudete mít dobrý příklad.

Bohužel se zdá, že původní publikace říká „sestaveno miniasmem / minimapou“ (v těchto řádcích) a snažím se přijít na to, jak mluvíme o potrubí - nic nenasvědčuje tomu, zda byla čtení opravena chyba atd.
Jak bych také filtroval čtení E. coli?
Zarovnal bych čtení s referencí plazmidu a zjistil jsem, kolik je zarovnáno a jak vypadá pokrytí odkazu. Existují nějaké oblasti odkazu, které jsou odkryté. jak rovnoměrné je pokrytí v rámci reference. To jsou věci, které vám mohou pomoci pochopit, co můžete od shromáždění očekávat.
Vypadá to, že je to vlastně naopak, co @thestatnoob musí udělat: vyloučit * E. coli * čte, místo toho, aby je vybral
Správně, má referenční plasmid, který se pokouší sestavit. Musí vybrat pro tato čtení za předpokladu, že pokrytí vyrovnání ukazuje, že sestavení je dokonce užitečné.
gringer
2017-12-03 06:37:18 UTC
view on stackexchange narkive permalink

E. genom coli se blíží velikosti 4,6 Mb; pokud je tam velké množství hostitelských čtení, pak přebírají čtení a nebude tam dost pro váš cílový plazmid. Ve výchozím nastavení se pokusí shromáždit pouze z maximálně ~ 40násobného pokrytí specifikované velikosti genomu (vyšší hodnoty nepřidávají žádné další informace pro sestavení).

Je možné, že miniasma převezme všechna čtení do účet, spíše než jen část přečtení. Možná budete muset odfiltrovat E. coli čte, aby tato sestava fungovala správně.

Co se vyplatí, výchozí parametry Canu do zahrnují opravný krok.

Ano, ale čtení není pro genom E. coli. Je to pro plazmid v E. coli, který je určitě v oblasti 170-180k (ve skutečnosti jsem dostal číslo z ENA ...). V podstatě se jen snažím rekonstruovat konsensuální plazmid, který autoři mají, a místo miniasmu používám canu.


Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...