Otázka:
Jak oříznout sekvence adaptéru z GSE65360 za účelem mapování čtení?
firefly
2017-12-06 04:35:12 UTC
view on stackexchange narkive permalink

Snažím se mapovat jednobuněčná data o dostupnosti chromatinu z doi: 10.1038 / nature14590, získaná pomocí scATAC-seq, na referenční genom. Příklad párovaných čtení je zde.

Čtení obsahují různé sekvence adaptérů, které autoři „ořezali z FASTQ pomocí vlastních skriptů pythonu“ [ ref ]. Mám potíže s reprodukcí tohoto ořezávání. Používali adaptéry Nextera Transposase

TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG

a vlastní adaptéry čárových kódů, které jsou uvedeny [ zde]. Výňatek z tohoto seznamu:

TCGTCGGCAGCGTCAGATGTGTAT Vlastní Čárové kódy adaptér 2 (index i7): CAAGCAGAAGACGGCATACGAGAT ACCCAGCA GTCTCGTGGGCTCGGAGATGTG CAAGCAGAAGACGGCATACGAGAT CCCAACCT GTCTCGTGGGCTCGGAGATGTG CAAGCAGAAGACGGCATACGAGAT CACCACAC GTCTCGTGGGCTCGGAGATGTG

Analýza souborů FASTA pomocí FastQC ukázala, že reverzní komplement těchto sekvencí byl v datech nadměrně zastoupen a také potvrdil adaptéry Nextera Transposase.

Snažil jsem se sekvence ořezat pomocí cutadapt :

cutadapt --minimum-length = 20 -a CACATCTCCGAGCCCACGAGAC -a CTGTCTCTTATA -A ATACACATCTGACGCTGCCGACGA -A CTGTCTCTTATA -o SRR1780164_1_trimmed.fastq.gz -p SRR1780164_2_trimmed.fastq.gz SRR1780164_1.fastq.gz SRR1780164_2.fastq.gz

s opakováním

  • CACATCTCCGAGCCCACGAGAC doplněk 2. fixní části adaptérů i7
  • ATACACATCTGACGCTGCCGACGA je opačným doplňkem 2. fixní části adaptérů i5
  • CTGTCTCTTATA pro adaptéry Nextera Transposase

FastQC neoznačuje nadměrně zastoupené sekvence ve výsledných souborech FASTA, stále však označuje adaptéry Nextera Transposase v souborech _1. Na druhou stranu, poté, co TrimGalore odstraní CTGTCTCTTATA , nebudou již z nějakého důvodu indikovány Nextra adaptéry.

Dále, mapování čtení pomocí bowtie2

bowtie2 -x GRCh38_primary_assembly_index -1 SRR1780164_1_trimmed.fastq.gz -2 SRR1780164_2_trimmed.fastq.gz > SRR1780164.sam

má za následek nízkou míru zarovnání

  1352 (2,79%) zarovnáno shodně přesně 1krát 3420 (7,07%) zarovnáno shodně >1 krát 11,25% celková míra zarovnání  

což mi dává dojem, že jsem to udělal něco špatně během ořezávání adaptéru.

Jakákoli pomoc by byla velmi oceněna.

-

Upravit: Protože si nejsem jistý, jaké sekvence se mají použít pro ořezávání Zkoušel jsem také -a CTGTCTCTTATACACATCTCCGAGCCCACGAGAC -A CTGTCTCTTATACACATCTGACGCTGCCGACGA , jak bylo nalezeno v návrhu pro Nextera Adapters, ale neodstranil nadměrné zastoupení sekvence v souboru -1. -a CACATCTCCGAGCCCACGAGAC -a CTGTCTCTTATACACATCTCCGAGCCCACGAGAC -A CTGTCTCTTATACACATCTGACGCTGCCGACGA řeší problémy s adaptéry podle FastQC, ale také neposkytuje dobré výsledky mapování.

Jeden odpovědět:
Bioathlete
2017-12-08 10:14:38 UTC
view on stackexchange narkive permalink

První adaptéry Nextera a adaptéry na zakázku s čárovými kódy se navzájem překrývají

  Nextera 1 TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG čárových kódů 1 GATACGGCGACCACCGAGATCTACACTAGATCGCTCGTCGGCAGCGTCAGATGTGTAT Nextera 2 GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGBarcode 2 CAAGCAGAAGACGGCATACGAGATACCCAGCAGTCTCGTGGGCTCGGAGATGTG  

Při pohledu na některé číst 1 s a číst 2 s jste měli pravdu, že se adaptéry objeví na 3 'konci přečtené reverzní komplimenty ( | > ukazuje na adaptér v pořadí). Vidíte, že CTGTCTCTTATACACA by byla ideální posloupnost, kterou lze použít pro 3 'konec čtení. Vzhledem k tomu, adaptér Nextera a čárovým kódem přesah abyste museli použít ten, který je přilehlý k vložce

  SRR1780164_2.fastq: GCCCGAGGGGACGCTGCCCCACGTGCTCCAGG | > CTGTCTCTTATACACATCTGACGCTGCCGACGATGCACGAAGTGSRR1780164_1.fastq:. GGGCTGGACAGCGGCGGGGACGCGGACCTGCAG | > CTGTCTCTTATACACATCTCCGAGCCCACGAGACACAAAGTGA  

Ze 64k čtení je ~ 11k s adaptérem Nextera na 3 'konci založeném na hrubé posloupnosti grep

Na 5' konci čtení je k dispozici nějaký adaptér Nextera, ale není to reverzní kompliment a existuje jen hrstka čtení s přítomným adaptérem ~ celkem 250 mezi čtením 1 a čtením 2.

  SRR1780164_2.fastq : TGGGCTCGGAGATGTGTATAAGAGACAG < | CTCCCCCGCCTCCAGCATCCGGGCGAGGTAGTGCATCGACGCGTCCAC  

Použil jsem tento příkaz:

  cutadapt --minimum-length = 20 -A CTGTCTCTTATACACA -a CTGTCTCTTATACACG-GATGTGATGTGAT .fastq.gz -p SRR1780164_2_trimmed.fastq.gz SRR1780164_1.fastq SRR1780164_2.fastq  

Což dává ořezový výsledek

  === Shrnutí == = Celkový počet zpracovaných párů čtení: 64 832 Číst 1 s adaptérem: 16 721 (25,8%)
Číst 2 s adaptérem: 16 996 (26,2%) Příliš krátké páry: 46 (0,1%) Napsané páry (předávání filtrů): 64 786 (99,9%)  

Myslím, že to nejlépe představuje konstrukt knihovny a ořezávání sekvencí adaptérů



Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...