Snažím se mapovat jednobuněčná data o dostupnosti chromatinu z doi: 10.1038 / nature14590, získaná pomocí scATAC-seq, na referenční genom. Příklad párovaných čtení je zde.
Čtení obsahují různé sekvence adaptérů, které autoři „ořezali z FASTQ pomocí vlastních skriptů pythonu“ [ ref ]. Mám potíže s reprodukcí tohoto ořezávání. Používali adaptéry Nextera Transposase
TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG
a vlastní adaptéry čárových kódů, které jsou uvedeny [ zde]. Výňatek z tohoto seznamu:
TCGTCGGCAGCGTCAGATGTGTAT Vlastní Čárové kódy adaptér 2 (index i7): CAAGCAGAAGACGGCATACGAGAT ACCCAGCA GTCTCGTGGGCTCGGAGATGTG CAAGCAGAAGACGGCATACGAGAT CCCAACCT GTCTCGTGGGCTCGGAGATGTG CAAGCAGAAGACGGCATACGAGAT CACCACAC GTCTCGTGGGCTCGGAGATGTG
Analýza souborů FASTA pomocí FastQC ukázala, že reverzní komplement těchto sekvencí byl v datech nadměrně zastoupen a také potvrdil adaptéry Nextera Transposase.
Snažil jsem se sekvence ořezat pomocí
cutadapt --minimum-length = 20 -a CACATCTCCGAGCCCACGAGAC -a CTGTCTCTTATA -A ATACACATCTGACGCTGCCGACGA -A CTGTCTCTTATA -o SRR1780164_1_trimmed.fastq.gz -p SRR1780164_2_trimmed.fastq.gz SRR1780164_1.fastq.gz SRR1780164_2.fastq.gz
s opakováním
-
CACATCTCCGAGCCCACGAGAC
doplněk 2. fixní části adaptérů i7 -
ATACACATCTGACGCTGCCGACGA
je opačným doplňkem 2. fixní části adaptérů i5 -
CTGTCTCTTATA
pro adaptéry Nextera Transposase
FastQC neoznačuje nadměrně zastoupené sekvence ve výsledných souborech FASTA, stále však označuje adaptéry Nextera Transposase v souborech _1. Na druhou stranu, poté, co TrimGalore odstraní CTGTCTCTTATA
, nebudou již z nějakého důvodu indikovány Nextra adaptéry.
Dále, mapování čtení pomocí bowtie2
bowtie2 -x GRCh38_primary_assembly_index -1 SRR1780164_1_trimmed.fastq.gz -2 SRR1780164_2_trimmed.fastq.gz > SRR1780164.sam
má za následek nízkou míru zarovnání
1352 (2,79%) zarovnáno shodně přesně 1krát 3420 (7,07%) zarovnáno shodně >1 krát 11,25% celková míra zarovnání
což mi dává dojem, že jsem to udělal něco špatně během ořezávání adaptéru.
Jakákoli pomoc by byla velmi oceněna.
-
Upravit: Protože si nejsem jistý, jaké sekvence se mají použít pro ořezávání Zkoušel jsem také -a CTGTCTCTTATACACATCTCCGAGCCCACGAGAC -A CTGTCTCTTATACACATCTGACGCTGCCGACGA
, jak bylo nalezeno v návrhu pro Nextera Adapters, ale neodstranil nadměrné zastoupení sekvence v souboru -1. -a CACATCTCCGAGCCCACGAGAC -a CTGTCTCTTATACACATCTCCGAGCCCACGAGAC -A CTGTCTCTTATACACATCTGACGCTGCCGACGA
řeší problémy s adaptéry podle FastQC, ale také neposkytuje dobré výsledky mapování.