Začínám seřazeným a indexovaným souborem bam („mapped.bam“) představujícím mapování malých čtení na referenčním genomu a souborem postele („genes.bed“) obsahujícím souřadnice sady funkcí zájem (řekněme, že jsou to geny), pro který chci vypočítat průměrný profil pomocí programů z deeptools. Chtěl bych pochopit jednotlivé kroky, abychom si byli jisti, co představuje svislá osa konečného profilu.
První krok: vytvoření velkého souboru
Vytvořím soubor bigwig ("mapped.bw") ze souboru bam pomocí bamCoverage
takto:
bamCoverage -b mapped.bam -bs 10 -of = bigwig -o mapped.bw
Nápověda bamCoverage
říká:
Pokrytí se počítá jako počet čtení za bin, kde koše jsou krátká po sobě jdoucí okna počítání definované velikosti.
V mém případě jsou koše dlouhé 10 bp. Moje čtení jsou delší než ta.
U daného koše může dané čtení:
-
úplně překrýt koš
-
překrývají přihrádku na n bp, n < 10
-
nepřekrývají přihrádku vůbec
Opravte mě, pokud se mýlím: Myslím, že čtení se počítá jako 1 v případech 1. a 2. a jinak 0 a také předpokládám, že čtení lze počítat pro několik po sobě jdoucích košů, pokud je dostatečně dlouhé .
Druhý krok: průměrování nad geny a vykreslování
Vypočítám „meta profil matici“ („mapped_on_genes.gz“) pomocí oblasti měřítka computeMatrix
takto:
computeMatrix scale-regions \ -S mapped.bw \ -R genes.bed \ --upstream 300 \ --unscaled5prime 500 \ --regionBodyLength 2000 \ --unscaled3prime 500 \ --downstream 300 \ -out mapped_on_genes.gz
(K dispozici je parametr -bs
, jehož výchozí hodnota je podle příkazu 10.)
Používám to k vykreslení profilu usi ng plotProfile
:
plotProfile -m mapped_on_genes.gz \ -out mapped_on_genes_meta_profile.pdf
Získávám profil s hodnotami na ose y. V jakých jednotkách jsou tyto hodnoty?
Můj odhad je následující:
Pro upstream (300 bp) a interní 5-prime (500 bp), protože velikost koše byla stejné v bamCoverage
a computeMatrix
, každý bod na ose x pravděpodobně představuje okno 10 bp a jeho souřadnice y je průměrem v regionech přítomných v souboru lože souboru odpovídající přihrádky v souboru bigwig, takže se jedná o průměrný počet čtení překrývajících se s košem 10 bp.
Totéž na straně 3 a primární straně.
Pro centrální 100 bp část, před průměrováním přes regiony muselo být provedeno nějaké zmenšení nebo rozšíření košů, myslím průměrováním mezi sousedními košmi. Konečná jednotka je tedy stále počet čtení překrývajících se 10 bp bin .
A pokud používám větší koše, měl bych skončit s proporcionálně vyššími hodnotami.
Mám pravdu?