Otázka:
Jakou jednotku dostanu na ose y grafu metagenového profilu?
bli
2017-06-09 20:08:41 UTC
view on stackexchange narkive permalink

Začínám seřazeným a indexovaným souborem bam („mapped.bam“) představujícím mapování malých čtení na referenčním genomu a souborem postele („genes.bed“) obsahujícím souřadnice sady funkcí zájem (řekněme, že jsou to geny), pro který chci vypočítat průměrný profil pomocí programů z deeptools. Chtěl bych pochopit jednotlivé kroky, abychom si byli jisti, co představuje svislá osa konečného profilu.

První krok: vytvoření velkého souboru

Vytvořím soubor bigwig ("mapped.bw") ze souboru bam pomocí bamCoverage takto:

  bamCoverage -b mapped.bam -bs 10 -of = bigwig -o mapped.bw  

Nápověda bamCoverage říká:

Pokrytí se počítá jako počet čtení za bin, kde koše jsou krátká po sobě jdoucí okna počítání definované velikosti.

V mém případě jsou koše dlouhé 10 bp. Moje čtení jsou delší než ta.

U daného koše může dané čtení:

  1. úplně překrýt koš

  2. překrývají přihrádku na n bp, n < 10

  3. nepřekrývají přihrádku vůbec

Opravte mě, pokud se mýlím: Myslím, že čtení se počítá jako 1 v případech 1. a 2. a jinak 0 a také předpokládám, že čtení lze počítat pro několik po sobě jdoucích košů, pokud je dostatečně dlouhé .

Druhý krok: průměrování nad geny a vykreslování

Vypočítám „meta profil matici“ („mapped_on_genes.gz“) pomocí oblasti měřítka computeMatrix takto:

  computeMatrix scale-regions \ -S mapped.bw \ -R genes.bed \ --upstream 300 \ --unscaled5prime 500 \ --regionBodyLength 2000 \ --unscaled3prime 500 \ --downstream 300 \ -out mapped_on_genes.gz  

(K dispozici je parametr -bs , jehož výchozí hodnota je podle příkazu 10.)

Používám to k vykreslení profilu usi ng plotProfile :

  plotProfile -m mapped_on_genes.gz \ -out mapped_on_genes_meta_profile.pdf  

Získávám profil s hodnotami na ose y. V jakých jednotkách jsou tyto hodnoty?

Můj odhad je následující:

Pro upstream (300 bp) a interní 5-prime (500 bp), protože velikost koše byla stejné v bamCoverage a computeMatrix , každý bod na ose x pravděpodobně představuje okno 10 bp a jeho souřadnice y je průměrem v regionech přítomných v souboru lože souboru odpovídající přihrádky v souboru bigwig, takže se jedná o průměrný počet čtení překrývajících se s košem 10 bp.

Totéž na straně 3 a primární straně.

Pro centrální 100 bp část, před průměrováním přes regiony muselo být provedeno nějaké zmenšení nebo rozšíření košů, myslím průměrováním mezi sousedními košmi. Konečná jednotka je tedy stále počet čtení překrývajících se 10 bp bin .

A pokud používám větší koše, měl bych skončit s proporcionálně vyššími hodnotami.

Mám pravdu?

Jeden odpovědět:
Devon Ryan
2017-06-09 22:04:20 UTC
view on stackexchange narkive permalink

Neváhejte a napište mi @ v otázkách deepTools, protože jsem primárním vývojářem.

U daného koše je počet přiřazený počtu přečtení, které jej překrývají, bez ohledu na to, zda se překrývají o 1 nebo 10 bází. Čtení překrývající se pouze částečně a jedno překrývající se úplně se tedy zachází stejně.

Protože je váš soubor bigWig v jednotkách „zarovnání“ (tj. Není 1x normalizovaný), bude výsledný profil také v jednotkách „zarovnání“ (tj. profily a teplotní mapy jsou v jakýchkoli jednotkách, ve kterých jsou vstupní soubory).

Regiony upstream / downstream a oblasti bez měřítka jsou také 10 základních košů. Všimněte si, že to jsou pak průměr hodnoty na bázi, protože přihrádky zde nemusí dokonale odpovídat přihrádkám v souborech bigWig. Čára v grafu profilu je skutečně průměr (ve výchozím nastavení můžete zvolit medián, max., Min. Atd.) Podkladových oblastí pro každý koš.

Pokud jde o zmenšenou část uprostřed, počet genomických bází na koš se změní tak, že region bude mít každý "length" / (regionBodyLength / binSize) . Jak je uvedeno výše, základní hodnota se pak zprůměruje (nebo cokoli, co určíte), aby se odvodila hodnota za každou přihrádku. délka se zde sníží, pokud máte oblasti bez měřítka, protože jinak by se základy počítaly dvakrát.

Když napíšete „průměr hodnoty na bázi“, máte na mysli, že pokud se oblast 10 bp bin překrývá s 3 bp z genomického bin `i` (čte` m`) a 7 bp z genomického bin `i + 1` (při čtení `n`), pak bude hodnota pro tento region bin` `(3 * m + 7 * n) / 10`?
Správně, průměr bude vážen mírou překrytí přesně tak, jak jste ukázali.


Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...