Jak přesně se počítá „efektivní délka“ použitá v FPKM?

Otázka:

user172818

2017-06-02 00:49:22 UTC

view on stackexchange narkive permalink

Podle tohoto slavného příspěvku na blogu je efektivní délka přepisu:

$ \ tilde {l} _i = l_i - \ mu $

kde $ l_i $ je délka přepisu a $ \ mu $ je průměrná délka fragmentu. Typicky je však délka fragmentu asi 300 bp. Co když je přepis $ l_i $ menší než 300? Jak v tomto případě spočítáte efektivní délku?

Související otázka: Jak zvolit přepis při výpočtu FPKM genu? Vybíráme „kanonický“ přepis (jak?) Nebo kombinujeme signály ze všech přepisů do FPKM na genové úrovni?

Tři odpovědi:

Devon Ryan

2017-06-02 01:03:41 UTC

view on stackexchange narkive permalink

Efektivní délka je $ \ tilde {l} _i = l_i - \ mu + 1 $ (všimněte si R kódu ve spodní části Haroldova blogového příspěvku), což by v případě $ \ mu < l_i $ mělo být 1 .V ideálním případě byste použili průměrnou délku fragmentu namapovanou na konkrétní funkci, spíše než globální $ \ mu $, ale to je mnohem více práce s výhodou 0.

Pokud jde o výběr konkrétního přepisu, v ideálním případě by se použila metoda jako losos nebo kallisto (nebo RSEM, pokud máte čas zabít). V opačném případě máte na výběr (A) zvolit hlavní izoformu (pokud je známá ve vaší tkáni a stavu) nebo (B) použít „model sjednoceného genu“ (součet neredundantních délek exonu) nebo (C) převzít střední přepis délka. Žádná z těchto tří možností nemá velký rozdíl, pokud porovnáváte vzorky, i když jsou všechny nižší než losos / kallisto / atd. metrické.

Proč jsou losos a kol. lepší metody? K určení délky funkce nepoužívají libovolné metriky, které budou stejné napříč vzorky. Místo toho k maximalizaci využití jednotlivých izoforem používají maximalizaci očekávání (nebo obdobné, protože alespoň losos ve skutečnosti nepoužívá EM). Efektivní délka genu ve vzorku je pak průměrem délky transkriptu po vážení jejich relativní exprese (ano, jeden by tam měl odstranit $ \ mu $). To se pak může lišit mezi vzorky, což je docela užitečné, pokud máte přepínání izoformy mezi vzorky / skupinami takovým způsobem, že by metody AC výše chyběly (přemýšlejte o případech, kdy je přechod na menší přepis s vyšším pokrytím ... což má za následek pokrytí / délku v metodách AC, které mají být potlačeny).

Ale \ \ tilde {l} `je jmenovatel. Nastavením na 1 by se dramaticky zvýšila hodnota krátkých přepisů. To pro mě zní nebezpečně ... Mohl byste také objasnit, jaké jsou výhody lososa / kallisto oproti A / B / C? Dík.

Krátké přepisy mají absurdně vysoké hodnoty FPKM, což je na FPKM jedna z nepotřebných věcí. Aktualizuji otázku týkající se lososa / kallisto / atd.

nomad

2017-06-18 23:04:10 UTC

view on stackexchange narkive permalink

Mám blogový příspěvek, který popisuje efektivní délku (a také tyto různé jednotky relativního množství). Krátké vysvětlení je, že to, co lidé označují jako „efektivní délka“, je ve skutečnosti očekávaná efektivní délka (tj. Očekávání ve statistickém smyslu efektivní délky). Pojem efektivní délka je ve skutečnosti vlastnost přepisu, dvojice fragmentů a rovná se počtu potenciálních počátečních umístění fragmentu této délky v daném přepisu. Pokud vezmete průměr, přes všechny fragmenty mapované na přepis (potenciálně vážené podmíněnou pravděpodobností tohoto mapování), je toto množství očekávanou efektivní délkou přepisu. Často se to aproximuje jako jednoduše $ l_i - \ mu $ nebo $ l_i - \ mu_ {l_i} $ --- kde $ \ mu_ {l_i} $ je průměr podmíněného rozdělení délky fragmentu (podmíněno tím, že délka fragmentu je < $ l_i $, aby přesně odpovídal problému, který vyvoláte).

Kristoffer Vitting-Seerup

2017-06-16 16:01:15 UTC

view on stackexchange narkive permalink

Informace o účinné délce najdete v odpovědi Devons. Mám jen malý doplněk: Kallisto / Salmon / RSEM začleňují všechny odhady zkreslení do efektivní délky, což znamená, že efektivní délka nepředstavuje pouze zkreslení délky, pokud vezmete hodnoty z těchto nástrojů (vzhledem k tomu, že byly spuštěny s přirozeně povolenými algoritmy zkreslení ).

Pokud jde o získání odhadů na úrovni genů, neměli byste zvolit konkrétní přepis. Místo toho byste měli pro každý přepis extrahovat / vypočítat RPKM / FPKM / TxPM (přepis na milion, který výstupy Kallisto / Salmon / RSEM) a sečíst je, abyste získali odhad úrovně genu.

ⓘ

Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.

about - legalese