Efektivní délka je $ \ tilde {l} _i = l_i - \ mu + 1 $ (všimněte si R kódu ve spodní části Haroldova blogového příspěvku), což by v případě $ \ mu < l_i $ mělo být 1 .V ideálním případě byste použili průměrnou délku fragmentu namapovanou na konkrétní funkci, spíše než globální $ \ mu $, ale to je mnohem více práce s výhodou 0.
Pokud jde o výběr konkrétního přepisu, v ideálním případě by se použila metoda jako losos nebo kallisto (nebo RSEM, pokud máte čas zabít). V opačném případě máte na výběr (A) zvolit hlavní izoformu (pokud je známá ve vaší tkáni a stavu) nebo (B) použít „model sjednoceného genu“ (součet neredundantních délek exonu) nebo (C) převzít střední přepis délka. Žádná z těchto tří možností nemá velký rozdíl, pokud porovnáváte vzorky, i když jsou všechny nižší než losos / kallisto / atd. metrické.
Proč jsou losos a kol. lepší metody? K určení délky funkce nepoužívají libovolné metriky, které budou stejné napříč vzorky. Místo toho k maximalizaci využití jednotlivých izoforem používají maximalizaci očekávání (nebo obdobné, protože alespoň losos ve skutečnosti nepoužívá EM). Efektivní délka genu ve vzorku je pak průměrem délky transkriptu po vážení jejich relativní exprese (ano, jeden by tam měl odstranit $ \ mu $). To se pak může lišit mezi vzorky, což je docela užitečné, pokud máte přepínání izoformy mezi vzorky / skupinami takovým způsobem, že by metody AC výše chyběly (přemýšlejte o případech, kdy je přechod na menší přepis s vyšším pokrytím ... což má za následek pokrytí / délku v metodách AC, které mají být potlačeny).