Dělám nějakou analýzu a potřebuji podmnožinu velkého souboru VCF (~ 8 GB gziped) vzhledem k intervalu lůžka a identifikovat v rámci podmnožiny rsid.
Bohužel, obě mé běžné možnosti provést tuto analýzu ( snpSift
a bedtools
) se ubíhají dlouho nebo selhávají kvůli problémům s pamětí v mém místním počítač a vzdálený server.
Znáte nějaké další možnosti nebo návrhy, jak tento proces urychlit?
Postupujte podle příkazů, které používám:
stoly protínají -a <myvcf>.vcf.gz -b <myinterval>.bed -wa | \ java -Xmx10g -jar snpSift.jar filtr --set <myrsid>.txt "ID v SET [0]"
nebo
gzcat <myvcf>.cxt .gz | \ java -Xmx10g -jar intervaly snpSift.jar <mybed>.bed | \ java -Xmx10g -jar snpSift.jar filter --set <myrsid>.txt "ID v SET [0]"
Příkaz bedtools
obvykle selže kvůli neznámému reason a SnpSift
běží přes 6 hodin i při 10 GB RAM. Můj místní počítač má 8 GB RAM, ale server má 32 GB.