アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
<< 設立四周年記念 | main | 四次元の冒険 >>
GATKの「known sites」
今日は、次世代シーケンサの解析に用いられるGATKについてお話します。
GATK実行時に「known variants/sites」を指定しなければいけないコマンドが多々あります。
GATKのマニュアルにかかれたコマンド例や、論文を参考にしていましたが、網羅的にまとめているページがありました。
http://www.broadinstitute.org/gatk/guide/article?id=1247


「UnifiedGenotyper」「HaplotypeCaller」では、アノテーションに使用しているだけなので、ご自由時どうぞ
それ以外の「RealignerTargetCreator」「IndelRealigner」「BaseRecalibrator」「VariantRecalibrator」「VariantEval」は、解析の結果が変わってきてしまうので、推奨の「known variants/sites」を使用するように
と、書かれています。

特に「VariantEval」では、1000人ゲノムプロジェクトの影響を除いたほうがいいので、dbsnp129を推奨していました。
| きむ | バイオインフォマティクス | 15:18 | comments(2) | - |
いつも勉強させていただき、ありがとうございます。
リンク先の記事のところですが、

++++++++引用++++++++
UnifiedGenotyper / HaplotypeCaller
These tools do NOT require known sites, but if SNPs are provided with the -dbsnp argument they will use them for variant annotation. We use this file:
++++++++++++++++++

となっていますが、「-dbsnp」ではなく、「-D」でないと、
通らないと思うのですが、これは、バージョンによる違いなので
しょうか?
| Akito Dobashi | 2013/08/02 12:08 PM |
dbSNP fileの指定は「-D」または「--dbsnp」ですね。
version 2.5でも1.6でも使用できました。ハイフンが足りない「-dbsnp」だとどちらでも怒られました。
| きむ | 2013/08/05 12:54 PM |









   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>

このページの先頭へ