アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
<< CircosでSelfChainを描く(2) | main | CircosでSelfChainを描く(3) >>
insert sizeを求める
先日、構造多型を解析するツールについてご紹介しました。
(Paired-end/Split-read/Complex)
これらのツールの一部は、解析の際、シーケンスデータのinsert sizeの入力が必要です。
自ら実験して得たデータならinsert sizeはわかると思いますが、公共のデータベースの公開データはリード長は記載されていてもinsert sizeは不明な場合が多いです。

そこでinsert sizeを計算してくれるツールを調べていたところ、PicardsのCollectInsertSizeMetricsがありました。
BAM/SAMファイルからinsert sizeのヒストグラムを描画してくれるツールです。
様々なパラメータがありますが、必須のパラメータは3つだけです。

1. 入力するBAM/SAM
2. insert sizeを出力するファイル
3. ヒストグラムを出力するファイル

コマンドは以下のようになります(ファイル名・バージョンは任意です)。
$ java -jar [path]/picard-tools-1.75/CollectInsertSizeMetrics.jar INPUT=sample.bam OUTPUT=output.txt HISTOGRAM_FILE=hist.pdf

OUTPUTパラメータで指定したファイル(ここではoutput.txt)には、insert sizeの平均や中央値、最大値や標準偏差など、insert sizeに関する統計量が書かれています。

HISTOGRAM_FILEで指定したファイル(ここではhist.pdf)には、下図のようなヒストグラムが生成します。
insert size distribution

また、このヒストグラムを生成したデータでは、統計量はmedian insert sizeが200bp、mean insert sizeが213.9bpと計算されました。
ヒストグラムと統計量を見比べ、このデータのinsert sizeは200 bpだと判断しました。

詳細については公式のマニュアル(こちら)をご参照ください。
| kubo | 次世代シーケンサー解析 | 15:01 | comments(0) | - |









   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>

このページの先頭へ