アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
<< 1000 人ゲノムプロジェクトJPT データの活用 | main | VCFtools >>
1000 人ゲノムプロジェクトJPT データの活用
皆様、こんにちは。detです。
akbさんに引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。
前回の記事の目的に従いまして、今回は、1000人ゲノムのデータベースに含まれる100程度の日本人サンプルから88サンプルを選び、解析対象としました。解析の流れは、以下のようになっています。

1.リードのクリーニング: QCleaner(弊社製ツール)
2.マッピング・カバレッジ集計: bwa、samtools、picard
3.リアライメント・SNV/Indel検出: GATK
4.アノテーション付け: QuickAnnotator(弊社製ツール)
5.snpEff: SNV情報の付与


QCleanerの詳細につきましては、こちらのSlideShareをぜひご覧ください。またQuickAnnotatorに関しましては、弊社HPに説明がございます。
またこれらの一連のデータ解析は、弊社製のReseq パイプラインを用いる事で簡単に実行することができます。

では、解析結果を紹介していきたいと思います。まずは、リードクリーニングの結果です。



最初の2行ではクリーニング前のファイルサイズとリード数が記してあります。サイズにはかなり幅があります。またそれ以降は、クリーニング後の結果です。かなり綺麗なリードから、クオリティの低いリードまで、様々なリードがJPTサンプルに含まれていることが分かります。次にマッピング結果について以下の表に示します。



SNV数の最大値は Whole Genome Sequence のデータ、最小値は Target reseq のデータの結果です。
次回は、VCFファイルの詳細についてみていきたいと思います。
| deda | 次世代シーケンサー解析 | 18:35 | comments(0) | trackbacks(0) |









http://blog.amelieff.jp/trackback/194141
   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>

このページの先頭へ