アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
<< アノテーション付け(入門編)について | main | 昆虫未来学―「四億年の知恵」に学ぶ >>
次世代シーケンシング結果を用いたデータ解析
本日は次世代シーケンシングのデータ解析を例として、アノテーションの方法を記述していきます。

次世代シーケンシングのデータは、まずリファレンスゲノムと比較する必要があります。

以下に大まかなデータ解析方法を記載していきます。
公開されているリファレンスゲノムをダウンロードする(例:hg19.fa)。

リファレンスゲノムのデータと次世代シーケンシングのデータを比較(マッピング)します。
- バイオインフォマティクスツールを使用します(例:bwa)。Linux上でコマンドを用いる必要があります。

多型の抽出を行います(例:samtools)。
- 多型情報を得ます。
- 多型情報の結果は、通常膨大なデータとして出力されます。

多型情報に位置や変異など目的に合わせた注釈を入れていきます(アノテーション)。
- comon SNPを除外します。
- exone intron, intergenicなどのアノテーションを付与します。
- さらにexoneに含まれるSNPに対して、synonymous、nonsynonymousなどの詳細なアノテーションを付与します。


上記のプロトコールやアノテーションの内容などは、実験の目的や手法によって大きく変わります。実験によっては、適当なバイオインフォマティクスツール(オープンソースツール)がなく、自前でプログラムを作成する必要がある場合もあります。
そのため次世代シーケンシングによるデータ解析には、お客様が求めている事をしっかりと把握し、その目的に合わせて解析手法を組み立てる必要があり、弊社もそれに対応できるよう心がけています。
| | 次世代シーケンサー解析 | 17:25 | comments(0) | trackbacks(0) |









http://blog.amelieff.jp/trackback/152266
   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>

このページの先頭へ