アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
SeqCap Epi連載[2]|解析パイプラインの概要
前回に引き続き、SeqCap Epi連載の第2回です。
今回は、SeqCap Epiによる実験データをどのように解析していくのか、ご紹介いたします。用いるソフトはすべてオープンソースのフリーウェアです。
このパイプラインでは、SeqCap Epi CpGiant Enrichment Kit(ロシュ・ダイアグノスティック)を使用して、ライブラリー調整を行い、その後、NGSによるシーケンスを実行して得られたFASTQファイルから解析を行います。

解析ワークフロー


解析のワークフローは次の通りです。

順序項目使用ソフト
1QC(クオリティコントロール)FastQC, Trimmomatic
2マッピングBSMAP
3フィルタリングbamtoolsなど
4基本データの算出picardなど
5メチル化解析BSMAP(methratio.py)
6メチル化程度の比較methylKit
7アノテーションの付加methylKit
8SNPを考慮したメチル化解析BisSNP
  1. FastQCを用いて、クオリティをチェックし、Trimmomatic*1による低クオリティリードのトリミングを行います。
  2. リファレンスゲノムに対して、リードをマッピングします。
  3. BSMAP*2でマッピングするとSAMファイルを得られますので、Picardを使用してBAMに変換します。その後、bamtoolsやBamUtilなどのソフトを使用して、適切な整形を行います。
  4. 次に、整形後のBAMファイルから、リード数、カバレージ、ハイクオリティリードの割合、ターゲット領域にマッピングされたリードの数などの基本的なデータを算出します。この際には、PicardやGATK toolkitを用います。
    また、この際に実験が上手く行えたかどうかを確認するため、バイサルファイト変換効率を算出します。
  5. BSMAPのmethratio.py*3というスクリプトを用いて、BAMファイル内のメチル化を検出します。
  6. methylKit*4を用いてサンプル間のCpGサイトにおけるメチル化程度を比較します。
  7. metylKitを使用して近傍の遺伝子の転写開始点との距離や、遺伝子名などのアノテーション情報を付加します。
  8. BisSNP*5によりSNPを検出します。
以上が全体的な流れになっています。

このパイプラインの特徴



最大の特徴は、メチル化解析にBSMAPとBisSNPの2つのソフトを使用している点にあります。本パイプラインにおけるこれらの違いは以下です。

BSMAP:すべてのシトシンのメチル化率を算出
BisSNP:すべてのSNPおよびCpGサイトのメチル化率を算出

すなわち、これらの使い分けをすることにより、BSMAPでは、より網羅的にメチル化率を検出し、BisSNPではSNPの可能性のあるシトシンを検出することが可能になっています。このように、多くのCpGサイトをターゲットとし、SNPも考慮することを実現したメチル化解析パイプラインです。

更に、アメリエフでは、この他にも機能を追加して、メチル化程度をIGVで可視化ができるよう、解析パイプラインをブラッシュアップ中です。どうぞご期待ください。



*1:usadellab - Trimmomatic: A flexible read trimming tool for Illumina NGS dataにて公開中。トリミングの際にパラメータを設定することで、指定したアダプタ配列のトリミングが可能。
*2:bsmap - Bisulfite Sequence Mapping Programにて公開中。バイサルファイトシーケンスデータ用のマッピングソフト。
*3:BSMAPに含まれているPythonスクリプト。BAMファイルからメチル化シトシンを検出する。
*4:methylkit - R package for DNA methylation analysisにて公開中。メチル化解析データをサンプル間で比較するためのRパッケージ。
*5:Bis-SNPにて公開中。GATK toolkitに基づくSNPの検出とメチル化シトシンの検出が可能。
| kubor | 次世代シーケンサー解析 | 18:12 | comments(0) | - |
SeqCap Epi連載[1]|NGSでメチル化解析
DNAのメチル化解析手法はこれまでマイクロアレイや、リアルタイムPCRを使用したものがありましたが、どれも解析可能なゲノム範囲に限りがありました。
しかし、NGS(次世代シーケンサー)を使用するSeqCap Epi CpGiant Enrichment Kit(ロシュ・ダイアグノスティック)なら、全ゲノム上の550万箇所以上におよぶCpGサイトのメチル化を検出することが可能です*1

例えば、代表的なメチル化解析ビーズアレイ(HumanMethylation450 DNA Analysis Kit)と比較した場合、こちらは45万箇所のCpGサイトに対応している*2ため、12倍以上のCpGサイトを解析することが可能です。

このように、網羅的なメチル化解析が可能ではありますが、その反面実験データが多くなり、解析が容易に行いにくいという見方もできます。そこで、弊社ではSeqCap Epiを用いた実験データの容易な解析を可能にするオリジナル解析パイプラインを開発中です。
この解析パイプラインは、ロシュ社が公開している解析パイプライン*3をベースに開発していることが大きな特徴です。ここへ更にアメリエフ独自のアレンジを加えていますので、ご期待ください。

次回は、解析パイプラインの概要を紹介いたします。

*1:SeqCap Epi CpGiant Enrichment Kit製品紹介ページ参照
*2:HumanMethylation450 DNA Analysis Kit製品紹介ページ参照
*3:「NimbleGen SeqCap Epi ターゲットエンリッチメントデータの評価方法」をベースに開発
| kubor | 次世代シーケンサー解析 | 13:42 | comments(0) | - |
FastQCの新機能
FastQCにv0.11.1から次のチェック項目が追加されています。

・Per tile sequence quality
タイル単位のクオリティが出せるようになりました。


・Adapter Content
これまではOverrepresented sequencesでアダプタも確認していましたが、アダプタ混入率を示す専用の項目ができました。


Duplication moduleやK-mer moduleも改良されたそうです。
また、まだ試していませんが、OK/Warn/NGの閾値がカスタマイズできるようになったそうです。

後はレポートHTMLが、-oで指定したディレクトリ直下に単体で出力されるようになったのが、個人的には嬉しいです。
前はディレクトリの中に他のファイルと一緒にHTMLが入っていたので、サンプル数が多いとディレクトリをポチポチ開いてレポートを見て回るのが地味に面倒くさかったんですよね。

オープンソースのソフトなのに高機能でどんどんブラッシュアップもされていて、ユーザとしては本当にありがたいです。
| hat | バイオインフォマティクス | 14:18 | comments(0) | - |
新入社員の久保です
アメリエフブログをご覧の皆様、はじめまして、10月1日より入社致しました。
久保(kubor)と申します。
京都支店に勤務しています。

#自己紹介

大阪府堺市の出身です。刀鍛冶と鉄砲が有名です。僕は、さすがに刀と鉄砲に縁はありませんが、刀鍛冶の技術を活かした堺の包丁は、とても良く切れます。

さて、僕は、高校、大学と、常に身の回りに植物がある環境で過ごしてきました。高校時代は、シソ科の植物の芳香に興味があり、ハーブの収集を楽しんでいたり、水生植物の栽培に熱中したりしました。
大学に入り、研究室に配属された後は、植物育種を学びました。特に、イネ(水稲)を扱う研究が中心でした。対象は様々で、イネの形質はもちろんのこと、糖、デンプン、そして核酸などを扱っていました。毎年行っていた田圃でのフィールドワークが今では懐かしく感じられます。

そんな僕が、この度、縁あってアメリエフに迎えていただくことになりました。これまでとは打って変わって、周りには電子機器ばかりです。扱う情報も変わり、ヒトのゲノム情報がほとんどとなりましたが、昨今、植物分野でもNGS(次世代シーケンサー)の幅広い利用が期待されますので、是非自分の経験を活かして、寄与していきたいと考えています。

目指すは、植物にも強いバイオインフォマティシャンです。
邁進致しますので、何卒よろしくお願い致します。
| kubor | 会社のこと | 14:53 | comments(0) | - |
第73回日本癌学会学術総会ポスターセッション
9月25日〜9月27日にかけて横浜で開催された第73回日本癌学会学術総会のポスターセッションに参加させていただきました。
テーマは、次世代シーケンスデータを用いた高精度の体細胞変異検出ワークフローについてです。

公開データを用いた、体細胞変異検出ソフトSomaticSniperやオリジナルのスクリプトによる検出、いくつかの公共データベースをもちいた絞り込みに関して発表しました。

聞いてくださった方やポスターに添えた技術ノートを手に取ってくださった方が、たくさんいらっしゃって大変嬉しかったです。
ありがとうございました。

体細胞変異検出は受託サービスもございますので、ぜひご利用ください。
| kubo | 会社のこと | 15:17 | comments(0) | - |
「第3回生命医薬情報学連合大会」講演のお知らせ
2014年10月2日(木)〜4日(土)に仙台国際センターで開催される、
「第3回生命医薬情報学連合大会」にて講演させていただきます。

学会名   :第3回生命医薬情報学連合大会

開催期間  :2014年10月2日(木) 〜 4日(土)

会場    :宮城県仙台市 仙台国際センター

交通アクセス:詳細はこちらをご参照ください。

講演日時  :
10月2日(木)11:00〜 バイオインフォと医学の融合
       1W1-03「フリーソフトによるRNA-seqのデータ解析」
10月3日(金)10:50〜 キャリアセッション
       2C2-01「進撃のバイオインフォマティシャン」
10月4日(土)12:55〜 ランチョンセミナー
       3L3「アメリエフ講習会」


ランチョンセミナーのアメリエフ講習会のテーマは、「フリーソフトによるNGSデータ解析 〜Exome解析からがん体細胞変異解析まで〜」です。
内容:
次世代シーケンサーを用いた遺伝子変異検出手法の一つであるExome解析を題材にして、最先端のフリーソフトの使い方やコマンド操作など実例をご紹介いたします。ご紹介する解析パイプラインは1000 Genomes Projectで用いられた、実績のある手法です。近年、次世代シーケンスデータをLinux環境で解析するためのソフトウェアが研究目的に合わせて、続々と開発されています。今回は、Exome解析だけではなく、がんサンプルのデータ解析に特化したソフトウェアも併せてご紹介致します。

皆さまのご来場をお待ち申し上げます。
| akb | 学会出展 | 14:53 | comments(0) | - |
はじめまして
はじめまして

2014年10月に入社致しました ohtay と申します。

自己紹介をさせていただきます。

・出身地 群馬県 -だるま弁当が有名です!
・高校 商業校 -「地域活性のためにどうする?」という研究を行いました
・専門学校 情報系 -OracleDBとシステム情報の基礎知識を学びました
・前職 情報系 -ネットワークやサーバ系の基礎知識を学びました
・ 今後の抱負 -技術者・社会人としてまだまだ未熟ですので精進します

今後とも宜しくお願い致します。
| ohtay | 会社のこと | 14:38 | comments(0) | - |
   1234
567891011
12131415161718
19202122232425
262728293031 
<< October 2014 >>

このページの先頭へ