アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
構造多型を解析するツール : paired-endとsplit-read mapping
これまで、ゲノムの構造多型を検出ツールのうち、split-readか、paired-endを用いているツールを紹介してきました。
どちらかの手法だけでなく、両方を合わせて使用するツールも存在します。
複数の検出方法を併用するメリットは、paired-end mappingによる感度の高さとsplit-read mappingによるbreakpointの精度の高さの両方が得られることの他に、complex SVを検出できることがあります。


SVMerge
複数のソフトをまとめて使って解析できるパイプラインです。
使用されているのは、BreakDancer/Pindel/SECluster/RetroSeq/RDXplorer/Exonerateで、それぞれpaired-end mapping、split-read mapping、対となるreadのクラスタ分布、可動性遺伝因子データベースへのマッピング、read depth、アライメントによってSVを検出し、その結果をマージしています。
検出後、さらにVelvetによるlocal de novoアセンブリでSVを確認し、偽陽性を減らしています。

DELLY
Deletion、tandem duplication、inversion、translocationを検出するツールです。それぞれのSV種が独立して検出されるため、結果のネストや重複の可能性があります。
論文中では、他のツールと比べて、depthが少ないデータにも強いと紹介されています。
ホームページを見ると、メンテナンスやBWAなどの依存しているツールのアップデートに合わせたアップデートがこまめに行われているようです。


3回にわたり、様々なSV検出ツールについてご紹介いたしましたが、現在も新しい検出ツールは登場し続けています。
もしかしたら、、ご紹介したものよりも精度も感度も抜群に優れた定番となる新たなツールが現れるかもしれません。
| kubo | 次世代シーケンサー解析 | 14:32 | comments(0) | - |
MEDIPS
ご無沙汰しております。
tokunagaです。

ここ最近、
このような工夫を施したツールやアルゴリズムを開発しました等、
バイオインフォマティクスに関する論文が数多く出てきてますね。
全てを把握することはとてもじゃないですが難しいことです。

そこで折角なので、
実際に最近論文で報告された解析ツールを
試しに使用いたしまして、
この場で簡単にご紹介したいと思っております。

今後も使ってみたシリーズで記事書いていきたいと
密かに思ってます。

宜しくお願いいたします!

まず本日ご紹介するのは
MEDIPS

Bioconductorのサイト
http://www.bioconductor.org/packages/release/bioc/html/MEDIPS.html
論文
http://www.ncbi.nlm.nih.gov/pubmed/24227674


Methylated DNA immunoprecipitation sequencing(MeDIP-seq)の
解析ツールで、RのBioconductorのパッケージです。

MeDIP-seqはメチル化したDNA断片を5-methylcytosine (5mC)という
抗体を用いて免疫沈降させて濃縮し、シーケンシングを行うという
技術ですが、その解析に特化されているツールです。

まず、入力形式はbamファイルです。
パッケージのテストデータはヒトのES細胞で、
bowtieでマッピングしたbamファイルを使用してます。

各サンプルごとのクオリティーチェックとして、
Saturation分析、シーケンスリードのカバレッジパターンが
グラフ化されます。




そしてCase Studyでは複数サンプル間でメチル化パターンが
異なる領域を同定することが出来ます。

chr start stop ID
1 chr22 19136001 19136200 ID_1
2 chr22 19753401 19753500 ID_2
3 chr22 20785001 20785200 ID_3
4 chr22 20785301 20785600 ID_4
5 chr22 24820701 24820800 ID_5
6 chr22 24890501 24891100 ID_6
7 chr22 28035101 28035200 ID_7
8 chr22 28193101 28193200 ID_8
9 chr22 28193301 28193400 ID_9
10 chr22 29707001 29707200 ID_10


今回ご紹介するのはここまでですが、
他にChIP-seqにも活用できるとも書いてありました。

また、論文では他にも色んな図を描くことができるようなので、
ご興味のある方はチェックしてみてください。
| tokunaga | バイオインフォマティクス | 16:46 | comments(0) | - |
第27回バイオインフォマティクス勉強会「フリーソフトではじめるゲノム解析@神戸」満員御礼
第27回バイオインフォマティクス勉強会「フリーソフトではじめるゲノム解析@神戸」はお申込みが定員に達しましたのでキャンセル待ちとさせていただいております。

たくさんのお申込み、ありがとうございました!
| akb | 勉強会 | 18:32 | comments(0) | - |
Somatic Mutation検出ツール
Somatic Mutationを検出する主なツールを紹介します。
腫瘍サンプルと正常サンプルのBAM/Pileupファイル、リファレンスゲノムのFASTAファイルが入力ファイルとして必要です。

・VarScan2(2012)
入力ファイルは、BAMファイルをSAMtoolsでPileupファイルに変換する必要があります。引用論文数が多く、広く浸透しています。
・SomaticSniper(2012)
計算時間が抜群に短いです。SNV検出用なので、Indelは検出しません。
・Strelka(2012)
アリル頻度を考慮することによって、腫瘍純度が低いサンプルであっても、ある程度の検出感度を保つアルゴリズムです。
・MuTect(2013)
アリル頻度をベイジアンモデルのパラメータにすることで、アリル頻度が低い場合やリードのカバレッジが低い場合でも比較的感度が高いと主張しています。
・EBCall(2013)
Somatic Mutationと誤認識しやすいシーケンシングエラーを見分けるため、患者以外から得られた複数の正常なリファレンスサンプルを用います。
・Seurat(2013)
腫瘍純度が低いサンプルであっても、正常サンプルのカバレッジを高めれば、ある程度の検出感度を保てるアルゴリズムです。
・Cake(2013)
VarScan2とその他変異を検出するツールを組み合わせるアルゴリズムです。網羅的に検出した変異の中から、8種のフィルタリングによってSomatic Mutationを検出します。

偽陰性を減らすには複数のツールを組み合わせて使用するべき、という意見が多いようです。
| heshi | 次世代シーケンサー解析 | 14:00 | comments(0) | - |
2014年カレンダー
2014年カレンダーができました。
2014カレンダー1
2013年にお配りしたカレンダーはポスタータイプでしたが、2014年はB6サイズの卓上カレンダーです。

月ごとに、「今月のLinuxコマンド」を掲載しています。
(※ブログで連載中の「楽しくコマンドを覚える」シリーズの一部です)
アメリエフ渾身の語呂合わせで、楽しみながらLinuxコマンドを覚えられます。
2014カレンダー3

また、カレンダーケースの後ろに名刺やメモを挟めるようになっています。
2014カレンダー2

現在、学会で出展しているブースやスクール、勉強会で配布中です。
| kubo | よもやま話 | 14:21 | comments(0) | - |
本社移転のお知らせ
この度、本社を現在の東京都立産業貿易センター浜松町館から下記に移転することになりましたので、お知らせ申し上げます。

本社移転を機に、社員一同一層社業に励み皆様のご期待に沿うよう努力してまいりますので、今後とも変わらぬご支援を賜りますようお願い申し上げます。

〔新住所〕
東京都千代田区内神田1-12-12 美土代ビル 2階

〔業務開始日〕
2013年11月25日(月)
| 管理者 | 会社のこと | 16:52 | comments(2) | - |
所定のポジションの塩基を得る
突然ですが、お手元になるべく厚い本をご用意ください。その本の、
第12章の、345,678〜345,680番目に登場する文字は何でしょうか?
数えたくもないですね!

では、ヒトゲノムhg19の、
第12番染色体の345,678〜345,680番目の塩基

は何でしょうか?

こちらは、ゲノムのFastaファイルに対して以下のsamtoolsコマンドを
実行することにより、簡単に調べられます。

$ samtools faidx hg19.fa chr12:345678-345680
>chr12:345678-345680
TTC


バイオインフォマティクスって本当に便利ですね。
| hat | - | 14:48 | comments(0) | - |
楽しくコマンドを覚える・7
「nice」コマンドは、プロセスの優先順位を設定するコマンドです。

プロセスの優先度(ナイス値)を-20〜19の整数で決めます。-20が最優先で、数が大きくなるほど(19に近くなるほど)優先度が低くなります。
複数のジョブのうち特に急ぎのものがある場合、より多くの計算資源をそのジョブに振り分けられるというわけです。

使い方としては、
nice -n -20 command

-nオプションでナイス値を決めます。上の場合、最優先の-20なので、大急ぎでこのお仕事を捌いてくれるはずです。
-nオプションを指定しないと、ナイス値は10になります。

「ナイス値(niceness value)」=どれだけナイスなプロセスか、という指標です。おもしろいですね。

覚え方は、
急ぎの仕事ナイッスか?

個人的に力作です!
| heshi | システム | 10:20 | comments(0) | - |
構造多型を解析するツール : pair-end mapping
前回は、次世代シーケンスデータを用いて構造多型を検出するツールのうち、split-read mappingを用いているものを紹介しました。
今回の記事ではpair-end mappingを用いているツールをご紹介します。


MoDIL
10-50 bpのindelの検出ツールです。
ライブラリのInsert sizeの分布とマップされたreadのinsert sizeを比較し、その変化からindelを検出します。そのため、検出されたindelサイズは直接観測したものではなく間接的に推測した値になりますが、論文では実際の値と非常に近い値となったようです。
十分なdepthのあるshort readのシーケンスデータに向いているツールです。

BreakDancer
10-100 bpのindelを検出するMini(開発停止)と、それより大きなSVを検出するMaxの2パッケージがあります。Indelやinversion、translocationは検出できますが、tandem duplicationの検出には対応していません。
ちなみに、このBreakDancerの出力ファイルは、そのまま先週ご紹介したPindelに入力することができます。その他のツールでも検出結果を一定のフォーマットに変換すれば入力できるようです。

GASV
アルゴリズムを改良し、depthまで考慮するようになったGASVProもあります。
array-CGHデータの解析にも使えるので、アレイとシーケンサの結果を同一ツールで解析し、比較することができます。
今も時々メンテナンスされているようです。


Split-readとpaired-endを用いてSVを検出するツールについて紹介させていただきました。
ところで、この2つの方法のメリットとデメリットについてはそれぞれご説明しましたが(Split-readPaired-end)、欠点と長所があるなら補い合えたらいいと思いませんか?
次回はsplit-readとpaired-endを併せて使用してSVを検出するツールについてご紹介いたします。
| kubo | 次世代シーケンサー解析 | 15:17 | comments(0) | - |
楽しくコマンドを覚える・6
楽しくコマンドを覚える・1
楽しくコマンドを覚える・2
楽しくコマンドを覚える・3
楽しくコマンドを覚える・4
楽しくコマンドを覚える・5

突然ですが、選択の積み重ねこそが人生なのではないでしょうか。

かつ丼が好きだけどカレーライスも好きだ!
でも今日のお昼には一つしか選べない!困った!

というようなことがしばしばあるかと思います。

Linuxを使っている時も、
この実行結果を、標準出力にも出したいし、
ファイルにも出したい!どうしたらいいんだ!

ということがあるのではないでしょうか。あります。きっとあります。

そのような場合に両方を実現できるのが、teeコマンドです。

例えば次のコマンドを実行してみましょう。
$ echo "好きだ!" | tee log.txt
好きだ!

echoの結果が標準出力に出ました。

teeで指定したファイルの中身を見ると、こちらにも同じ内容が
書き込まれています。
$ head log.txt
好きだ!


現実世界もこのように全てを叶えられたらいいですね。
※いい語呂合わせは思いつきませんでした。
| hat | システム | 14:46 | comments(0) | - |
Pythonでグラフを書こう その1
 バイオインフォマティクスの分野に限らず、様々な数値データをグラフで可視化したいという要望はよくあります。手作業でよければエクセル等の表計算ソフトを利用する事もできますが、グラフの描画を自動化したい場合はどうすればいいのでしょうか。
 そこで、今回は、Pythonでグラフを描画するパッケージである「matplotlib」を紹介いたします。matplotlibの詳細についてはこちらのwikipediaのページが詳しいので、こちらを参照ください。では、さっそくmatplotlibをインストールしてみましょう。今回インストールした環境は以下の通りです。

CentOS 6.4 64bit
Python 2.7.2
numpy インストール済み

matplotlibの実行にはnumpyが必要になります。numpyが入っていない場合は、こちらのページなどを参考にインストールしてください。

次に、matplotlibのインストールに進みます。mapplotlibのダウンロードページを開き、matplotlib-1.3.0.tar.gz をクリックしてダウンロードします。ダウンロードが終わりましたら、以下のコマンドで解凍し、出来たディレクトリに移動します。

$ tar zxvf matplotlib-1.3.0.tar.gz
$ cd matplotlib-1.3.0

そこでルートユーザーになって、以下のコマンドを入力すると、インストールが完了します。

$ su
# python setup.py build
# python setup.py install

matplotlibのインストールにはnumpy以外にもいくつかの外部パッケージが必要になります。それらが入っていない場合は、matplotlibのInstallingのページを参考にされるといいかもしれません。

次回からはmatplotlibの使い方を紹介したいと思います。

| deda | システム | 17:24 | comments(0) | - |
楽しくコマンドを覚える・5
楽しくコマンドを覚える・1
楽しくコマンドを覚える・2
楽しくコマンドを覚える・3
楽しくコマンドを覚える・4

suは別のユーザになるコマンドです。

$ su 別のユーザ
のように実行します。
そのユーザのパスワードを聞かれますので入力してください。
パスワードが正しければ、そのユーザになります。

また、
$ su
のようにユーザ名を指定しないで実行すると
rootユーザになることができます。

現実世界では他人になりかわることは難しいですが、
Linuxではパスワードさえ知っていれば、誰にでも
(全知全能のrootユーザにでも!)なることができます。

そんな解放感いっぱいの気持ちを、次の語呂合わせに籠めてみました。

別人になったらスーっとした

suしすぎて、自分が誰なのかわからなくなってきたら
$ whoami
で、確認してください。

※あと5回は続きます。
| hat | システム | 14:26 | comments(0) | - |
英語多読
比較的新しい英語学習法である「多読」は、好きな洋書をただただ大量に読むという学習法です。まず英語圏の児童用絵本から読み始めて、頭の中で日本語に訳さずに読めるようになったら、段階的にレベルを上げていきます。わからない単語や言い回しがあっても、辞書はなるべく引かず、物語の流れから推測します。

読了単語総数が100万語を超えると、何かが変わるそうです(笑)。

私は学生時代に、多読に十分な時間が取れる環境があったので、高校生の歳にハリーポッターのような子供向けの洋書を読めるようになりました。そうなるとすぐに100万語に到達します。その頃の実感としては、英文長文に対する心構えというかハードルが低くなったような気がします。

夏目漱石も多読を勧めていたようです。「ある程度英語を修めたら辞書を引かないで英書を多く読むのがよい」というようなことを著書で述べています。作家になる前は英語教師であったそうなので、教師として思うところがあったのでしょうか。

研究者の方であれば、日ごろから多くの論文を読んでいらっしゃると思うので、優に100万語を越えられているかと思います。ご自身の専門に関連した話題を、英語でディスカッションすることも難しくないのではないでしょうか。専門分野以外の英語の守備範囲を広げたいということであれば、気分転換がてら小説などの洋書に触れてみるのもいいかもしれません。
| heshi | よもやま話 | 14:44 | comments(0) | - |
道は開ける
道は開ける 新装版
道は開ける 新装版
デール カーネギー,香山 晶

有名だし読みたいなあと思いつつ、難しそうで敬遠していたのですが
思い切って読んでみたらとてもわかりやすい本でした。

最悪の事態を想定して対策を決めたら腹をくくってしまえとか、
批判を謙虚に受け止めることが大事だとか、
疲れる前に休憩したほうがよいとか、
言われてみれば当たり前のようなことばかりが書かれていますが
当たり前のことというのは意外とできないものかもしれません。

これらに気づいて、逆境からアメリカンドリームを叶えた
成功者の例がたくさん載っています。

本当にちょっとしたことで、生きるのが楽になり、周囲に愛されて、
仕事の能率も上がるんだなあと思いました。
いい具合に肩の力が抜ける一冊だと思います。

次は「人を動かす」も読んでみたいです。
| hat | 書籍の紹介 | 13:19 | comments(0) | - |
構造多型を解析するツール : split-read mapping
次世代シーケンスデータを用いて構造多型を検出するツールは、これまでに数多く登場しています。
そのうちのいくつかを簡単にご紹介いたします。

今回はSplit-read mappingを用いているツールです。

Pindel
論文が発表されたのは2009年ですが、最近でも頻繁にメンテナンスされているようです。
およそ10-80 bpの小さなSVの検出に推奨されています。100bp以上のSVを検出するのが得意なツールと組み合わせて使うといいようです。

SLOPE
Target sequenceデータの解析に特化したツールです。また、Target sequencingの強みであるread depthが十分にあるデータが必要なようです。
Pair-end readの解析はsam他マップされたreadを入力しますが、single-end readの解析も、fastq形式なら行えるそうです。

CREST
Split-read mappingではマップされなかったreadを解析に用いますが、CRESTは、soft-clipping read(完全にはマップされなかったread)のうち長75 bp以上のものを解析に使用するところが特徴です。
BWAやBowtie2など、local alignmentが行えるマッピングツールでないとsoft clipされないため、マッピングソフトがlocal alignmentに対応しているか、注意が必要です。


次回はpair-end mappingを用いてSVを検出するツールについてご紹介いたします。
| kubo | 次世代シーケンサー解析 | 16:24 | comments(0) | - |
楽しくコマンドを覚える・4
Linuxコマンドの機能を楽しく覚えるシリーズです。
今回は「ssh」コマンドです。これは、リモートマシンへのログインやコマンド実行をするためのコマンドです。クライアントとリモートマシンの通信データが暗号化されるので、インターネット経由でも比較的安全です。sshとは"Secure Shell"の略です。
使い方は以下の通りです。

・IPアドレス(xxx.xxx.xxx.xxx)でリモートログイン
$ ssh xxx.xxx.xxx.xxx

・リモートでコマンド実行
$ ssh xxx.xxx.xxx.xxx ls

IPアドレスの代わりにホスト名でログインすることや、ユーザを指定してログインすることも可能です。

覚え方は、
シーッ」と静かにリモートログイン

ちなみに英語の正式な「シーッ!(静かにしなさい!)」は"Shh!"です。惜しいんです!

実はこのシリーズ、弊社の2014年カレンダーに掲載されます。1か月に1つずつ紹介するので、合計12個のLinuxコマンドを楽しく覚えて頂けます!
| heshi | システム | 14:16 | comments(0) | - |
     12
3456789
10111213141516
17181920212223
24252627282930
<< November 2013 >>

このページの先頭へ