アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
ソフトウェア結果比較【BAMソート編・1】
NGS解析では、同じ処理を行うのにいくつものソフトウェアがあって、どれを使ったらいいのか迷うことがあります。

例えばBAMファイルをゲノムポジションでソートする場合、以下の選択肢があります。
1. samtools sortを使う
2. picard toolsのSortSam.jarを使う

同じBAMファイルを異なるソフトウェアでソートしても、結果は同じになるのでしょうか?

テストデータとして、NCBI SRAのSRR077861の先頭1000リードをhg19にBWAでマッピングした結果のBAMを使いました。

・テストデータ
sample.bam(222,146 bytes)


【samtools sortでソート】
・実行コマンド
samtools sort sample.bam sort_samt

・結果BAM
sort_samt.bam(219,312 bytes)


【SortSam.jarでソート】
・実行コマンド
java -jar /usr/local/src/java/picard-tools-1.75/SortSam.jar I=sample.bam O=sort_pica.bam SO=coordinate

・結果BAM
sort_pica.bam(221,293 bytes)


結果BAMが異なりました!
いったいどこが異なるのでしょうか。

比較結果は次回で。
| hat | バイオインフォマティクス | 10:42 | comments(0) | trackbacks(0) |
MacBookにUbuntu
自宅のMacBookにUbuntuを入れてみました。

既存のOSXを再インストールする必要もなく、あっけないくらい簡単でした。

手こずったのは最初家のWifiを認識しなかったことくらいですが、有線LANにつないでapt-getでアップデートしたらつながるようになりました。

手順はこんな感じです。

1. Ubuntuを入れるためにディスクを空けます。
「ディスクユーティリティ」で現在OSXが入っているパーティションのサイズを小さくし、40GBくらい空けました。

2. OSX上にブートマネージャ「rEFIt」をインストールします。
http://refit.sourceforge.net/

3. Ubuntuをインストールします。
Ubuntuのブータブルディスクから起動してインストールします。私はパソコン雑誌についてきたDVDを使いました。

Ubuntuはマウスをアイコンでクリックするだけでいろいろとできてしまうので、Linux食わず嫌いの方にもぜひお試しいただきたいなあと思いました。
たまに面倒くさい処理をしたい時にだけコマンドを使っていただいて、その便利さを感じていただければと思います。

Ubuntuはディスクから起動することも、VirtualBox上で動かすこともできますので(仮想ハードディスクイメージが公開されています)、それならアプリケーションを一つ入れる感覚で、もっとお手軽ですね。
| hat | システム | 10:04 | comments(0) | trackbacks(0) |
Mendeleyの紹介
本日は、文献管理ソフトの一つであるMendeleyを簡単にご紹介したいと思います。

最近、論文を読む機会が増えてきたので論文管理ソフトを探していました。論文管理ソフトと言えばEndNoteが有名ですが、値段が高いことがネックです。そこで、フリーの論文管理ソフトを探してネットをさまよっていたところ、このMendeleyを発見しました。
基本的には、ダウンロードしてきたPDFを登録して一覧で管理できるソフトなのですが、私が便利と思っている、以下の機能があります。


・PDFの登録が簡単
自分のPC内にあるPDFフォーマットの論文をドラッグ&ドロップするだけで、タイトルや著者名、発行年や巻数などを自動でimportしリスト化してくれます。

・クラウドベースである
異なる場所にある端末からログインしても、別の端末で集めた論文を読むことができます。Evernoteと同じ感覚でしょうか。

・ウェブ上の論文を簡単に取り込める
Web importerというプラグインを導入すると、ウェブブラウザで表示した論文をクリック一つで取り込めます。主要な論文誌、またGoogle scholarやPubMed、CiNii等の検索結果からも取り込むことができます。

・Citationの書式を選べる
Mendeleyでは論文のcitationの書式がいくつか選べます(まだ数は少ないですが)。これをそのままwordに張り付けることもできるので、論文執筆の際には大きな助けになるでしょう。

・論文にマーカーやメモが張り付けられる
Mendeley上で表示したPDFには、マーカーでラインを引くことや付箋のようなメモを貼り付けることができます。

・オンラインコミュニティがある
MendeleyのページからMendeleyのオンラインコミュニティに参加することができます。研究者同士の交流や、情報交換が可能になるでしょう。また自分の興味のある分野を登録しておくと、その分野の論文を自動的に検索してくれる機能もあります。


以上、ざっと書いてきましたが、他にも便利な機能がたくさんあるようです。Mendeleyの使い方を纏めたページなどもありますので、ご興味がある方は是非ご覧ください。
| deda | バイオインフォマティクス | 17:22 | comments(0) | trackbacks(0) |
第22回バイオインフォマティクス勉強会「Exomeデータ解析入門@東京」開催のお知らせ
第22回バイオインフォマティクス勉強会のご案内です。
今回の勉強会は下記の2部構成で開講させていただきます。

第一部:「はじめてのLinux」
第二部:「Exomeデータ解析入門@東京」


第一部はLinuxの超入門編です。基本的なコマンド操作の方法をご紹介いたします。
第二部では、メンデル遺伝病の疾患関連遺伝子探索を目的としたExomeデータ解析を中心に、解析のポイントや、検出されたSNVおよびIndelを用いた遺伝統計解析までをご紹介する予定です。Exome解析を行われている方やご検討されている方との貴重な情報交換の場にしたいと考えております。この機会に奮ってご参加ください。

               記
日時 :2013年4月6日(土) 14:45〜17:00
場所 :東京ライフサイエンスインキュベーションセンター会議室A(東京都立産業貿易センター 浜松町館6階)
地図 :http://tlic.incubation-center.com/access.htm
定員 :24名

お申込み方法などの詳細はこちらをご参照ください。勉強会後に懇親会を開きますので、ぜひ懇親会への参加をご検討ください。

※解析経験をお持ちの方は、第二部からの参加をおすすめいたします

みなさまとお会いできることを楽しみにしています。ご意見・ご質問・リクエスト等ございましたら、遠慮無くご連絡ください。
| akb | 勉強会 | 11:12 | comments(0) | trackbacks(0) |
余裕が大事
linuxには、処理中の一時ファイルを出力する/tmpや/var/tmpというディレクトリがあります。

巨大ファイルのソートなど、一時ファイルを大量に出力する処理では、/tmpディレクトリの空き容量が足りないと処理が止まります。

そんな時の解決策をまとめてみました。

解決策1./tmpディレクトリ内のファイルを削除して、空きを増やす

linuxには/tmp内の10日以上更新されていないファイルを自動的に削除するしくみがあります(/var/tmpは30日)。

通常はこれで十分なようですが、NGSのデータは大きいので、解析を続けていると自動削除が間に合わず/tmpがいっぱいになってしまう場合があります。
その場合、/tmp以下のファイルを手動で削除して容量を空けてあげます。

/tmp以下には基本的に「消されて困らないものしか置かない」ことになっていますので、基本的には削除してしまって大丈夫なのですが、怖い場合は他の場所(自分のホームディレクトリなど)に移動するのでもいいです。

ただし使用中のファイルがある可能性がありますので、実行中のプロセスを確認してから行いましょう。


解決策2.一時出力先を/tmp以外に変更する

コマンドによっては、一時出力先を変更できるものがあります。
例えば、sortでは「-T」オプション、javaでは「-Djava.io.tmpdir」オプションで任意出力先を指定できます。

$ sort -T /home/hat/mytmp IN.txt > OUT.txt

$ java -Djava.io.tmpdir=/home/hat/mytmp -jar SortSam.jar I=IN.bam O=OUT.bam SO=coordinate


これなら/tmpディレクトリの空きを気にしなくていいです。

注意点として、自分で指定した先に出力された一時ファイルは時間が経ってもlinuxに自動削除されませんので、不要になったら手動で消す必要はあります(一時ファイルは、処理が終わると削除されるものも多いですが)。

コマンドのオプションで変更できない場合は、以下のようにenvコマンドで環境変数TMPDIRを指定して実行することにより、実行中の間だけ一時出力先を変更することもできます。

$ env TMPDIR=mytmp samtools sort IN.bam OUT


解決策3.環境変数TMPDIRを設定する

~/.bashrcに
「export TMPDIR=/home/hat/mytmp」
のように設定すれば、以降は一時出力先としてそこが使われます。


この「/tmp空き不足」問題は、朝から晩まで熱心に解析されているお客様ほど発生しやすいので、こちらも最大限のサポートをご提供できるよう、対策ノウハウをためていきたいと思います。
もっと良い解決策をご存知の方はぜひご教示ください。
| hat | システム | 17:06 | comments(0) | trackbacks(0) |
花粉症
寒い冬から暖かい春にそろそろ移り変わろうとしていますが、皆様はいかがお過ごしでしょうか。

春といえば、花見、歓送迎会、新しい出会いなどいろんな言葉が思い浮かびますが、私のなかで最も比重が大きい言葉は花粉症です。

私は小学生の頃から花粉症を患っており、毎年薬を飲んでなんとか耐えきっています。今年は、忙しかったこともありなかなか病院に行けず、先週まではかなり苦しい思いをしました。
いまは楽を飲んでおり、症状は改善されてきています。ただ、私は副作用の眠気がひどく出るため、今は眠気との戦いです。

弊社は花粉症を患っているメンバーが多く、私以外にも花粉症に苦しんで目を真っ赤にしている社員がいます。

wikipediaの花粉症のページによると、花粉症による社会的損失は数千億円にもなるそうです。この時期だけスギの殆どない北海道か沖縄で仕事出来たらな…と思ってしまいますね。

薬を飲んでも飲まなくても辛いこの季節ですが、年度末、そして来年度に向けて、さらなる飛躍を遂げられるよう、花粉症に負けず努力していきたいと思います。
| deda | よもやま話 | 17:14 | comments(0) | trackbacks(0) |
社内研修
hatです。

先週末、外部の方にいらしていただいて、社内研修を受けました。
テーマは「お互いをもっと良く知って、一体感のあるチームになろう!」

診断テストやいくつかのワークを通して
考え方のくせや価値観が明確になりました。

私の考え方のくせは「右脳優先型」で
最も大切にする価値観は「つたえる」ことでした。

価値観はそれぞれ本当にバラバラで、
他の人の結果にびっくりすることが多かったです。
いい意味で多様性のある会社なんだなあと思いました。

それぞれの個性を尊重し、強いところを活かしあって、
よりパワーのある会社になれるといいですね。
| hat | 会社のこと | 08:50 | comments(0) | trackbacks(0) |
第21回バイオインフォマティクス勉強会「バイオ研究者のためのR活用講座」 満員御礼
第21回バイオインフォマティクス勉強会「バイオ研究者のためのR活用講座」はお申込みが定員に達しましたのでキャンセル待ちとさせていただいております。

たくさんのお申込み、ありがとうございました!
| akb | 勉強会 | 09:42 | comments(0) | trackbacks(0) |
「第77回 日本循環器学会学術集会」出展のご案内
アメリエフ株式会社は、2013年3月15日(金)〜17日(日)にパシフィコ横浜で開催される、「第77回 日本循環器学会学術集会」に出展いたします。
皆さまのご来場をお待ち申し上げます。

■ 学会名
・第77回 日本循環器学会学術集会
 ホームページ:http://www2.convention.co.jp/jcs2013/

■ 開催期間
・2013年 3月 15日(金)〜 17日(日)

■ 会場
・パシフィコ横浜(横浜市西区みなとみらい1-1-1)

■交通アクセス
・JR線 横浜駅から タクシー約7分
・JR線 桜木町駅から 徒歩約12分
・みなとみらい線 みなとみらい駅から 徒歩3分
・詳細はこちらをご参照ください。

■ 展示内容
・受託解析サービスのご紹介
 *超高速シーケンスデータ解析の実例
 *SNP/CNV/メチル化データ解析の実例

・バイオインフォマティクス・スクールのご紹介
 *Linux基礎
 *NGS基礎(Resequence、RNA-Seq、ChIP-Seq他)
 *R入門バイオ統計

・バイオインフォマティクス・勉強会のご紹介
| akb | 学会出展 | 18:31 | comments(0) | trackbacks(0) |
第21回バイオインフォマティクス勉強会「バイオ研究者のためのR活用講座」 空席僅かです
既にアナウンスさせていただいておりますが、
3/23(土)に第21回バイオインフォマティクス勉強会「バイオ研究者のためのR活用講座」を開催いたします。

たくさんの方にお申し込みをいただきありがとうございました。
空席残り僅かですので、ご検討中の方はお早めにお申込みください。
| akb | 勉強会 | 19:10 | comments(0) | trackbacks(0) |
「Reseq解析GUIマニュアル」を公開しました
本日は、弊社が slide share に新しく公開した「次世代シーケンス解析サーバー Reseq解析GUIマニュアル」をご紹介いたします。




この資料は、弊社で販売しております次世代シーケンスデータ解析サーバーのマニュアルの一部です。
Linux上であってもWindowsと同じような操作感覚で、グラフィカルに次世代シーケンスデータの解析が出来ることが示されています。

是非一度ご覧下さい。
| deda | 次世代シーケンサー解析 | 10:14 | comments(0) | trackbacks(0) |
あとはまかせた!
突然ですが、あなたはSEです。次のような時、どうしますか?

・A、Bというプログラムがある。
・Aは3時間、Bは6時間かかる。
・Bは、Aが完全に終わらないと開始できない。
・明日の昼までにBを終わらせる必要がある。
・Aは現在実行中で、あと2時間はかかる見込み。
そしてもう19時だ。

一回しかやらない処理のためにcronを設定するのも面倒くさいし、
21時まで残ってBを実行して帰るか...と思いながら、なんとなくネットで「コマンド 時間後に実行」を検索してみたところ、「at」という便利なコマンドがあることを知りました。

@IT「一定の時間後にプログラムを実行するには」

恥ずかしながら私は今日初めてこのコマンドの存在を知りました。

こんな風に使います。

$ at now + 1 minute
at> cd $HOME
at> echo "Hello, me in the future!" > msg
at> (Ctrl+Dで抜ける)

どきどきしながら1分間待つと、今いるディレクトリに「msg」というファイルができて、その中に
Hello, me in the future!
と怪しい英文が書かれています。

なんとなくタイムマシン気分が味わえますね。

調子に乗って
at now + 5 second
として、5秒以内に設定完了できるかスリルを味わおうと思ったのですが、指定できる単位はminuteからのようでした。残念。

時間指定は、現在からの相対時刻だけでなく、YYYYMMTT形式やat 1am tomorrow(明日の午前1時)、at midnight(真夜中)やat teatime(午後四時)という風にも指定できるようです。

あとはまかせた私は帰る」の「at」と覚えましょう。
| hat | システム | 19:11 | comments(0) | trackbacks(0) |
     12
3456789
10111213141516
17181920212223
24252627282930
31      
<< March 2013 >>

このページの先頭へ