アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
高田公園
先日、地元の高田公園(新潟県上越市)でお花見をしてきました。


高田公園は、徳川家康の六男・松平忠輝が築いた高田城の跡地にあります。
春は桜が空を覆う勢いで咲き誇り、夏は広いお濠を埋め尽くすように蓮が広がります。
秋は紅葉がきれいで、冬は雪が積もっています。
お近くにお越しの際は、ぜひお立ち寄りください。

子供の頃は毎年高田公園へお花見に行っていましたが、当時は今のようなお城は無く、城跡に「城の絵を書いた板」が立て掛けてあるだけで、子供ながらにとても残念な気持ちがしたのを覚えています。

忠輝が高田城を作ってから、今年でちょうど400年目にあたるそうです。
忠輝は家康に嫌われたという説があり、不遇なことも多い人生だったようですが、「城」が「板」なのもあの世から見ていて地味に辛かったのではないでしょうか。
400年目の今、復元したお城と見事な桜を見て喜んでいるといいなと思います。
| hat | よもやま話 | 16:19 | comments(0) | - |
Gene Mapper
Gene Mapper -core- (ジーン・マッパー コア)
Gene Mapper -core- (ジーン・マッパー コア)
Fujii Taiyo

今回ご紹介するのは、遺伝子組み換えをテーマにしたSF小説です。
新しいマッピングソフトウェアの名前みたいですね(笑)

西暦2037年、生物のゲノム配列はソフトウェアのプログラムのように
容易に改変可能なものになっていました。
主人公は、クライアントから依頼を受けて、ゲノム配列を変更する仕事を
しているフリーの「ジーン・デザイナー」。
大手アルコールメーカーの農園に、作物の色を動的に変えることによって
メーカーのロゴを描く仕事を引き受けたのですが、畑の一部に未知のゲノムが
混入し...

というストーリーです。

私がグッときたポイントを3点ご紹介します。
続きを読む >>
| hat | 書籍の紹介 | 15:26 | comments(0) | - |
カレンダーを見たい
akbです。
2013年度はバイオインフォマティクスに役立つ卓上カレンダーを学会や弊社の勉強会で配布しました。Linuxコマンドの覚え方(語呂合わせ)など、ちょっとマニアックな内容になっておりましたが、大変ご好評をいただき、お手にとっていただきました。ありがとうございました。みなさまの研究室でお役に立っていれば幸いです。

以前にもご紹介しましたが、Linuxには下記のような便利なコマンドが用意されています。
$ cal

カレンダーが表示されます。

- yオプションをつけると一年間のカレンダーが表示されます!Linux環境をお持ちの方はぜひお試しください。

今年度もみなさまのお役に立てるモノを作成したいと考えておりますので、こういうのあったらいいなといものがございましたらコメントください!
| akb | よもやま話 | 16:01 | comments(0) | - |
続・Rでgrep
以前、Rのgrep()についての記事で、grep()は文字列のベクトルにのみ使えるとご紹介しましたが、今回はマトリクスやデータフレームではどうしたらよいか?という記事です。

例として以下のような文字列のマトリクスを用意しました。
1列目が季節、2列目が英語の月名の12行の文字列のマトリクスです。
> monthly
  season month
[1,] "winter" "January"
[2,] "winter" "February"
[3,] "spring" "March"
[4,] "spring" "April"
[5,] "spring" "May"
[6,] "summer" "June"
[7,] "summer" "July"
[8,] "summer" "August"
[9,] "autumn" "September"
[10,] "autumn" "October"
[11,] "autumn" "November"
[12,] "winter" "December"


さて突然ですが、牡蠣はお好きでしょうか?
嘘か本当か、牡蠣はrのつかない月に食べてはいけないと言われています。
そこで、用意したマトリクスから、牡蠣を食べてはいけない月を抜き出してみようと思います。
まず、月名のベクトル、つまりマトリクスの2列目のみを取得します。
> monthly[,2]
[1] "January" "February" "March" "April"
[5] "May" "June" "July" "August"
[9] "September" "October" "November" "December"


さっそく、このベクトルからrのつく月をgrep()で抜き出しましょう。
続きを読む >>
| kubo | 統計解析ソフトR | 16:00 | comments(2) | - |
数値をカンマで3ケタ区切りにする
先日、数年ぶりに同い年の従兄弟に会いました。彼は正規表現の研究をしています。具体的にどんな研究をしているのか想像できないのですが、日頃からお世話になっている技術なので、お礼を言っておきました。

ということで、正規表現を使って、数値を3ケタのカンマ区切りにする方法をご紹介します。PerlとPythonです。

・Perl
$num = 1234567890;
$num =~ s/(¥d{1,3})(?=(?:¥d¥d¥d)+(?!¥d))/$1,/g;
print "$num¥n";
・Python
import re   #正規表現操作モジュールのインポート
num = 1234567890
num = re.sub(r'(¥d)(?=(¥d{3})+(?!¥d))', '¥¥1,', str(num))
print num
以上のソースコードをそれぞれファイルに保存して実行すると、以下のように3ケタごとにカンマで区切られた結果を出力します。
1,234,567,890
Pythonの場合、localモジュールを使う方法もありますが、今回は正規表現を使った方法のみのご紹介でした。
| heshi | システム | 15:38 | comments(0) | - |
Pythonで計算する時の注意点
Pythonで計算結果を小数点以下まで得たい時、単純に

val = 3 / 10

としてしまうと、結果が0になります。

val = float(3) / 10

のように、どちらかをfloat型にして計算すると0.3が返ってきます。

Perlだと $val = 3 / 10; で0.3が返ってくるので、Pythonでもうっかりやってしまいがちです。

気を付けたいと思います。
| hat | バイオインフォマティクス | 13:20 | comments(0) | - |
SomaticSniper (後)
SomaticSniperについての続きです。

SomaticSniperを実際に動かしてみます。
SomaticSniperはCentOSでも問題なく動作しますが、Ubuntuでの使用が推奨されています。

基本的な実行コマンドは下の通りになります。
必要なファイルは腫瘍サンプルと、ペアとなる正常サンプルのBAMファイルです。両方とも、リアライメントやduplicated readの削除など、補正されたものが推奨されています。
reference.faにはBAMファイルを作成する際に使用したゲノムを指定します。

$ bam-somaticsniper -f reference.fa tumor.bam normal.bam snp_output_file

オプションで、VCFやBED出力を指定することができます。
その他にも、検出するSNVのdepthやマッピング・ジェノタイピングのクオリティ、統計的なsomaticらしさ(somatic score)なども指定できますので、信頼性の低いSNVを除外する場合はこの時に指定できます。
論文で、設定を検討して信頼性が高い条件を挙げていますので、条件を厳しくして信頼性がきわめて高いSNVだけを検出したいときは、パラメータをデフォルトから変更して実行します。
実行後の出力ファイルに対しフィルタリングができる付属のスクリプトもあります。固まって検出されたSNVのフィルタリングができるなど、実行時に指定できるオプションよりフィルタリング条件が多いのでこちらも便利です。

注意点としましては、GATKの変異検出ツールUnifiedGenotyperの-Lオプションのように解析する領域を指定することができないので、
target sequence解析で使用する場合、SomaticSniperを実行する前のbamをintersectBedなどでターゲット領域に絞ってから解析する必要があります。
VCF形式で出力した場合は、解析後にターゲット領域に絞ることもできます。
もちろん前者の方がSomaticSniperの実行時間は短くなりますが、なんといってもSomaticSniperは早いので、あまりファイルサイズを増やしたくない事情がある場合は後者の方法を利用してもいいですね。

前の記事でも触れましたが、BED出力も注意が必要です。
UCSC定義のBEDのフォーマット(詳しくはBEDフォーマット完全解説の記事を読んでください)と異なり、SomaticSniperのBEDは以下のとおり4〜6列目がUCSCの定義と違っています。
1. #CHROM
2. START
3. STOP
4. REF/ALT
5. SOMATIC_SCORE
6. TUMOR_DEPTH
SomaticSniperのBEDを使うときは、気に留めたほうがいいでしょう。

まとめとして、実行が簡単な点や実行が速い点、VCFという扱いやすいフォーマットで出力できる点などが、便利なツールだと感じます。

簡単ですが、SomaticSniperの説明でした。
| kubo | 次世代シーケンサー解析 | 15:33 | comments(0) | - |
夜の花見


東京にいる社員で、3/31に年度納め会をしました。

弊社オフィス近くの世界の山ちゃんにて、おいしい手羽先とお酒を頂いた後、夜桜を眺めに上野公園へ移動しました。

私たちが到着した時間には、残念ながらライトアップの光は消灯されておりましたが、公園の外灯でも十分に楽しめました。※上野公園では20時にライトアップが終了するらしいです。
| heshi | よもやま話 | 17:05 | comments(0) | - |
社員研修に伴う休業のお知らせ
本日4月4日(金)14:00より、全社員研修のため営業をお休みをさせていただきます。

ご不便をお掛け致しますが、何卒ご了承くださいますよう宜しくお願い申し上げます。
| akb | 会社のこと | 10:18 | comments(0) | - |
SomaticSniper (前)
以前、heshiさんがSomatic Mutationを検出するツールについてのブログ記事を書かれましたが、そのうちSomaticSniperについて少しご紹介します。
論文:(SomaticSniper: identification of somatic point mutations in whole genome sequencing data. Bioinformatics. 2012 Feb 1;28(3):311-7.)
ダウンロード
TumorサンプルとNormalサンプルのBAMを比較し、統計的に有意にsomaticであると判断したSNVを検出するソフトウェアです。
SNVのみに対応しています。

出力フォーマットはデフォルトではタブ区切り形式(少しsamtoolsのpileup形式に似ています)ですが、VCF出力も指定できますので、snpEffなどのVCFへのアノテーションを行うツールと併用したり、IGVで可視化することもできます。
VCFではLOHのフラグも立ち、自前でフィルタリングする時に扱いやすいです。
BEDファイルを使うツールを使いたいときは、BED出力も指定できます。ただし、汎用的なフォーマットではないので使用方法を選びます。

特徴的なのは、実行時間の短さです。数GBのデータを2つも読み込んでいるにも関わらず、あっという間に解析が終わります。

次の記事で、もう少し詳細にご紹介いたします。
| kubo | 次世代シーケンサー解析 | 15:09 | comments(0) | - |
headとtail・その後
会社(神田)の近くに鰻屋さんが三軒あります。

私は大学時代のあだ名が「うなぎ女」だったくらい鰻が好きなので、
会社帰りに鰻丼をテイクアウトしたり、鰻屋の座敷で白焼きや肝串を肴に
焼酎を呑んだりして、しみじみ幸せを感じています。

発作的に鰻を食べたくなることが多いのですが、三軒もあると、
どれかが休みでも必ず鰻にありつけるという安心感があります。

headとtail の続きです。
続きを読む >>
| hat | - | 16:55 | comments(0) | - |
ファイルの大きさを知りたい
あるディレクトリに含まれているファイルのサイズを知りたい場合に、「du」というコマンドを使います。
$ du
このコマンドを実行するとカレントディレクトリ以下の全ディレクトリのファイルのサイズを再帰的に、つまり一番深い階層のディレクトリまで全部表示してくれます。また「-h」オプションを付けることで、出力されるファイルサイズを見やすくしてくれます。
$ du -h
しかし、このままでは、再帰的に全ディレクトリのサイズ情報が出力されるため、出力行数が多くなり、お目当てのディレクトリのサイズを確認することが困難です。そこで、以下のオプションをつけてみましょう。
$ du -h --max-depth=1
この「--max-depth=」オプションは、表示するディレクトリの階層の深さを表します。1に設定すれば、カレントディレクトリから一階層下のディレクトリまでしか見に行きませんので、結果が確認しやすくなります。
ぜひお試しください。
| deda | システム | 15:36 | comments(0) | - |
  12345
6789101112
13141516171819
20212223242526
27282930   
<< April 2014 >>

このページの先頭へ