アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
精神を整える
皆様こんにちは。detでございます。

私は今週夏休みを頂いておりまして、今は某所の山奥でひっそりと過ごしています。昨日は近くの山を登って、頂上の神社までお参りしてきました。

普段は、人工物に囲まれた生活をしているため、このような自然に囲まれた中での生活は非常に心が洗われます。
この休暇は、仕事・人生・バイオインフォ・その他いろいろな事をじっくりと考える良い機会になっています。このような、自分を見つめ直す時間を取る事はとても重要ですね。

仕事に戻ったら更なるパフォーマンスが発揮出来るよう、自分の芯の部分を磨きながら、この休暇を過ごして行きたいと思っています。

今日も別の山に登るとしましょう。

それでは失礼いたします。
| deda | よもやま話 | 14:43 | comments(0) | - |
相対パスと西瓜わり
夏の風物詩の一つと言えば「西瓜わり」ですが、
西瓜に向かっている人に、どのような指示を出しますか?

「(そこから)まっすぐ前」「ちょっと右」のように
今いる場所からどちらに向かえばいいかを伝えると思います。
「北緯36度東経140度に移動してください」とは言いませんよね。

前者がコンピュータで言うところの「相対パス」で、
後者が「絶対パス」です。

「絶対パス」は常に同じであるというメリットがありますが、
階層が深くなるほど文字数が長くなりがちです。
近くに移動したい場合は、今いるところから見てどちらかを示す
「相対パス」を使うほうがわかりやすいことが多いです。

Linuxで「/home/amelieff/」から「/home/genome/」に
相対パス指定で移動する

$ cd ../genome

Rで「C:/Users/amelieff/Documents/」から
「C:/Users/amelieff/Desktop/1_work/」に相対パス指定で
移動する

> setwd("../Desktop/1_work")

「相対パス」と「絶対パス」については以前にも記事を書いていますので、
ご参考になれば幸いです。

「絶対パス」と「相対パス」を使い分けて、LinuxやRを
楽に速く操作しましょう!
| hat | システム | 11:07 | comments(0) | - |
世界を見ずに死ねるか
私事ですが、アメリエフに入社してから早くも3週間が経ちました。
入社してからは、弊社のスクール事業で使われている教材を使って、Linux基礎、NGS基礎、R基礎、Perl基礎を学んでいます。それぞれ基礎を押さえながらも実習も豊富なので、短期間で、全体の概略から具体的な方法まで身に付く構成となっています。これらの知識が定着するように、あとは実践を重ねていくのみです!

さて、本日は書籍の紹介をさせて頂きます。タイトルは「君は、こんなワクワクする世界を見ずに死ねるか!?」です。私の留学中に日本で出版されたのですが、タイトルが魅力的なので、出版当初からずっと読みたかった本です。幸運にも弊社の文庫で発見しました。

4838724462
君は、こんなワクワクする世界を見ずに死ねるか!?
田村 耕太郎

冒頭では、著者が経験した海外での体験を織り交ぜながら、なぜ海外へ出るべきかを述べています。また、日本人に対する国際的評価や世界で有利に活かせる日本人としての性質を紹介しています。さらに、各国で勉学に励む日本人学生や、各分野のプロとして世界で活躍している日本人の方々へのインタビューがまとめられています。そして最後に、海外留学(とくに社会人のMBA留学)の具体的な方法が紹介されています。

理工系の人間にとっては有益な情報が少ない気がしましたが、一度は海外で勉強したい/働きたい…けどなかなか踏み出せない、という方には、背中を大きく押してくれる本だと思います。
| heshi | 書籍の紹介 | 14:51 | comments(0) | - |
NGS現場の会出展のご案内
アメリエフ株式会社は、2013年9月4日(水)〜5日(木)に神戸国際会議場で開催される、「NGS現場の会 第三回研究会」に出展いたします。また、9月4日15:45から企業セッションを行います。皆さまのご来場をお待ち申し上げます。

■ 学会名
・NGS現場の会 第三回研究会
 ホームページ:https://meeting3.ngs-field.org/about

■ 開催期間
・2013年9月4日(水)〜5日(木)

■ 会場
・神戸国際会議場(兵庫県神戸市中央区港島中町6-9-1)

■交通アクセス
・神戸新交通ポートアイランド線 市民広場駅 下車すぐ
※詳細はこちらをご参照ください。

■ 企業セッション内容
・場所
 D会場(部屋:504/505)
・時間
 9月4日(水)15:45〜16:30
・テーマ
 フリーソフトではじめるゲノム解析
・主なソフト
 FastQC,FASTX-Toolkit,BWA,Picard,GATK,snpEff等
・学べること
 フリーソフトを使ったデータ解析
・対象者
 これからNGS解析をはじめる方 / NGS解析初心者

■ 展示内容
・ポスター展示
 アセンブリングソフトウェアのリソース・精度検証
 解析ツールレポート
 次世代シーケンサを用いた Exome解析による 疾患関連遺伝子の探索 
 バイオインフォマティクス・スクール

・受託解析サービスのご紹介
 超高速シーケンスデータ解析の実例

・バイオインフォマティクス・スクールのご紹介
 Linux基礎
 NGS基礎(Resequence、RNA-Seq、ChIP-Seq他)
 R基礎
 Perl基礎

・解析レポートを配布
 「iPS特異的変異検出」
 「トリオの変異検出解析」

・バイオインフォマティクス・勉強会のご紹介
| akb | 学会出展 | 15:03 | comments(0) | - |
熱中症
暑い夏が続きますが、皆様いかがお過ごしでしょうか。
こう暑い日が続くと心配になるのは熱中症ですね。
人はもちろんペットなども熱中症には要注意です。そして、それ以外にも熱に弱いものがあります。そう、パソコンやサーバーです。

冷房の効いた涼しい部屋にサーバーが設置できればいいのですが、そうもいかない場合も多々あるでしょう。
そのような状況におけるサーバーの熱対策について、簡単にできるものをいくつか書いてみました。

1、室内での設置位置を工夫する
 まずは、窓際などの日光が当たるところにサーバーを設置するのはやめましょう。また、サーバーの周囲を机や壁でかこってしまうと熱がこもりますので、サーバー周りはスペースに余裕を持たせるようにしましょう。

2、エアフローを考える。
 基本的に弊社が販売しているようなタワー型のサーバーでは、前面から冷却用の空気を吸って、背面に排気しています(例外もあります)。ですので、前面にエアコンの風が当たるようにしたり、背面にスペースを持たせ、サーキュレーターを設置して空気の流れを作るだけでも、大きな違いがあるでしょう。

3、ほこりをとる
 設置場所にもよるのですが、床の上や、ほこりっぽいところに置いてあるサーバーは、内部やファンの吸気口にほこりがたまりやすくなります。ほこりがたまれば、当然のようにエアフローが悪化し、熱もこもりやすくなります。一年に一回はサーバーの中のほこりをとることをお勧めします。

以上、いろいろと書いてきましたが、これ以外にも冷却ファンを高性能なものにかえる、温度を常に監視するなどいろいろな対応法があります。
サーバーの熱対策もしっかりして、よりよい解析ライフが過ごせるようにしたいものですね。
| deda | システム | 15:58 | comments(0) | - |
いろいろな「さよなら」
hatです。

久しぶりにftpをコマンドラインから使う機会があり
終了コマンドがわからなくて調べたら「bye」でした。

「bye」はかっこいいなあと思いまして、
他のコマンドやプログラミング言語についても
終了コマンドを整理してみました。

exit派
・Windowsコマンドプロンプト
・Perl言語
・PHP言語
・Python言語(「sys.exit()」 ※対話モード終了はCtrl+D)
・Java言語(「System.exit()」)
・nslookupコマンド
・sshコマンド(「logout」でも)

quit派
・telnetコマンド
・ftpコマンド(「bye」でも)

独自路線
・R(「q()」※作業スペース強制非保存は「q("no")」)
・日本語プログラミング言語なでしこ(「終了」)

※強制終了dieとかもありますが省略

やはりexitやquitが多数派なのでしょうか。
確かに共通化されていたほうがわかりやすいのですが
byeは3文字で打ちやすく、実行後の気分も爽やかなので
もっと評価されてもいいのになあと思いました。

他に変わった終了コマンドをご存知の方は教えてください。

bye
| hat | システム | 16:04 | comments(3) | - |
気軽にbamファイルの中を見る
入社して四か月になり、私も簡単な解析ならできるようになりました。
とはいえ、解析中に起きたエラーについて先輩に相談したところ
「ちょっとBAMファイルをless(コマンド)で確認してみようか」
と言われ、
「BAMってバイナリデータでは……?」
と狼狽したので、まだ初心者のようです……。
(バイナリデータとは、人が読める文字で書かれたテキストデータではない、コンピュータが読みやすい二進数で記されたデータのことです。テキストデータと同じように開こうとするとエラーが出るか、無理やり普通のデータと同じように開いてみても、文字化けのようになります。下図はBAMファイルをWindows上のテキストエディタで開いてみたものです)
バイナリの文字化け

BAMファイルの中身を閲覧したいときには、samtools viewでBAMをSAMに変換します。もちろん、SAMファイルとして出力してもいいでのすが、少し中を確認したいだけのときは、パイプ(|)でlessコマンドを続け、扱いやすいテキストとして気軽に読むようにできます。

$ samtools view example.bam | less
| kubo | バイオインフォマティクス | 15:32 | comments(0) | - |
2013年後半 バイオインフォマティクス・スクール開講のご案内
バイオインフォマティクス・スクールのご案内です。
現在、下記の講座のお申込みを受付けております。
これからLinuxを用いたデータ解析統計解析パッケージ「R」を短期間で学習したい方におすすめのコースとなります。

■Linux基礎
浜松町会場
10月開講:10月10日(木)〜11日(金)申込締め切り:9月19日(木)
神戸会場
11月開講:11月14日(木)〜15日(金)申込締め切り:10月24日(木)

■R基礎
浜松町会場
10月開講:10月17日(木)〜18日(金)申込締め切り:9月26日(木)
神戸会場
11月開講:11月28日(木)〜29日(金)申込締め切り:11月7日(木)

詳細は弊社ホームページをご覧ください。

また今秋にはプログラミング言語「Perl」の基礎講座の開講を予定しております。併せてご検討ください。
| akb | スクール | 15:08 | comments(0) | - |
はじめまして
新入社員のheshiです。

今夏に、アメリカの大学院で修士課程を修了して日本に帰ってきました。
卒業が決まってからは、旅行したり地元の沖縄に帰ったりしたので、真っ黒に日焼けしてしまいました。
弊社で東南アジア系らしき者を見かけたら、多分それは私です(※日本人です)。
日本の流行からは逸脱しているようなので、今年は美白を頑張ります!

大学院では、大腸菌の有用物質生産性向上を目的として、遺伝子組み換え大腸菌の遺伝子を最適化するシミュレーションに関する研究を行っていました。

バイオインフォマティクスというよりはシステム生物学の分野にいたので、バイオインフォマティクスに関してはこれから頑張っていこうと思います。

どうぞよろしくお願いいたします。
| heshi | よもやま話 | 17:49 | comments(0) | - |
CELファイルの中身
tokunagaです。
本日はCELファイルについてお話ししたいと思います。

CELとは、AffymetrixのArrayで出力される遺伝子発現やジェノタイピングデータの含まれたファイルのフォーマットです。
CELファイルには、DATファイル(Affymetrixのスキャナーから出力されるフォーマット)のピクセル値から計算されたintensityの結果が含まれています。その他に標準偏差値、ピクセル値、外れ値のフラグ等が入っています。細かいコンテンツはArrayの種類やバージョン、使用したアルゴリズムによってそれぞれです。
これらのデータはAffimetrixが提供しているツールや、Rのパッケージを使って情報を取り出すことが可能なようです。

また中身の情報を見るだけではなく、CELファイルから様々な解析結果の図を描くことが出来るようなので、機会がありましたらその方法についてもご紹介もしたいと思います。
| tokunaga | バイオインフォマティクス | 14:43 | comments(0) | trackbacks(0) |
各リードが1回だけ登場するBAMを作るには
マッピング率を計算する時など、BAMファイルから、マッピングされたリード数を取得したい場合があると思います。

samtools idxstatsでもマッピング結果の統計を出すことができるのですが、マルチマッピングのBAMの場合は重複してカウントされてしまうようで、正確なリード数が得られません。

samtools viewに-Fオプションをつけて実行すると各リードが1回だけ登場するBAMを作成することができます。

【実行例】
samtools view -bh -F 256 -o hoge_uniq.bam hoge.bam

【解説】
・BAMの2列目は「フラグ」列です。
 同じリードが2回目以降マッピングされた場合、フラグに0x100(=256)が立ちます。
・samtools viewの-Fオプションは、「そのフラグを持つデータを除く」の意味なので、-F 256とすると「1回目のマッピング箇所のみ残す」ことができます。

このBAMに対してsamtools idxstatsをかけると、正確なマッピング数やアンマッピング数を得られます。
| hat | バイオインフォマティクス | 13:51 | comments(0) | trackbacks(0) |
変異の絞り込み 【4】 公開データベースを用いた候補の絞り込み
変異の絞り込み 【1】論文紹介
変異の絞り込み 【2】変異検出
変異の絞り込み 【3】候補の絞り込み方


前回は、疾患関連変異候補の絞り込みの概要についてご説明しました。
今回の記事では、その絞り込みを実際にはどのように行うのか、ご紹介します。

絞り込む前に、本解析では、まず、弊社製のツールQmergeVCFを用いて、3サンプルのデータを統合しました。
QmergeVCFについては、後日別の記事で改めてご説明したいと思っていますが、要約すると、複数のVCFファイルを一つのファイル(タブ区切り)に統合し、アノテーションも行うツールです。
QmergeVCFの出力ファイルは、Caseから検出された変異について、以下の情報がアノテーション付されたものです。
■遺伝子名、ポジション
■公開データベースによるアノテーション
■変異のインパクト
■(非同義置換なら)コドンおよびアミノ酸の変化
■Caseにおける変異のステータス(遺伝子型、depth、GATKを用いて付与した変異のクオリティ…前回の記事参照、など)
■Controlの、Caseと同じポジションにおけるステータス
※Caseには存在しない、Control固有の変異の情報は含まれません。
※それぞれの項目について、変異がデータベースに登録されていなかったり、コドンを変えない場合、Controlでは変異が起きていなかった場合は"."と出力されます。

この複数サンプルについての情報が一つに統合されたファイルを用いて絞り込みを行いました。
(ここでは絞り込みをLinuxで行っているためawkコマンドを使いますが、Windows/Mac上ならExcelのデータフィルター機能も便利です)


まず、公開データベースに登録されている変異の除外から行いました。
LCA患者の総変異(SNV + Indel)106,488個のうち、dbSNP132に登録されている変異を除去します。(※最新のdbSNPは138ですが、本解析ではdbSNP132までに登録されている変異の除去のみを行いました
Qmergeの出力結果(output)では、11列目にdbSNPのバージョンの情報が書かれています。
qmerge出力イメージ
そこで、11列目の情報が132以上のもの、または登録されていないものだけを抜き出して出力します(filter1)。

$ awk '{FS="¥t"} NR>1 && $11>=132 || $11 == "." {print}' output > filter1
awkコマンドでは1列目を$1、2列目を$2…と指定します。FSは入力ファイルの要素の区切りの指定で、タブ(¥t)のみを要素の区切りとみなすように指示しています。NRは行の指定で、ここでは1行目以外の行に対し処理を行うように指定しています。

dbSNP132で絞り込みをかけた結果、候補変異が106,488個から58,980個、およそ6割に減りました。

次に、1000人ゲノムプロジェクトでアレル頻度が高い変異を除去します。ここでは、アレル頻度が5%以下の変異、もしくは登録されていないもの(“.”)だけを抽出します。QmergeVCFの出力結果では、1000人ゲノムプロジェクトのアレル頻度は13行目にあります。

$ awk '{FS="¥t"} $13 <= "0.05" || $13 == "." {print}' filter1 > filter2

この結果、58,980個の変異候補を20,714個に絞り込むことができました。


公開データベースを用いた絞り込みはここまでです。公開データベースによる絞り込みで、疾患関連候補のSNV/Indelを

106,488 → 20,714

と2割にまで減らすことができました。

次回は、変異のクオリティやインパクトによる絞り込みで、さらに変異候補の数を減らしていきます。

変異の絞り込み 【4.5】お詫びと訂正
変異の絞り込み 【5】変異のクオリティとインパクト
変異の絞り込み 【6】遺伝型による絞り込み
| kubo | 次世代シーケンサー解析 | 15:26 | comments(0) | - |
四次元の冒険
四次元の冒険 第2版?幾何学・宇宙・想像力
四次元の冒険 第2版?幾何学・宇宙・想像力
金子 務,竹沢 攻一

説明の素晴らしさに唸る一冊です。

本書には二次元の世界(!)が登場します。
そこには「スクエア氏(机の上に置いた折り紙のような、平べったい
生き物)」をはじめとした、平べったい、知能を持った生物が
住んでいます。
住人たちは(エアーホッケーのパックのように)その表面を滑って
移動しています。

この二次元世界、実は三次元空間内にあり、ごくわずかに「高さ」が
あるのですが住人は気づいていません。

三次元の存在を信じられないスクエア氏に、三次元生物のソフィア嬢
(二次元では円に見える)は、一次元世界を見せたり、スクエア氏を
平面からはがして二次元世界を俯瞰させたりします。

一次元世界と二次元世界の関係を理解することによって、
スクエア氏は三次元の存在を理解します。
私もこの例えで、四次元がわかった気がしました!

ある時、三次元世界の「キューブ氏(サイコロみたいな形をした生き物)」が二次元世界にめり込んで、通り抜けました。
その間、キューブ氏の姿はスクエア氏からはいろいろな形に見えました。
「突然現れた点」→「徐々に大きくなる四角」→「一番大きい四角」
→「徐々に小さくなる四角」→「点」→「消滅」
どうしてかわかりますか?

では四次元の住人が三次元に現れたらどのように見えるのでしょうか?

正解は本書で!

コミカルなイラストがちりばめられており、とても楽しい本です。

高校生くらいの時に友達に貸したきり返ってこなくなり、
読みたくても絶版で図書館を探し回っていたのですが、
最近復刊されて嬉しい限りです。
| hat | 書籍の紹介 | 14:53 | comments(0) | - |
GATKの「known sites」
今日は、次世代シーケンサの解析に用いられるGATKについてお話します。
GATK実行時に「known variants/sites」を指定しなければいけないコマンドが多々あります。
GATKのマニュアルにかかれたコマンド例や、論文を参考にしていましたが、網羅的にまとめているページがありました。
http://www.broadinstitute.org/gatk/guide/article?id=1247


「UnifiedGenotyper」「HaplotypeCaller」では、アノテーションに使用しているだけなので、ご自由時どうぞ
それ以外の「RealignerTargetCreator」「IndelRealigner」「BaseRecalibrator」「VariantRecalibrator」「VariantEval」は、解析の結果が変わってきてしまうので、推奨の「known variants/sites」を使用するように
と、書かれています。

特に「VariantEval」では、1000人ゲノムプロジェクトの影響を除いたほうがいいので、dbsnp129を推奨していました。
| きむ | バイオインフォマティクス | 15:18 | comments(2) | - |
    123
45678910
11121314151617
18192021222324
25262728293031
<< August 2013 >>

このページの先頭へ