アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
TED
きむです。お久しぶりです。
最近、TED(Technology Entertainment Design)にはまっています。
http://www.ted.com/talks

非常に有名なサイトだそうで、ご存知の方も多いと思います。
NHKでも放送されています。

彼らのミッションは「アイデアを広める」こと。
「アイデアの力」が、人々の物事に対する姿勢や行動のあり方、生き方、最終的には世界をも変えると強く信じているのです。
1984にスタートして、科学、教育、芸術、国際問題など多様なトピックについて、その道のトップランナーを招きカンファレンスを開催しています。
発表されたプレゼンテーションは、世界中に無料で公開されています。
新進気鋭の若者がプレゼンテーションを行う場面では、よき賛同者や出資者に巡りあい、湧水が濁流へと変わるドラマティックな瞬間に立ち会っているかのような臨場感にぞくっとしました。

「エンタテインメント性に富んだ素晴らしいパフォーマンス」へと昇華したプレゼンテーションと、好奇心をかきたてられるトピックに魅了されること間違いありません。
気になった方は是非ご覧ください。
あなたがお気に入りのスピーチに巡り合うことを楽しみにしています。

【おすすめのプレゼンテーションをまとめたサイト】
http://matome.naver.jp/odai/2130899017379563201
http://www.nhk.or.jp/superpresentation/backnumber/
http://ja.wikipedia.org/wiki/TED
| きむ | よもやま話 | 11:45 | comments(0) | trackbacks(0) |
第21回バイオインフォマティクス勉強会「バイオ研究者のためのR活用講座」開催のお知らせ
今回の勉強会では、アレイ解析、GWAS、NGS解析、検定における
統計解析パッケージRの活用方法を実例を交えてご紹介いたします。

              記

日時:2013年3月23日(土) 15:30〜17:00
場所:東京ライフサイエンスインキュベーションセンター会議室A
          (東京都立産業貿易センター 浜松町館6階)
地図:http://tlic.incubation-center.com/access.htm
定員:24名

また、勉強会後に懇親会を開きたいとおもいます。
毎回、勉強会以上に盛り上がっておりますので、ぜひ懇親会への参加をご検討ください。予算は4,000円(予定)です。

参加をご希望の方は、お問い合わせページにてお早めにお申し込みください。
勉強会(15:30〜17:00) ○
懇親会(17:30〜) ○

みなさまとお会いできることを楽しみにしています。ご意見・ご質問・リクエスト等ございましたら、遠慮無くご連絡ください。
| akb | 勉強会 | 10:28 | comments(0) | trackbacks(0) |
関西事業所のご紹介
2013年2月1日より、アメリエフ株式会社の関西事業所を神戸ポートアイランド内に開設しました。

多数のご要望をいただきました「バイオインフォマティクス・スクール/勉強会」の関西開催は、こちらの会場で行います。

<所在地>
兵庫県神戸市中央区港島中町2-1-12北埠頭ビル 3階
<交通>
ポートライナー「北埠頭」駅徒歩1分
| akb | 会社のこと | 13:10 | comments(0) | trackbacks(0) |
coverageBedの使い方(2)
coverageBedの使い方(1)のつづきです。

■カバレッジ計算
マッピング結果とゲノム、2つのBEDが用意できたら、以下のコマンドでカバレッジを計算します。

$ coverageBed -a map.bed -b genome.bed

以下のような結果が出力されます。

chr1___0__249250621__1__100__249250621__0.0000004
chr10__0__135534747__0____0__135534747__0.0000000
__:
chr2___0__243199373__1__100__243199373__0.0000004
chr20__0___63025520__0____0___63025520__0.0000000
__:

出力項目は、左から
1列目「genome.bedの1列目」
2列目「genome.bedの2列目」
3列目「genome.bedの3列目」
4列目「genome.bedにオーバーラップしたmap.bedの領域数」
5列目「カバレッジが0より大きいgenome.bedの塩基数」
6列目「genome.bedの領域長(=3列目と同じ値)」
7列目「map.bedによりオーバーラップされたgenome.bedの割合」
です。

7列目を見れば、染色体ごとのマッピング率がわかります。

ゲノム全体のマッピング率は、以下のコマンドで計算できます。
(今回のテストデータでは、6.46059e-08になりました)

$ coverageBed -a map.bed -b genome.bed | awk '{a+=$3;b+=$5} END {print b/a}' -

-bで指定するBEDを特定の領域(Exomeのキャプチャ領域など)にすれば、その領域に対するカバレッジを計算できますし、
以下のようなゲノム領域を10kb刻みで区切ったBEDにすれば、10kbごとのカバレッジを計算することができます。

chr1____0__100
chr1__100__200
chr1__200__300
__:

また、-aの代わりに-abamを使うと、BAMファイルを指定することもできます。
$ coverageBed -abam map.bam -b genome.bed
| hat | バイオインフォマティクス | 19:39 | comments(0) | trackbacks(0) |
coverageBedの使い方(1)
以前bedtoolsの一つであるintersectBedの使い方についてご紹介しましたが、今回はcoverageBedについてご紹介します。

マッピング結果がどのくらいゲノム全体をカバーできているか知りたい時、coverageBedを使うとカバレッジが簡単に計算できます。

■用意するもの
・マッピング結果のBEDファイル
__--マッピング領域の染色体名・スタート・エンド

BEDは1行に最低3列、オプションで12列まで書くことができるフォーマットですが、coverageBedでは3列のBEDしか受け付けないようです。

列数が3より多い場合は、以下のコマンドで列数を3列だけにしておきます。
$ awk '{print $1"¥t"$2"¥t"$3}' original_map.bed > map.bed

今回、マッピング結果のBEDファイルとして以下のようなファイルを作成しました。
chr1__0__100
chr2__0__100

・ゲノムのBEDファイル
__--各染色体の染色体名・スタート・エンド

ゲノムのBEDファイルは、ゲノムのfastaファイル(ここではgenome.faという名前のものを使いました)から以下のコマンドで作ることができます。
染色体の長さが分かれば手作業で作ってもよいです。

$ samtools faidx genome.fa
__→genome.fa.faiというファイルができます

$ awk '{print $1"¥t0¥t"$2}' genome.fa.fai > genome.bed
__→以下のような内容のgenome.bedができます

chr1__0__249250621
chr2__0__243199373
__:
chrY__0__59373566
chrM__0__16571

以上で準備は完了です。次回でカバレッジの計算を行います。
| hat | バイオインフォマティクス | 19:02 | comments(0) | trackbacks(0) |
春を待つ
きむです。
まだまだ寒い日が続きます。

春が待ちきれず、気象庁の「2013年のさくらの開花」ページを開いてみました。
http://www.data.jma.go.jp/sakura/data/sakura2013_kaika.html

なんと、沖縄県の石垣島では、1月22日にひかんざくらの開花が観測されていました。
関東地方はまだ真っ新ですが、これから桜前線が北上してくるのが楽しみです。
| きむ | よもやま話 | 13:09 | comments(0) | trackbacks(0) |
なにもしない
私はずっと、緩い言語の極致であるPerlを使ってきたので、
同じ感覚でPythonを使っているとインデントや型などが適当で、
「ちゃんとしろ」と怒られることが多いです。

私がPythonでおもしろいと思ったのは、
「なにもしない」というpassという命令文があることです。

向こうから来たのが友達なら「Hello!」と話しかけ、
ライオンなら走って逃げ、それ以外ならなにもしない
という処理をPythonで書いてみました。

#!/usr/bin/env python
import sys
he = "friend"

if he == "friend":
__print "Hello!"
elif he == "lion":
__sys.exit("Escape!")
else:
__# do nothing


これを実行するとエラーになります。
elseの中に命令がないためです。

Pythonは構文の構造にストイックなので、
「elseがあるんだから中になにか書きなさいよ!」と怒るのです。

次のように、elseの中に「pass」を書けば実行できるようになります。

if he == "friend":
__print "Hello!"
elif he == "lion":
__sys.exit("Escape!")
else:
__# do nothing
__pass


「なにもしない」ことまでいちいち宣言するなんて、
Pythonは律儀だなあと思いました。
| hat | システム | 19:19 | comments(0) | trackbacks(0) |
snpEffデータベースの作成方法
snpEffとは、SNVやIndelなどの変異にアノテーション付けをしてくれるソフトの事です。

既に広く解析されている生物種の場合は、snpEff内にアノテーションのデータベースが揃っていますが、多少マニアックなものだとデータベースが無い場合もあります。その際には、新しいデータベースを自作することができ、その方法はsnpEffのHPにも説明があります。ですが、少々不親切なところもあり、少し苦労をします。

今日は日本語で、その方法について簡単に紹介いたします。

1.ゲノムのリファレンス配列(fasta)を用意します。ここでは仮にhogenomeという生物種のゲノムを追加する事にします。

2.hogenomeのGFF、もしくはGTFファイルを用意します。

3. snpEffのインストールディレクトリ(/path_to_snpEff/)にあるsnpEff.configに、ゲノムの情報を追加します。詳細はこちら。ちなみにリンク先に記載されているsnpEffect.configとは、snpEff.configのことです。

4./path_to_snpEff/data/ ディレクトリに移動し、新しいデータベース名のディレクトリを作ります。ここでの名前は、上記3番で追加したhogenome.genomeの.より前(ここではhogenome)と同じものにした方が良いようです。

5.hogenome/の中に移動し、GFFもしくはGTFファイルを置きます。そして、ファイル名をgenes.gff(GTFの時は .gtf)と変換してください。

6.hogenome/から出て、/path_to_snpEff/data/ 以下にgenomes/というディレクトリを作成します。その中に、hogenomeのfastaを置いてください。ファイル名はhogenome.fa としてください。

snpEffのHPではgffとfaに関して、gz圧縮された例しか載っていませんが、圧縮されていなくても動きます。

7./path_to_snpEff/に移動して、以下のコマンドを打ちます。

$ java -jar snpEff.jar build -gff3 -v hogenome

これで、エラーが出なければ、新しいsnpEffのデータベースの完成です。あとは楽しくアノテーションをしてみてください。
| deda | 次世代シーケンサー解析 | 18:50 | comments(0) | trackbacks(0) |
語学留学
最近、英会話を勉強しているakbです。

英会話の勉強方法として1番良い方法は何ですか?と質問すると、大抵、答えは、「英語が母国語の方とたくさん話すこと」です。そして「留学が、もっとも早く、そして効率良く語学を習得できる」と続きます。
今の私にとって留学は現実的ではないので、別の良い方法を模索していますと、こんな本に出会いました。

スーパーリアルDVDで素のネイティブ200人と対話すればリスニング力が急激に伸びる! 見る英会話留学
スーパーリアルDVDで素のネイティブ200人と対話すればリスニング力が急激に伸びる! 見る英会話留学
沼越康則

本書には、DVDが付属しており、米国人200人との生の会話を疑似体験することができます。
教科書のように型にはまった言い回しだけでなく、アメリカ在住のネイティブの方がどのような口調で、どのような言い回しをするのかを学べます。
ご自宅で語学留学を体験されたい方には、是非お手にとっていただきたい一冊です。
| akb | 書籍の紹介 | 13:28 | comments(0) | trackbacks(0) |
miRNA-Seq解析の論文
最近のPLoS Oneに載っていたmiRNA-Seqの論文をご紹介します。

Bansal A, et al.
Discovery and Validation of Barrett's Esophagus
MicroRNA Transcriptome by Next Generation Sequencing.
PLoS One. 2013;8(1):e54240.
Epub 2013 Jan 23. PubMed PMID: 23372692.


バレット食道(Barrett's esophagus)は
食道下部の粘膜が胃と同じ円柱上皮に置き換わった状態で、
食道がんの前駆病変の一つと考えられており、
胃食道逆流症(GERD)により引き起こされるそうです。

この論文では、バレット食道患者と胃食道逆流症患者の間で
以下の手順でmiRNAの発現を比較しています。

1. バレット食道患者 6名と胃食道逆流症患者 5名の
Total RNAのうち70bp未満のものをSOLiDでシーケンシング
(リード長35bp)

2. アダプタ除去後、15bp以上残ったものだけを、
miRBase最新版にbowtieでマッピング

3. precursor miRNA配列にマッピング(〜1ミスマッチ)、
mature miRNA配列にマッピング(オーバーラップ7bp〜)

4. miRNAにマップできなかったものを
fRNAdbのNon-coding RNA配列、hg19ゲノム配列、
大腸菌ゲノム配列にマッピング(〜3ミスマッチ)

5. miRNAとアノテートできたものについて、Bioconductorの
DESeqパッケージでリード数を正規化、発現レベルを比較

6. 解析結果をRT-PCRで検証

7. miRNAのターゲットを複数プログラム(*1)で予測し、
それぞれ上位5%だけに絞り、2つ以上のプログラムで予測された
遺伝子をターゲット候補として残す
*1:microT, miRanda, miRTarget, PicTar, PITA, RNA22, TargetScan

8. ターゲット候補遺伝子についてEGANを用いてKEGG Pathway解析

同じような発現傾向を示すいくつかのmiRNAが
同じ遺伝子をターゲットにしていることがわかったそうです。

miRNA-Seq解析の論文を定期的にチェックしているのですが、
Exome解析やRNA-Seq解析と異なり、
miRNA-Seq解析はまだ定番の仕組みができておらず、
論文ごとに手順やソフトウェアが異なるようです。

miRNA-Seq解析のご要望にお応えできるよう、
引き続き論文をチェックしていきたいと思います。

個人的な話ですが、アノテーションで使われているfRNAdb
昔3年間ほどお仕事をさせていただいていたことがあります。
自分が関わったデータが最新の論文でも活用されていることが
とても嬉しかったです。
| hat | 次世代シーケンサー解析 | 17:49 | comments(0) | trackbacks(0) |
英語を学び直す
ネイティブの子供を手本にすると 英語はすぐ喋れる (青春新書インテリジェンスシリーズ)
ネイティブの子供を手本にすると 英語はすぐ喋れる (青春新書インテリジェンスシリーズ)
晴山 陽一


日本と海外を隔てる大きな壁の一つに英語の問題があります。日本人は学校で英語を学習してきているので、基礎はある程度身についているはずですが、なぜか話せないということも多いですね。
この本は、文法から入って基礎を固めるという一般的な方法とは異なり、ネイティブの子供が英語を身に着けていく過程を追いながら、英語の感覚を学んでいく、というコンセプトで書かれています。自分の言いたいことをパッと表現したい時にどのように話せばいいのか、その悩みに答えてくれる本と言えるでしょう。
もちろん基本的な文法・単語力は必須になりますが、英語を学んでいるのに話せない人にとって、何かのヒントになる本だと私は思います。
| deda | 書籍の紹介 | 09:09 | comments(0) | trackbacks(0) |
     12
3456789
10111213141516
17181920212223
2425262728  
<< February 2013 >>

このページの先頭へ