アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
fastaの折り返し位置を変える
東京はすっかり夏の日差しです。
夏好きとしては今年も夏が来るのは嬉しいのですが、無防備に紫外線を浴び続けたつけが着実に肌に出てきています。いい美白ケア法がないか気になる今日この頃です。

fastaフォーマットの配列行は一般的に80文字未満で折り返すのがお作法のようですが、折り返す長さを変えたい場合もあると思います。

FastX-toolkitのfasta_formatterを使うと、折り返す長さを変えることができます。

例えばこのようなfastaがあったとして、


以下のコマンドで、80文字で折り返したfastaを作ることができます(-wに折り返す文字数を指定します)。
$ fasta_formatter -i IN.fa -o OUT.fa -w 80


-w 0とすると折り返しなし(ID行と配列行が1行ずつの繰り返し)となり、スクリプト等で処理しやすいファイルが作れます。

お肌の曲がり角もコマンド一発で折り返しなしにできたらいいですね!
| hat | 次世代シーケンサー解析 | 15:32 | comments(0) | - |
ゾンビパンデミック
突然ですが、ゾンビが発生したらどうしますか?

今年3月にアメリカ物理学会で発表されたシミュレーション結果によると、ゾンビが蔓延した時はひと気の少ないところに逃げるのが最も安全だそうです。

「ゾンビサバイバルガイド」でも、都市部は避けるべきだと言っています。
ゾンビサバイバルガイド
ゾンビサバイバルガイド
マックス・ブルックス (著), (翻訳監修)森瀬繚,卯月音由紀

クラス1(発生ゾンビが1〜20体レベル)の場合は自宅や公共の建物に閉じこもるのも悪くないそうですが、クラス3(数千体レベル)になると要塞に立てこもったほうがよく、クラス4(ゾンビが支配する世界)になると新天地を求めて旅立つ必要があるそうです。

ウイルス性感染症の極端な例としても、興味深いですね。

ゾンビと戦う時の武器を検証していたり、ゾンビから逃げる時の持ち物リストがあったりと、実用的な一冊です。一家に一冊、電話帳の横あたりに常備しておいてもいいかもしれません。
読んでいると、今にも外からゾンビが襲ってきそうな気になるので、眠れぬ熱帯夜におすすめの一冊です。
| hat | よもやま話 | 16:19 | comments(0) | - |
ChemmineRを使ってみよう【2】
ChemmineRの紹介記事2回目、前回はパッケージのインストールとSDFファイルの取得(読み込み)の方法をご紹介しました。
今回は、取得した読み込んだデータのアクセス方法と、SDFデータの確認方法をご紹介します。

前回は、CIDからgetIds関数で、またはSDFファイルの読み込みによってSDF情報を読み込んで、sdfsetというSDFsetオブジェクトを作成しました。
sdfset
An instance of "SDFset" with 10 molecules
class(sdfset)
[1] "SDFset"
attr(,"package")
[1] "ChemmineR"
SDFsetオブジェクトの各要素には、以下のようにしてアクセスします。
sdfset[1] # 1番目の要素にアクセス
sdfset[5:10] # 5〜10番目の要素にアクセス
SDFsetオブジェクトのヘッダを見るときはheader関数を使います。1つめの化合物のヘッダは次のようにしてみることができます。
header(sdfset[1])
$CMP1
Molecule_Name
"650001"
Source
" -OEChem-07071010512D"
Comment
""
Counts_Line
" 61 64 0 0 0 0 0 0 0999 V2000"

続きから、読み込んだSDFデータの確認をしていきます。
続きを読む >>
| kubo | バイオインフォマティクス | 16:00 | comments(0) | - |
すら(SRA)っとクイック(Q)に変換
NCBI SRAからダウンロードしたファイルがsraフォーマットの場合、以下のコマンドでまとめてfastqに変換すると便利です。

$ find . -name '*.sra' -exec fastq-dump {} ¥;


fastq-dumpについては
NCBI SRA Toolkitの使い方
も、findコマンドについては
findの-execオプション
もご覧ください。

| hat | バイオインフォマティクス | 15:08 | comments(0) | - |
ChemmineRを使ってみよう【1】
ChemmineRというパッケージの使い方をご紹介します。
オンラインでケモインフォマティクス解析を行えるChemMine ToolsというツールのRパッケージです。
ぱっと見て「けみなー」と読みましたが、もともとのツールがChemMineなので、「けむ・まいなー」と読むのでしょう。

連載で、公式のマニュアルにある「Five Minute Tutorial」から一部と、PubChem fingerprintを使った解析の一部を簡単に説明いたします。


インストールと読み込み
Bioconductorに登録されています。
source("http://bioconductor.org/biocLite.R")
biocLite("ChemmineR")
library(ChemmineR)

SDF(Structure data format)ファイルの取得
解析を始める前に、解析したい化合物の情報が必要です。化合物のCID(PubChem ID)か、SDFファイルを使って解析します。

解析したい化合物のCIDのリストから始める場合は、getIds関数でSDFの情報を取得します。getIdsには用意したCIDのベクトルを与えます。少し時間がかかると思います。
sdfset <- getIds(c(650001,650002,650003,650004,650005,650006,650007,650008,650009,650010))
取得したSDFデータは念のためファイルに書き出しておくと、同じ化合物を繰り返し解析するときに便利だと思います。
write.SDF(sdfset, file="sub.sdf", sig=TRUE, cid=TRUE, db=NULL)
書き出したファイルの読み込みは以下の通りです。CIDではなく、SDFファイルを用意した人も、同様にSDFファイルを読み込むことができます。
sdfset <- read.SDFset("your_file.sdf")
データがない場合はパッケージのサンプルデータを使います(今回例で用いているものと同じです)。
data(sdfsample)
sdfset<-sdfsample[1:10]
次は読み込んだSDFファイルの重複や有効性の確認方法をご紹介します。
| kubo | バイオインフォマティクス | 14:49 | comments(0) | - |
渋谷の真ん中で刃物を振り回す
先日、社内でお昼を食べながら
「どうして遺伝子間領域にあるSNVより遺伝子上にあるSNVを気にするのか」という話をしていて、

渋谷の交差点で刃物を振り回したら大変なことになるけど、大砂漠の真ん中で振り回しても大した害はないでしょ?

とドヤ顔で説明したのですが、一緒にいた解析担当者たちの反応が「そうですね」という感じでびっくりするくらい薄くて、こちらがびっくりしました。

そういえば先日の社内研修でも、ゲノムを楽譜に、DNAをドレミに例えて分子生物学基礎のプレゼンをしたのですが、その時も生温かく見守られる雰囲気になったことを思い出しました(プレゼン内容についてはあまりコメントが無かったのですが、「hatさん楽しそう」と言われました)。

私はわかりやすく伝えようとして例えを使うことが多いのですが、もしかするとかえってわかりづらくしてしまっているのかもしれません。
ひとりよがりな説明にならないよう、ジョブスの本など読んで精進したいと思います。

スティーブ・ジョブズ 驚異のプレゼン
スティーブ・ジョブズ 驚異のプレゼン
カーマイン・ガロ (著), 外村仁 解説 (その他), 井口耕二 (翻訳)
| hat | SNP解析 | 15:52 | comments(0) | - |
or dieよりもautodieがナウい
こんにちは、朝ごはんはパン派の久保(kubor)です。
みなさん、Perl書いてますか?

文字列処理が得意なPerlの使いドコロといえば、FASTQファイルを処理したり、TSVファイルを処理したり、とにかくファイル操作が多いです。
Perlでは、ファイルハンドルの作成に、open関数を使いますが、
この時、ファイルを読み込めたかどうかをチェックしたい場合が多いです。

よく書くのが以下の例です。

[selfDie.pl]
open my $FH_HOGE, '<', $ARGV[0] or die "Error: Cannot open $ARGV[0]"

これでも良いのですが、複数のファイルを開いたり、閉じたり、
開いたりしていると、「or die "Error: Cannot open $ARGV[0]"」を何回も書くのは、煩わしくなってきます。

そんなときは、冒頭で「use autodie;」と書いておきましょう。
「autodie」は標準モジュールなのですが、組み込み関数の例外を上手く処理してくれる大変便利なモジュールです。

[spewDie.pl]
use autodie;
open my $FH_HOGE, '<', $ARGV[0]
これを実行すると
perl spewDie.pl hoge.txt
Can't open 'hoge.txt' for reading: 'そのようなファイルやディレクトリはありません' at sampleperl.pl line 3
このように勝手にdieしてくれます。
素敵ですね。
use strict;
use warnings;
use autodie;
use utf8;
僕は、この4つをテンプレートに入れています。
例外処理を細かく書かないのであれば、とりあえず書いておくのがお勧めです。
| kubor | システム | 15:18 | comments(0) | - |
全部ぶちまける前に
五月になり、GWも終わって、世間の新歓ムードも落ち着いてきました。

自分が学生や新社会人だった頃を思い返すと、この時期はお酒を飲んでいろいろなもの(暴言や未消化の食物)を口から出していた思い出ばかりです。

そのような記憶を胆汁の味とともに苦々しく思い出しながら、五月の爽やかな風に吹かれている今日この頃です。
続きを読む >>
| hat | システム | 15:32 | comments(0) | - |
書き込み権限の無いファイルをsudoで上書き保存する
こんにちは、根は真面目な、久保(kubor)です。
みなさん、Vim使ってますか?

vimでファイルを編集し終わって、よし、保存しようと思い、
:w
E45: 'readonly' オプションが設定されています (! を追加で上書き)

「ああああ、sudo vimしてない」てなことが結構有ります。

そんな時には、このコマンドを使って無理やり保存してしまいます。
:w !sudo tee % > /dev/null

Vimコマンドでは、! がシェルコマンドの呼び出し、
% が編集中のファイル名です。

すなわち、root権限でteeを実行し、編集中のファイルと同名のファイルに無理やり書き込んでいるのです。
このコマンドを実行後に、「編集中に上書きされました」と警告が出ますが、気にせずそのまま「q!」で終了しても問題ありません。
変更は書き込まれています。

あまりにも重宝するので、僕は、.vimrcに以下の設定を加えて「w!!」にエイリアスしています。

cmap w!! w !sudo tee % > /dev/null


現場からは以上です。
| kubor | システム | 15:14 | comments(0) | - |
<バイオインフォマティクス講習会@神戸>Bio-Linux 8のインストールに関する補足情報 
先日ご案内いたしました5月20日の講習会では、仮想環境を
事前インストールしていただくことでLinuxを体験しながら
受講することができます!

環境構築に当たりまして、インストールの詳細な手順を記載している資料を補足情報としてご案内いたします。

こちらの資料は東京大学 大学院農学生命科学研究科 門田 幸二先生のホームページにて公開されているものをご紹介しております。

仮想マシンの作成、およびBio-Linux 8のインストール
●Windows版
http://www.iu.a.u-tokyo.ac.jp/~kadota/book/JSLAB2_BioLinux8_iso_win.pdf

●Macintosh版
http://www.iu.a.u-tokyo.ac.jp/~kadota/book/JSLAB2_BioLinux8_iso_mac.pdf

現在、お陰様で20名様を超えるお申し込みをいただいておりますが
引き続き、皆様のお申し込みをお待ちしております!

☆講習会の詳細はこちら⇒ http://amelieff.jp/?p=4376
| ymm | 勉強会 | 10:22 | comments(0) | - |
バイオインフォマティクス講習会@神戸「アメリエフのバイオインフォマティクストレーニングを体験」開催のお知らせ
5月20日に開かれるバイオインフォマティクス講習会のご案内です。

《内容》
アメリエフで提供している「トレーニング」をたくさんの方に知っていただくため、トレーニングを体験できる講習会を企画いたしました。

お手持ちのPC(Mac / Linux)でNGS 解析を始めたい方に、Linux の基本操作からNGSデータ解析でよく利用されるフリーソフトの使い方、データ解析手法をご紹介します。
本セミナーでご紹介するコマンドはお配りする資料にすべて記載してありますので、お持ち帰りいただき、ぜひNGS 解析でご活用いただければと思います。

講習会開催にあたっては、理化学研究所 ライフサイエンス技術基盤研究センター 工樂 樹洋先生、医学生物学研究所(MBL)様にご協力いただいております。

日時:2015年5月20日(水) 16:30-18:00 (受付開始 16:15〜)
場所: 理化学研究所 多細胞システム形成研究センター(CDB)C棟 4階 C-S401号室
(兵庫県神戸市中央区港島南町2-2-3)
参加費用:無料

講習会の後には、「理研神戸 NGS施設見学会」(最大20分)と施設内での情報交換会(実費:2,000円)を予定しております。詳細はお申し込みをされた方に後日お知らせいたします。
情報交換や横のつながりを作る機会として、お楽しみいただければと思います。お時間の許す方は奮ってご参加ください。

☆詳細はこちら ⇒ バイオインフォマティクス講習会@神戸
☆お申込みはこちら⇒ http://goo.gl/forms/qP62qylPj9
          【お申込み締切:5月18日(月)正午まで】
| ymm | 勉強会 | 13:07 | comments(0) | - |
     12
3456789
10111213141516
17181920212223
24252627282930
31      
<< May 2015 >>

このページの先頭へ