アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
RepeatMaskerViz.トラックがかっこいい
UCSC Genome Browserの「GRCh38/hg38」にかっこいいトラックを見つけたのでご紹介します。
「RepeatMasker Viz.」というトラックです。

下図の上がRepeatMaskerトラック、下がRepeatMasker Viz.トラックです。

RepeatMasker Viz.はRepeatMaskerを視覚的に表示したトラックです。

矩形の部分はゲノムにマップできる部分、破線の部分はマップできない部分で、リピート中のInDelも表示できます。

Repeatの様子が理解しやすくていいですし、数字の入れ方など見た目がなんかかっこいいです。

詳しくは Repeats -> RepeatMasker Viz. のヘルプをご覧ください。
| hat | ゲノムブラウザ | 17:33 | comments(0) | - |
fastqのIDの書式の話
ある公開されているexomeデータのfastqファイルをダウンロードして解析しようとしたところ、うまくいきませんでした。
最初は何が何だかわからず困っていたのですが、fastqファイルを確認するとID行の書式がよく見かけるものと違いました。

例として、最初の1リードはこうなっていました。
@HWI-ST7001130:252:C258HACXX:5:1101:1723:2158¥R1
ACCTGTTGCTTCCCCTGGGACTGAAGGCAGAAGTGACTCCCGAAATTCTCTTTCTGGACTCAGAAGGAAACCAAAGCAATCGATGACACCGCATCNNNNAC
+
?7?=D;BDD4C?AEEC;313AEECE?+<CC;1?DD????BD:?60BB<4)B8)=)8==AC)7=))=CC;=?;??>6.;((-(,5(>>>A='3&05####+(
このfastqの書式はBWAでは受け付けられず、エラーとなります(他のソフトでは未確認です)。

このID行(1行目)には以下の問題があります。
1.末尾のforward/reverse readを区別する部分に「¥」を用いている
 → 「/」または半角スペースならBWAが動きました。
2.リードのforward/reverseを「1」「2」ではなく「R1」「R2」と表記している
 → 「/」のときは「1」「2」、半角スペースのときは「1」「2」または「R1」「R2」のどちらでも動きました。

この場合は、「¥R1」「¥R2」を以下のコマンドで「/1」「/2」に書き換えて対処しました。
$ zcat [sample]_R1.fastq.gz | perl -nle 'if(/¥¥R1$/){s/¥¥R1/¥/1/};print' | gzip -c > [sample_new]_R1.fastq.gz
$ zcat [sample]_R2.fastq.gz | perl -nle 'if(/¥¥R2$/){s/¥¥R2/¥/2/};print' | gzip -c > [sample_new]_R2.fastq.gz
([sample]、[sample_new]は任意のサンプル名をご使用ください)

もし同じようなデータがありましたらご参考までに。
| kubo | 次世代シーケンサー解析 | 14:37 | comments(0) | - |
一部のデータだけ抜き出す
Rで解析をしていると、データフレーム(やマトリクスやベクトル)から、条件を満たすデータだけを抜き出したいことがよくあります。
そんなときはsubset関数を使います。

例として、みんな大好きirisを使います。
> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa

続きを読む >>
| hat | 統計解析ソフトR | 15:12 | comments(0) | - |
heatmap.2のlmatオプション
Rにはデフォルトでもヒートマップを作成するheatmap関数がありますが、私はheatmap関数より多機能なgplotsパッケージのheatmap.2関数をよく使います。

基本的な使い方はheatmap関数と同じです。
gplotsパッケージをインストールしていない場合はインストールから始めます。
install.packages("gplots")
library(gplots)
引数はnumericのmatrixです。
ここではRに組み込まれているデータセットmtcarsをmatrixに変換して使います。
input<-as.matrix(mtcars)
heatmap.2(input)
heatmap.2で作図すると、デフォルトでは左上にカラーキー、右上にinputのcolをクラスタリングしたデンドログラム、左(左下)にinputのrowのデンドログラム、右(右下)にヒートマップが描画されます。この配置はheatmap.2のlmatオプションで変えることができます。
lmatオプションの使い方はlayout関数と同じで、作図の順番を指定するためのmatrixを指定して使います(heatmap.2内部でlayout関数を使っています)。作図される順は下図の通りです。
heatmap2(default)lmatを変更すると、layout関数のheights、widthsオプションに相当するlheiオプションとlwidオプションが要求されるので、適当な数字を指定する必要があります。

カラーキーを右上に移動してみます。
lm<-matrix(c(0,2,3,1,4,0),ncol=3)
heatmap.2(input,lmat=lm,lwid=c(1,5,2),lhei=c(1,4))

ただし、 ColSideColors/RowSideColorsオプションを使うと、これらの作図順が“屬砲覆蝓以降のの順番がずれます。
heatmap.2(input,ColSideColors=col)
# colで任意の色を指定します
heatmap2(sidecol)
両方使用した場合、RowSideColors ColSideColorsの順になります。
私はここにひっかかって苦労したので、紹介してみました。
| kubo | 統計解析ソフトR | 14:25 | comments(0) | - |
あとはまかせない
以前、atコマンドを使うと時間差でコマンドが実行できて便利だという記事(あとはまかせた!)を書きました。

atコマンドはとても便利で普段から活用しているのですが、仕掛けたタスクをとりけしたい場合もあると思います。

そんな時は、「at -l」で仕掛けたタスクを確認して、「at -d タスク番号」でタスクを除去できます。

$ at -l
4 2015-04-08 20:01 a hat

$ at -d 4

まかせるつもりだったけどやっぱりやめた!」という時にぜひお試しください。
| hat | バイオインフォマティクス | 15:09 | comments(0) | - |
社内研修
先週の金曜日は社内研修でした。

今回は、社員が企画を担当しました。

マーケティングチームが「見積もりシミュレーション」や「商品のキャッチフレーズを考えよう」というグループワークを行ったり、新入社員と入社二年目組が「入社後半年の振り返り」や「先輩社員の紹介」をおもしろおかしく発表したりと、バラエティーに富んだ内容になりました。

解析チームの私とkuboさんは、今後の業務を改善するためのブレインストーミングやシックスハット法のワークを行いました。
それらに使うスライドや小道具を準備するのが、学園祭の準備のようで楽しかったです。

リラックスした楽しい雰囲気で行ったためか、お互いのことを理解でき、今後に活かせそうなアイデアがたくさん出ました。
これらの成果を活かし、これまで以上にお客様に愛されるアメリエフになっていきたいと思います。
| hat | - | 14:18 | comments(0) | - |
はじめまして
2015年度入社のonouekと申します。



簡単に自己紹介をしたいと思います。

出身は、静岡県の浜松市です。

私は、先月に修士課程を修了しました。

大学院では、行動薬理学を用いて、記憶や情動の研究をしていました。


バイオインフォマティシャンとして一人前になるために、日々勉強していきたいと思います。


よろしくお願いいたします。
| onouek | 会社のこと | 14:57 | comments(0) | - |
公開データベース活用編
2015年2月14日に開催した第41回バイオインフォマティクス勉強会、および21日に開催した第42回バイオインフォマティクス勉強会の「フリーソフトではじめるNGS解析入門〜Exomeシーケンスからクリニカルシーケンスまで〜」の資料を、一部修正して、「公開データベース活用編」としてSlideShareにて公開いたしました。
ClinVar、HGVD、dbSNFPなどデータベースのほか、データベースから疾患関連の変異を予測するアルゴリズムを紹介しています。

NGSで変異検出まではしたけど、疾患に関する変異はどうやって探したらいいの? と困っている方のご参考になりましたら幸いです。
| kubo | 勉強会 | 14:55 | comments(0) | - |
   1234
567891011
12131415161718
19202122232425
2627282930  
<< April 2015 >>

このページの先頭へ