アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
新規メンバー募集!
アメリエフは、基礎研究を支援した6年間の実績をもとに、
“生命を理解し豊かな社会を実現する”というビジョンを掲げ、
「健康」「医療」分野のサービスをより充実させ
「遺伝情報と健康を結びつけるプラットフォーム」の実現を目指します。

そこで、事業拡大のため、異分野に挑戦したい開発エンジニア、
組織強化のプロフェッショナルを目指すバックオフィス、
遺伝子関連の仕事の即戦力として働きたい若手など、
ともに成長していける方を複数名募集いたします。

新しい風を一緒に巻き起こしていくスタッフとして、
下記のような人材像を求めています。

1.生命科学と情報技術の交差点でイノベーションを体験したい人
2.目標達成にむかって何をやるべきかを自ら考え行動できる実行力のある人
3.仕事とプライベートを共に充実させて自己成長できる人
4.自発的に学び、試行錯誤を重ねて、変化し続けることを楽しめる人
5.ベンチャー企業で会社の成長とともに柔軟に幅広い業務経験を積みたい人

アメリエフの仕事や会社をもっと知りたい方は、下記のページをご覧ください。

ホームページ
採用情報

Wantedly

インターンシップ情報
〜遺伝子データから社会に役立つ情報を引き出すベンチャー企業でのお仕事体験〜

皆さまにお会いできることを、スタッフ一同楽しみにしております。
| onouek | 会社のこと | 15:45 | comments(0) | - |
稼働中のタスクをtopコマンドで!
サーバで動いているタスクを「top」コマンドで確認してみましょう。

コマンドはとてもシンプルです。
$ top


システムのCPU使用率順に、稼働中のプロセスが表示されます。図ではpsiblastとvimが一番プロセスを使用していますね。プロセスを稼働しているユーザも表示されます。
topコマンドを「q」を押して終了するまで、稼働状況は3秒ごと(※デフォルト)に自動で更新されます。

実行中に「c」を入力すると、実行中のタスクをコマンド名(例:「vim」)だけでなく、コマンドラインの引数(例:「vim sample.txt」)まで見ることができます。
他にも、自動更新の時間を変更したり、CPU使用率ではなく使用メモリ順に並べ替えたりすることもできます。

複数のタスクを同時に実行しているせいでサーバの動作が重くなっているとき、どれが一番重い処理なのか確認したいとき、逆に、これからとても重い処理を実行したいけど、すでにサーバを使っている人の邪魔にならないか確認したいときに使用します。
弊社のサーバを購入された方には積極的に使用を推奨している、基本のコマンドなのですが、過去にブログで取り上げたことがなかったので、紹介してみました。
| kubo | システム | 17:44 | comments(0) | - |
AWKでフィルタリング
 以前の記事(TopHat-Fusionの結果の見方)で、
「Linuxコマンドのawkを使ってfusions.outをフィルタリングする方法もあります」と書いたので、
今回はawkコマンドのご紹介をしたいと思います。

AWKコマンドは主に、テキストファイルから要素を抜き出したりするのに便利なコマンドです。

基本形

$ awk '条件文{実行文}' ファイル名

では、実際にfusions.outの7列目までを用いて、フィルタリングの例を示してみたいと思います。
chr20-chr17 49411707 59430946 ff 9 3 9
chr20-chr17 49411707 59445685 ff 106 116 167
chr20-chr20 47538545 46365686 fr 17 11 9
chr17-chr17 57992061 57917126 ff 4 2 1
chr20-chr20 46415145 52210297 rf 22 18 27
chr2-chr17 142237963 37265642 rr 2 3 2

(1) 融合遺伝子の染色体番号
(2) 融合遺伝子の左側の遺伝子上のポジション
(3) 融合遺伝子の右側の遺伝子上のポジション
(4) 左側と右側の遺伝子の向き(f:forward, r:reverse)
(5) breakpoint上のリード数
(6) breakpointを挟むペアエンドのリード数
(7) 片側のリードがbreakpoint上にあるペアエンドのリード数

たとえば、5列目のbreakpoint上のリード数でフィルタリングを行いたい場合、
$ awk '$5>100{print}' fusions.out > fusions_filtered.out

とすると、fusions_filtered.outにbreakpoint上のリード数が100より多い行が出力されます。
chr20-chr17 49411707 59445685 ff 106 116 167

条件文ではなく、実行文にifを使っても同様の処理が可能です。
$ awk '{if($5>100) print}' fusion.out > fusions_filtered.out

このように、awkはフィルタリングにも使える便利なLinuxコマンドですので、出力結果の絞り込みを行うときなどさまざまな場面で役に立ちます。

よく使うコマンドですが、意外にもこのブログで書かれていなかったので書いてみました。
| onouek | バイオインフォマティクス | 14:08 | comments(0) | - |
snpEffのアノテーション書式
たびたびブログでもご紹介している、アノテーションソフトsnpEff、一年前の9月にバージョン4.0になったとご紹介しましたが、2015年1月現在のバージョンは4.2です。

snpEffで付与されるアノテーションの書式は、以前は下記のような「EFF=...」でした。
##INFO=<ID=EFF,Number=.,Type=String,Description="Predicted effects for this variant.Format: 'Effect ( Effect_Impact | Functional_Class | Codon_Change | Amino_Acid_change| Amino_Acid_length | Gene_Name | Gene_BioType | Coding | Transcript | Exon | GenotypeNum [ | ERRORS | WARNINGS ] )' ">
現在のバージョンでは、デフォルトでは「ANN=...」に変更しています。
##INFO=<ID=ANN,Number=.,Type=String,Description="Functional annotations: 'Allele | Annotation | Annotation_Impact | Gene_Name | Gene_ID | Feature_Type | Feature_ID | Transcript_BioType | Rank | HGVS.c | HGVS.p | cDNA.pos / cDNA.length | CDS.pos / CDS.length | AA.pos / AA.length | Distance | ERRORS / WARNINGS / INFO' ">
バージョン4.1でも、実行時に「-classic」オプションを使用することで、「EFF=...」の書式でアノテーションすることも可能です。古いバージョンと互換性を残してくれるのはうれしいですね。

ANN書式が旧書式に比べ発展している点として、連続する変異を合わせた影響を考慮するなど、便利なアノテーションが増えているようなので、今後はぜひともANN書式を使いこなしていきたいです。

書式の詳細については公式の説明をご覧ください。
| kubo | バイオインフォマティクス | 14:26 | comments(0) | - |
     12
3456789
10111213141516
17181920212223
24252627282930
31      
<< January 2016 >>

このページの先頭へ