アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
◆データサイエンティストを目指す学生必見! インターン Meetup 2016年夏◆
アメリエフでは、7月8日(金)に「データサイエンティストを目指す学生必見! インターン Meetup 2016年夏」を開催いたします。

夏休みにインターンに参加したい学生さんをはじめ、バイオ業界、
バイオベンチャーに興味がある方を対象に、バイオ業界についてや
実際の解析や開発の仕事について紹介します。
イベント後の懇親会では、実際の解析や開発を担当しているメンバーが参加しますので、気になることをお気軽にご質問いただけます。

バイオ業界やベンチャー企業での働き方について興味がある方、
インターンを検討されている方はぜひご参加ください。

日程:2016年7月8日(金)17:00〜18:00(受付開始16:45〜)
場所:アメリエフ株式会社 本社
内容:
●バイオ業界の動きとアメリエフの目指す未来
●代表取締役 山口昌雄による起業ヒストリー
●バイオ研究を支える解析技術 解析・開発エンジニアの実務とキャリアのご紹介
●解析・開発エンジニアによるLightning Talks

お申し込み方法:
アンケートフォームより、7/6(水)正午までにお申込みください。

また、18:30〜19:30に軽食をご用意しての懇親会を行いますので、
併せてご参加いただけますと幸いです。懇親会からのご参加も可能です。

皆様のご参加をお待ちしております。
| onouek | 会社のこと | 17:34 | comments(0) | - |
Copy as MarkdownでMarkdown形式のリンクURLを取得する
こんにちは、先日、桔梗屋信玄餅を買いに初めて三越に行きました、@kuborです。

WEBサイトを見ている時にリンクを右クリックしてURLをコピーし、Slack、esa.io、もしくはGitHubなどで共有することが多いのですが、プレーンなURLを貼るだけではなんのURLかわかりにくかったりします。


markdownで書けば、タイトルも入れられて便利なのですが入力項目が増えてしまい、少し面倒です。
そんな時、Chrome拡張機能の「Copy as Markdown」を使えば簡単にページタイトルとセットで取得可能です。
スクリーンショット 2016-06-24 9.23.30.png (142.2 kB)

インストール後、リンクの上で右クリックすると、markdown形式でクリップボードにURLがコピーされます。

貼り付けるとこんな感じです。
[GitHub - bioinform/varsim: VarSim: A high-fidelity simulation validation ...](https://www.google.co.jp/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0ahUKEwjYmpPDsr_NAhUDHJQKHSw_AEEQFggeMAA&url=https%3A%2F%2Fgithub.com%2Fbioinform%2Fvarsim&usg=AFQjCNG3pSuHA_Jo3KYq05EJNAM17_KUYg&sig2=fshVN5muBaKs2-1iBhqZCQ&bvm=bv.125221236,d.dGo)

HTMLに変換するとこうなります。

GitHub - bioinform/varsim: VarSim: A high-fidelity simulation validation ...

タイトルの自動取得がいい感じですね。

Chromeへの導入はこちらからお試しください。

Copy as Markdown - Chrome ウェブストア - Google


| kubor | よもやま話 | 18:33 | comments(0) | - |
10x genomicsのGemCode技術

去年、The Scientist誌が選んだ革新的技術トップ10(Top 10 Innovations 2015)の1位を飾った技術、それが、スタートアップ企業10x genomicsが開発した、「GemCode」と呼ばれる次世代シーケンサーの新しい前処理技術です。

AAEAAQAAAAAAAAPZAAAAJGM4NzJlYjM0LTU3NDktNDg2MS05ZTI4LWE2ZDY4OGVmYWE1Zg.png (7.9 kB)

GemCodeの技術を簡単に説明すると、 Illuminaシーケンサー等によって得られるショートリードから、合成的にロングリード(Linked readsと呼ばれる)を生成するというものです。従来のIlluminaの次世代シーケンサーが苦手としていた「大きな欠失・挿入部位の解析」、「転座・融合部位の解析」や「HLAなどの高度な多型性を持つDNA領域の解析」を精度よく行うことができます。


方法としては、
(1)それぞれ異なるバーコード配列が付加されたゲルビーズのライブラリの液滴
(2)試薬と混合させたナノリットル(nl)のスケールのDNA分子の油液
をマイクロ流路を使って混合させます。(1)と(2)が合わさることで、10-100kbほどのDNA分子が断片化され、各DNA配列に同一のバーコード配列がライゲーションされます。このようにして、バーコード配列をライゲーションさせたDNA配列をIlluminaのシーケンサーで読みます。


このとき、同一のバーコードを持つDNA配列(シーケンスリード)群は、
(1)ゲノム上で近接している
(2)(母方もしくは父方の)同一ハプロタイプに由来している。
ことが想定されます。そのため、シーケンスされたリードをゲノムにマッピングし、local de novo assemblyを行うことで、合成的にに長いDNA配列(10-100kb前後)を構築することができるというわけです。 GemCodeの技術について、こちらの動画がわかりやすいので見てみてください。

Changing the Definition of Sequencing from 10X Genomics on Vimeo.


「でもお高いんでしょう?」


そんなことありません! 10x Genomicsによると、従来のIlluminaのWGSやExomeと同様のリード数(Coverage)で解析が可能とのことです。つまり、ランニングコストとしては通常のIlluminaのシーケンスと同じぐらいと考えてよさそうです。


さらに、ゲノムDNAは「1ng」からシーケンスできます。 現在のIlluminaの手法と比較しても、かなり少量でも試せます。
比較対象:http://dnatech.genomecenter.ucdavis.edu/sample-requirements/


Illuminaのショートリードの弱点を補完するGemCode技術。 様々な解析での活用が期待できると思います。


アメリエフでも、10x genomicsの技術により得られたシークエンスデータの解析を試しているところです。興味はあるけどシーケンスされたデータをどうやって解析したらいいかわからないという方は、一度アメリエフに相談してみてはいかがでしょうか。


執筆者自己紹介・インターンシップ感想

はじめまして、アメリエフにインターンに来ているimamachi-nです。 アメリエフでは、融合遺伝子の解析レポートや10x Genomicsの調査などを行ってきました。


私は大学では実験を行いつつ、Linux、PythonやRなどを利用してNGS解析も行っています。ただ今まで、PythonやRのコーディングに関しては独学でやっていたので、恥ずかしながら適当なコードを書いていました。アメリエフでは、書いたスクリプトを社員の方に繰り返し確認していただき、修正すべき点をチェックしてもらいました。また、Pythonでコーディング規約に即した書き方をしているかflake8を使いチェックを行う方法も教えてもらいました。今まで適当に書いていたスクリプトを見なおすことで、無駄のない効率的なコードや、あとで見直した時に可読性の高いコードを書く方法を学ぶことができました。


社内で使用していたSlackは、今では私の研究室でも試験的に導入しています。NGS解析について結果やデータの共有、ディスカッションを行う際にSlackを活用しています。今まではメールでやり取りしていたのですが、Slackを使うことで今まで議論してきたことなどがログとして残るので便利です。


社員の方と一緒に仕事ができるという点で、非常に充実したインターンシップだと感じました。 NGSの解析に興味がある方にとっては、アメリエフのインターンシップは最適だと思います。もちろん、アメリエフで働きたいという方も会社の雰囲気をつかむ上でインターンシップに参加するメリットは大きいと思います。



  • 社員一人ひとりのモチベーションが高く、新しいことにどんどんチャレンジしていく風土がある。

  • 新しいNGSの技術が出てくる中で、迅速にそれらに対応し、バイオインフォマティクスの専門家として適切な解析方法を提案できる。

  • ウェットの研究者が抱えるデータ解析上での課題に対して、綿密に対応してくれる。


それがアメリエフという会社だとインターンシップを通して感じました。

| 管理者 | バイオインフォマティクス | 14:46 | comments(0) | - |
Vagrantを用いた仮想環境構築

バイオインフォマティクス初心者が勉強を始める際に、最初に立ちはだかる壁は、Linuxという未知のOSとの相対だと思います。 最近はVirtualBoxなどの仮想化ソフトもネットにたくさんありますので、導入すること自体は皆さんできるかと思います。しかし、もし...

  • パソコンを新しくしたから、昔と同じ仮想環境を新しいパソコンでも構築したい
  • 複数の端末で同じ仮想環境を使用したい
  • 仮想環境のバックアップをとっておきたい

ということを思った時に、仮想化ソフト単品ではなかなか難しいと思います。だからといって、仮想環境内で色々なアプリを入れた後に、全く同じ環境を他の端末で作るのは、普通にやっていたらかなり時間を取られてしまいますし、ツールのアップデートが知らない間にされていて、微妙に挙動が合わなかったりします。

そのようなときに便利なのが仮想化ソフトのラッパーであるVagrantです。

Vagrantでできること

VagrantはVirtualBoxなどの仮想化ソフトに追加機能を与えてくれるアプリ、と思って頂けたら良いと思います。主な特徴として

  1. 構築環境を記述した設定ファイルを元に仮想環境の構築から設定を自動化できる
  2. 一度構築した仮想環境をboxというパッケージにエクスポートすることができる

があるのですが、要は一度設定した構築環境を複数の端末で再現するのにうってつけというわけです。 もちろんCLIも有りますので、サーバーのターミナル上で仮想環境を構築したい場合にも使えます。開発ツールのテストとかにも使えるので、初心者以外でも有用です。

使い方は色々な方がネットで説明されていますので割愛・・・。 今まで仮想化ソフト単品で仮想環境を構築再構築に明け暮れていた方は、Vagrantで自動環境構築にチャレンジしてみましょう!

執筆者自己紹介・インターンシップ感想

はじめまして、アメリエフにインターンに来ているnomatです。 アメリエフでは、ツールのテスト・デバッグ・マニュアル作成や、研究調査に携わっております。

私は大学では実験メインで活動してきた学生なものですから、インターン開始直後はTerminalで操作することすら覚束ない初心者丸出しの状態でした。しかし、アメリエフの解析担当者の皆様にご指導いただき、今ではバリバリコマンドを打って・・・いる気がします(多分)。 この手の操作方法やテクニックはウェットメインの学生でも有用なところが多いですし、最近は解析用OSSも豊富にありますので、是非とも学部時代とかに教えるようにしていただきたいですね。

アメリエフでは2ヶ月勤務させていただきましたが、とてもオープンな雰囲気で、充実した時間を過ごすことができました。勤務内容に関してはもちろん、日頃疑問に思っていたことを解析担当者の方に質問すると、スパっと答えてくださるので、色々と勉強させていただきました。 バイオインフォマティクスを始めてみようかなと考えるウェット系のラボの学生の多くは、周りにインフォの知識を持つ人が少ないため、独学でやっていると思います(私もそうでした)。しかし、やはり知識と技術を持つ人に聞きながら勉強すると、上達が早いです。 何より、情報系の人が当たり前のようにやっている「常識的な事」というのは、案外ネットの情報だけではつかみにくいものが多いです(ディレクトリの配置はこうしたら効率的、など)。これらを勉強できたのは私にとって大きな収穫でした。

最近のバイオ研究ではインフォマティクスは必須になりつつあります。これから研究に携わる学部生も、ウェットしかやってこなかった院生も、一度バイオインフォマティクスに触れてみましょう! その際にアメリエフのインターン、おすすめですよ!

| 管理者 | バイオインフォマティクス | 14:15 | comments(0) | - |
Cytoscapeによるネットワーク図示

Cytoscapeは、複雑なネットワークおよびその属性の図示、統合、分析に用いられるオープンソースのソフトウェアです。 遺伝子ネットワーク、ソーシャルネットワーク、路線図など、点(node)と線(edge)で構成されるデータセットを可視化することができます。 データの可視化によって、全体像や何らかの傾向が把握でき、そのデータが意味するところを理解する手助けとなる可能性があります。 Cytospaceには、プラグインを追加することによって、化合物を扱う(ChemViz)、外部のパスウェイデータベースであるReactomeを利用する(ReactomeFIViz)というように、機能を大幅に拡張できるという特徴があります。

Cytoscapeは様々な種類のネットワークを記述したフォーマットを読み込むことができます。 一番単純なものは、線の起点と到着点を示す”source”、"target"、それから点と点を結ぶ線の種類を示す”interaction type”の3つの列から構成されるSIF(Simple Interaction File)フォーマットです。 下は、ソフトウェアのサンプルデータ”galFilterd.sif”を読み込んだものです。 galfiltered_1.png (46.0 kB)

また、レイアウトやスタイルを変えることで、図の印象を変えることができます。 galfiltered_2.png (25.5 kB) galfiltered_3.png (68.6 kB)

点(node)の持つ情報(attribute)をもとにして、スタイルを書き換えることもできます。 以下は、サンプルデータ中の”galFiltered.cys”を図示したものです。 ノードの発現量が"色"に、ノードの持つ離散値の属性が"サイズ"に対応しています。 galfiltered_4.png (110.7 kB)

作成したネットワーク図を、ウェブブラウザから扱えるインタラクティブな図として出力することができます。 f8402978-66f4-4dc8-9ed1-eeb4059b7cc3.png (137.1 kB)

執筆者自己紹介・インターンシップ感想

はじめまして。 3月からインターンシップで勤務しております、nakamurahと申します。 アメリエフでは2か月間、BEDフォーマットチェックスクリプトの作成、Cytoscapeによるネットワーク図示、Python+NetworkXを用いたネットワーク図示について、関わらせて頂きました。 お蔭様で、普段の研究室生活ではめったに使わないLinuxやPythonに、慣れてきたように思います。 この知識を研究室の先生や学生に教えるなど、研究室の文明化に貢献でき始めているところです。

アメリエフでの勤務の感想として、ミーティングの時に見られるように、皆さん「目的」と「手法」、「利点と欠点」をはっきりさせて、論理的に議論される印象を受けました。 一方で、バイオインフォマティクスの分野は、次々と新しい手法が開発され、既存の手法でもバージョンが更新されて対応が必要になるように、常に最前線に立ち続けることが非常な困難を伴う分野であると感じました。

私が普段扱っている非モデル植物の研究は、最先端の技術が使われる生物から1回りも2回りも遅れています。 この状況を改善するために、これからも技術の向上に邁進していきたいと思います。

| 管理者 | バイオインフォマティクス | 14:35 | comments(0) | - |
10x Genomics Long Rangerのご紹介
前回のブログでも少し触れましたが、10x Genomicsが開発したGemCodeシステムは、ショートリードから擬似的にロングリードを生成する革新的な技術です。

今回はそのGemCodeシステムに対応したゲノム解析パイプラインLong Rangerのご紹介をしたいと思います。

今年の2月にGemCodeシステムの新機種Chromiumが発表され、先月Chromiumに対応したLong Rangerのバージョン2がリリースされました!
Long Rangerは、Whole GenomeおよびExome Sequencingに対応しています。
GemCodeシステムではilluminaのシーケンサーを使うため、BCLファイルが出力されます。
BCLファイルからFASTQへの変換は以下のコマンドを実行します。
$ longranger demux --run=/path/to/BCL/output

内部では、illuminaのbal2fastqが動いているため、あらかじめbal2fastqをインストールしておく必要があります。
出力は、リードとバーコードのFASTQファイルが分かれて出力されます。

次にこのFASTQファイルを入力として、以下のコマンドを実行すると、マッピングから変異検出、ハプロタイプフェージング、構造変異の検出を行ってくれます。
$ longranger run --id=sampleID --sex=female --fastqs=/path/to/fastqs --reference=/refdata-hg19-2.0.0

Long Rangerの変異検出はデフォルトでは、freebaysというソフトウェアを用いていますが、--vcmodeオプションでGATK(v2.4以上)で実行することができます。

Chromiumを使って調整したサンプルのシーケンスデータは、10xGenomicsのサイトで公開されています。

実際にWGSのデータ(FASTQファイル)を実行してみたところ、40時間ほどで実行が終了しました。解析には、Intelの16-coreのプロセッサー、256GBのメモリを搭載したマシンを用いました。

出力結果には、フェージング後のBAM、VCFファイルと構造変異のBEDファイルに加えて、専用のゲノムブラウザLoupeに用いる.loupeという形式のファイルも出力されます。

ゲノム解析パイプラインのLong Ranger以外にも、シングルセルRNA-seq解析パイプラインのCell Rangerやde novoアセンブリ用のSupernovaが公開されています。
| onouek | バイオインフォマティクス | 12:59 | comments(0) | - |
   1234
567891011
12131415161718
19202122232425
2627282930  
<< June 2016 >>

このページの先頭へ