アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
SS含量
GC含量は、ある塩基配列におけるグアニン(G)・シトシン(C)の割合です。
ゲノムが異なるとGC含量も異なるため、メタゲノム解析で種を区別するのに使ったりするそうです。

ところで、日本全国で多い苗字をご存知でしょうか。
一位は佐藤さん、二位は鈴木さんだそうです。→姓 - Wikipedia

苗字の割合は県によっても変わり、例えば私の出身の新潟県では、一位が佐藤さん、二位が渡辺さんで、鈴木さんは五位です。
そう言われれば周りに鈴木さんはあまりいなかったなあと思いますが、渡辺さんもいなかったので、たまたまなのかもしれません。

先日飲んで帰った次の朝、手帳に「SS含量」という走り書きがありました。

記憶をたどると、昨日一人帰る途中で

ある(個々の苗字がわかっている)集団における佐藤さん・鈴木さんの割合(SS含量)を見ることにより、母集団の県を推定することができるのではないか

と思いつき、すごくいいアイデアだと興奮し、忘れないようにメモしたのを思い出しました。
本当に人間酔っぱらうと碌なことを考えないなあと思いました。
| hat | よもやま話 | 12:36 | comments(0) | - |
バイオインフォマティクス・スクールのご案内
バイオインフォマティクス・スクールのご案内です。
現在、下記の講座のお申込みを受付けております。
短期間で学習したい方におすすめのコースとなります。

■Linux基礎
浜松町会場
6月開講:6月6日(木)〜7日(金) 申込締め切り:5月16日(木)
神戸会場
7月開講:7月11日(木)〜12日(金)  申込締め切り:6月20日(木)

■R基礎バイオ統計
浜松町会場
6月開講:6月20日(木)〜21日(金)  申込締め切り:5月30日(木)
神戸会場
7月開講:7月18日(木)〜19日(金)  申込締め切り:6月27日(木)

詳細は弊社ホームページをご覧ください。

どうぞよろしくお願い申し上げます。
| akb | スクール | 11:42 | comments(0) | - |
「第116回 日本小児科学会学術集会」出展中です
アメリエフ株式会社は本日より3日間、「第116回 日本小児科学会学術集会」にブースを出展しております。

会場へお越しの際は、ぜひブースへお立ち寄りください。
| akb | 学会出展 | 16:51 | comments(0) | - |
オープンソースでパスウェイ解析
家系解析でもがん解析でも、原因遺伝子候補を絞り込んだ後のアノテーションが重要になります。
アノテーション方法の一つに、変異があった遺伝子がどのようなパスウェイ上にあるかを調べるパスウェイ解析があります。
今回、オープンソースのソフトウェアとデータを使ったパスウェイ解析の手順をご紹介します。

CytoscapeはCytoscape Consortiumが提供している、オープンソースの分子間相互作用ビューアです。
Windows版、Mac版、Linux版があります。

CytoscapeにReactome用プラグインを入れると、オープンソースのパスウェイデータベースであるReactomeを使った解析ができるようになります。

1. Cytoscapeのインストール
Cytoscapeのサイトから、お使いのマシン用のインストーラをダウンロードしてインストールします。

2. Reactome用プラグインのインストール
Cytoscape プラグインページの「Download and Launch the Reactome FI plugin」からcaBigR3.jarをダウンロードして
Cytoscapeのプラグインフォルダ(Windowsの場合デフォルトで C:¥Program Files¥Cytoscape_vx.x.x¥plugins)に置き、
Cytoscapeを再起動します。

3.テストデータのダウンロード
Cytoscape プラグインページの「Use the Reactome FI plugin」→「Gene Set/Mutation Analysis」からGeneSampleNumber.txtをダウンロードして適当な場所に置きます。
これは、遺伝子とサンプル数が2列1行になったデータです。

4. テストデータ読み込み
Cytoscapeのメニューバーの「Plugins」→「Gene Set/Mutation Analysis」を選択します。
Choose data fileでダウンロードしたテストデータ、Specify file formatは「Gene/sample number pair」を選択し、「OK」を押します。

Reactomeのパスウェイデータを使用して、遺伝子の関係が図示されます。
変異のあったサンプル数が多い遺伝子ほど大きく表示されます。


原因遺伝子候補がどのようなパスウェイ上にあるか、どのような遺伝子と関係があるか、見ることができます。
| hat | バイオインフォマティクス | 15:45 | comments(0) | trackbacks(0) |
小さな目標
入社して2週間が経とうとしているkuboです。
NGS解析についても、解析に用いるツールやプログラムについても、わからなことだらけであっぷあっぷしています。


NGS解析といえば、お世話になった大学院で、微生物のNGS解析をされている先輩がいました。
院生だった頃は、その先輩の研究内容についてわかっていないことが多かったのですが、現在抱いている小さな目標として、次にお会いした時には、対等にお話しできるようになっているといいなあ、と思っています。
いや、なっているはず。


ところで近況ですが、会社の教材でLinux基礎を勉強し、最近はPerlの勉強を始めました。
入門書と首っ引きで短いスクリプトを書いて、次から次へとエラーを出してしまっています。
原因を取り除けるとほっとします。
こんな調子ではまだまだ道のりは遠いようですが、千里の道も一歩からと信じ、地道に努力を積み重ねていきたいと思います。
| kubo | よもやま話 | 12:58 | comments(0) | - |
「第116回 日本小児科学会学術集会」出展のご案内
アメリエフ株式会社は、2013年4月19日(金)〜21日(日)に広島国際会議場で開催される、「第116回 日本小児科学会学術集会」に出展いたします。
皆さまのご来場をお待ち申し上げます。

■ 学会名
・第116回 日本小児科学会学術集会
 ホームページ:http://www2.convention.co.jp/116jps/index.html

■ 開催期間
・2013年4月19日(金)〜21日(日)

■ 会場
・広島国際会議場※企業展示はこちら
・広島市文化交流会館
・アステールプラザ

■交通アクセス
・JR線 広島駅から シャトルバス約25分
※詳細はこちらをご参照ください。

■ 展示内容
・受託解析サービスのご紹介
 超高速シーケンスデータ解析の実例
 SNP/CNV/メチル化データ解析の実例

・バイオインフォマティクス・スクールのご紹介
 Linux基礎
 NGS基礎(Resequence、RNA-Seq、ChIP-Seq他)
 R基礎バイオ統計

・バイオインフォマティクス・勉強会のご紹介

ブースにお越しいただいた皆様に
・はじめてのLinux 〜Primer3を用いてプライマー設計しよう〜
                 をプレゼントいたします!
| akb | 学会出展 | 08:11 | comments(0) | - |
コーヒーはお好きですか?
だいぶ暖かくなってきましたが、皆様いかがお過ごしでしょうか。

私は最近コーヒーをよく飲むようになりました。花粉症の薬の副作用である眠気を、カフェインで吹き飛ばすためです。実際によく効きます。
ここ数日は毎日コーヒーを飲まないと落ち着かなくなってきました。カフェイン依存になりつつあるのかもしれません。このカフェインの習慣性にも遺伝子が関わっている事が分かっているようです。
Genome-Wide Meta-Analysis Identifies Regions on 7p21 (AHR) and 15q24 (CYP1A2) As Determinants of Habitual Caffeine Consumption

この論文では40000人を超える欧米人のGWAS解析からカフェインの代謝に関わる遺伝子を特定しています。この遺伝子の遺伝子型が、カフェインの習慣性に影響を与えるようです。私がもつ遺伝子型は、習慣性を高めるタイプなのかもしれません。

このような個人の嗜好まで遺伝的に決まるのは面白いな、と思いながら今もコーヒーを飲んでいます。

それでは、また。
| deda | よもやま話 | 14:01 | comments(0) | - |
ソフトウェア結果比較【BAMソート編・2】
ソフトウェア結果比較【BAMソート編・1】のつづきです。

前回、同じBAMをsamtools sortとSortSam.jar(picard)でソートしたところ、結果のBAMが異なりました。

異なる箇所を調べるため、まず結果BAMをsamtools view -hでSAMに変換しました。

【samtools sortでソート】
・結果(SAMに変換)
sort_samt.sam(666,626 bytes)

【SortSam.jarでソート】
・結果(SAMに変換)
sort_pica.sam(666,651 bytes)

これらのSAMをdiffコマンドで比較したところ、2点違いがありました。

違い1:ヘッダー
SortSam.jarでソートしたBAMには、1行目に
@HD VN:1.0 SO:coordinate
という行がありましたが、samtools sortでソートしたBAMにはありませんでした。
@HDタグは、SAMの仕様によると「ヘッダー行の先頭につけるもの」とあります。
BWAやsamtoolsはデフォルトでは@HDタグをつけませんが、picardを使うと自動的に@HDタグがつくようです。

違い2:同一ポジションにおける並び順
同じポジションに複数のリードがマッピングされている場合、それらのリードの順番が異なる場合がありました。
一例を挙げます。

今回のデータでは、
chr8 75275246
にSRR077861.62とSRR077861.104の2リードがマッピングされていて、sort_samt.samではこれらの並びが
SRR077861.62
SRR077861.104
の順になっていましたが、sort_pica.samでは逆になっていました。
他にこのようなところが2か所ありました。


今回のデータに関しては、これ以外の違いはありませんでした。
この程度の違いなら、どちらを使っても問題なさそうです。

その他
今回のBAMのソートのようにメモリを大量に使う処理は、デフォルトで/tmpに中間ファイルを大量に出力する場合が多いようです。

サイズの大きいBAM(46GB)でもソートを試してみたところ、SortSam.jarの場合は「-Djava.io.tmpdir=mytmpdir」をつけて中間ファイル出力先を変更しないとメモリ不足で落ちましたが、samtools sortだとデフォルトでも実行できました。

テストデータやその時のマシンの使用状況にもよると思いますが、samtools sortのほうがもしかすると若干「大きいファイルに強い」のかもしれません。

今後、他の処理についてもソフトウェアによる違いを検証してみたいと思います。
| hat | 次世代シーケンサー解析 | 14:00 | comments(0) | - |
弊社の飲み会風景
先週、新入社員のkuboさんの歓迎会を近くの焼き鳥屋さんでやりました。

kuboさんが「ギャル」の話をしていたので、「ニワトリ?ギャルギャル?」と言ったら社長に「ニワトリの学名はガルス ガルスだよ」と言われました。
ずっと「ギャルギャル」と読むんだと思っていました。

そして、
Gallus gallus gallus(ニワトリの仲間)

Gorilla gorilla gorilla(ニシローランドゴリラ)
は3回も繰り返してくどいよねーという話で盛り上がりました。

弊社の飲み会はだいたいいつもこんなゆるい感じです。
経験してみたい方は、ぜひ弊社勉強会の懇親会にお越しください。
| hat | 会社のこと | 18:24 | comments(0) | - |
はじめまして
2013年度入社のkuboです。


先月大学院の修士課程を修了し、愛知県から上京してまいりました。
これまで、植物の膜タンパク質について研究していました。
遺伝子、それも動物の遺伝子にはあまり触れたことがなく、入社して早速これから勉強することの多さに愕然としております。


今は右も左もわかりませんが、胸を張ってバイオインフォマティシャンと名乗れるよう頑張っていきたいと思います。

よろしくお願いいたします。
| kubo | よもやま話 | 13:39 | comments(0) | trackbacks(0) |
関西から改めまして
tokunagaです。
ご無沙汰しております。

東京のオフィスから離れ、
年明けから関西事業所の社員1号となりました。

本社から離れた地にいるにも関わらず、
最近、色んな方々から弊社のブログを見ているとの声を
よく耳にいたしました。

非常にうれしい限りです。
これからも皆様の研究の少しでもお役に立てる情報を
このブログを通してお伝えできればと存じます。

今後ともよろしくお願いいたします。
| tokunaga | 会社のこと | 17:28 | comments(0) | trackbacks(0) |
 123456
78910111213
14151617181920
21222324252627
282930    
<< April 2013 >>

このページの先頭へ