アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
Eigenstratで主成分分析〜ファイルを変換〜
昨日は、eigenstratに必要なファイルとその形式を記述致しました。
本日は、それらのファイルをeigenstrat用に変換する方法を記述します。
よろしくお願いします。

ここでeigenstratに必要なファイルを再度下記に記します。
 ・pedファイル
 ・pedindファイル
 ・pedsnpファイル

今回は、eigenstratのCONVERTFディレクトリ内に付属しているexampleファイルを用います。
 ・example.ped
 ・example.pedind
 ・example.pedsnp

上記のファイルをeigenstrat用に変換するためには、CONVERTFディレクトリ内にあるpar.PED.EIGENSTRATのファイル内を書きなおす必要があります。
※CONVERTFディレクトリ以外のディレクトリで使用する際は、このファイルをpedファイル等があるディレクトリ内にコピーしておきましょう。
※今回はeigenstratに付属されているファイルを使用するため、変更はしていません。

par.PED.EIGENSTRATファイル内は下記のようになっています。

   genotypename: example.ped
   snpname: example.pedsnp # or example.map, either works
   indivname: example.pedind # or example.ped, either works
   outputformat: EIGENSTRAT
   genotypeoutname: example.geno
   snpoutname: example.snp
   indivoutname: example.ind
   familynames: NO

変更箇所は以下の通りです。

 Input用変更箇所(準備したファイル名を記入します)
   Genotypename:pedファイル名
   Snpname:pedsnpファイル名
   Indivname:pedindファイル名

 Output用変更箇所
   Outputformatは変更せず。
   Genotypeoutname:output名.geno
   Snpoutname:output名..snp
   Indivoutname:output名..ind
   Familynames:ある場合は記述し、ない場合は“NO”

par.PED.EIGENSTRATファイル変更後、CONVERTFディレクトリ内で
   ../bin/convertf -p par.PED.EIGENSTRAT

とタイプしましょう。するとeiganstrat用のファイル
   example.geno
   example.ind
   example.snp
が作成されます!
| | SNP解析 | 18:35 | comments(0) | trackbacks(0) |
Eigenstratで主成分分析〜必要なファイル〜
本日は、eigenstratに必要なファイルを紹介させていただきます。
eigenstratでは、下記の3つのファイルが必要となります。
・pedファイル
・pedindファイル
・pedsnpファイル

pedファイルの形式は、plinkやmerlinのものとほとんど一緒です。
  1列目: Family ID
  2列目: sample ID
  3列目: Father ID
  4列目: Mother ID
  5列目: sex(male=1, female=2)
  6列目:case-control(control=1, case=2) 
  ※ここは、affection情報でも良いです。
  7列目以降:genotype
pedindファイルは、pedファイルの1列目から6列目までをsample毎に各行に設置します。

pedsnpファイル形式は、plinkやmerlinのmapファイルの様なものです。
  1列目: chromosome number
  2列目: snp name
  3列目: genetic position (Morgan)
  4列目: physical position (bp)
が必須です。

5列目は、optionalです。
  5列目: alleles(reference variant)

上記のファイルをeigenstratを用いて、eigenstrat用のファイル形式に変更します。
| | SNP解析 | 10:05 | comments(0) | trackbacks(0) |
【締切】10/1(土)SNPデータ解析入門
10/1(土)の第10回バイオインフォマティクス勉強会「SNPデータ解析入門」に、多くの皆さまからお申し込みをいただきありがとうございました。

定員24名いっぱいとなりましたので、募集を締め切らせていただきます。
多数のお申し込みをいただき、誠にありがとうございました。

また、当日は、14時から弊社で開講予定のバイオインフォマティクス・スクールの説明会および模擬授業も開催いたします(詳細はコチラ)。
ご興味があります方は、コチラまでお申し込み下さいませ。

ありがとうございました。

| | - | 19:25 | comments(0) | trackbacks(0) |
Eigenstratで主成分分析〜ダウンロード偏〜
本日は、ゲノム情報から主成分分析を行うソフトeigenstratを紹介させていただきます。
よろしくお願いします。
Eigenstratは、主成分解析法をもちいて集団の構造化を解析し、関連検定の結果を補正するソフトウェアツールです。

ダウンロードはコチラから


まず上記のサイトから、eigenstrat(eig4.2.tar.gz)をダウンロードしてください。

解凍します。
tar zxvf eig4.2.tar.gz

Eigenstratで使用するコマンドは、binディレクトリ内に保存されています。
使用する際は、binまでのアドレスをいれて使用するか、pathを通しておきましょう。

また、Eigenstratは下記のものを入れておく必要があります。

・g77 (yum install g77*)
・lapack(yum install lapack*)
・atlas(yum install atlas*)
・compat(yum install compat*)※CompatはCentOS6.0以上の場合は入れてください。
| | SNP解析 | 19:06 | comments(0) | trackbacks(0) |
光速よりも速い?!
光より速いニュートリノ

この見出しを見た時、衝撃的でした。
原因が特定できず、詳細は不明ですが、これから世界中がこの話題一色になるのではないでしょうか?(もちろん反論も含め)

知人の言葉を思い出しました。
「データに勝るものはない。」
私もそう思います。
興奮しますね。
| | バイオ | 18:16 | comments(0) | trackbacks(0) |
バイオインフォマティクス・スクールの議論!
本日は、10月より開講を予定しておりますバイオインフォマティクス・スクールの内容について、社内ミーティングを行いました。

お客様が何を一番知りたがってて、どういう風にストーリー展開すれば効率的か!!と白熱した議論を交わしました。

身内的な話にはなりますが、スクールの構成、内容、課題など、受講して下さる方々に満足いただける内容になっていると思います!
私も開講がとても楽しみです。

準備も佳境に入ってきました。
ラストスパートです!
| | スクール | 17:59 | comments(0) | trackbacks(0) |
緊急帰宅
台風15号が上陸します。
そこで、弊社でも大事をとり、緊急帰宅となりました。

傘の意味はあるのか?というほどの豪雨です。

電車が止まる前に帰宅します!

ちなみに今回の台風の名前は、Roke(ロウキー)です。
毎回、チェックしています。

| | よもやま話 | 16:57 | comments(0) | trackbacks(0) |
世界規模のゲノム解析で高血圧症に関与する遺伝子を解明!
本日も気になる記事を御紹介します。

高血圧症の成因に関与する遺伝子を解明

4タイプの人種、計約27万人のサンプルを用いて、SNPと血圧の関係を解析したそうです。
特に“ATP2B1”という遺伝子は、血圧に関係する確立がとても高く、今回は、人種に差があるものの上記の“ATP2B1”以外にも新しい高血圧症に有意な遺伝子を見つけたそうです。

ゲノム研究が進む中で、これまでアバウトだった病気の原因、成り立ちも徐々に解明されつつありますね。
| | バイオ | 17:49 | comments(0) | trackbacks(0) |
バイオインフォマティクス・スクールに関しまして
本日は、弊社で開講予定のバイオインフォマティクス・スクールに関する追加情報を記述させていただきます。
よろしくお願いします。

先日、弊社のHPおよびブログにてバイオインフォマティクス・スクールに関する記事を掲載させていただきました(HPはコチラブログ記事はコチラを参照)。

“お申し込みが4名様を下回った場合は、開講しません”と記載させて頂いておりましたが、この度、土曜日クラスの開講が決定致しました

ありがとうございます。

また、御申し込みの締め切りは、原則初回クラス日の2週間前とさせていただいております。
そのため、お申し込みの締め切りは

水曜日クラス:10月5日(水)
土曜日クラス:10月8日(土)

となります。
上記以降のお申し込みは、御相談下さい。
内容盛りだくさんです!!

また、クラスの内容や雰囲気などご興味があります方は、説明会・模擬授業を行いますので、お申し込み下さいますよう、よろしくお願いいたします。
【日時】
・9月28日(水) 19時〜20時
・10月1日(土) 14時〜15時
・10月8日(土) 10時〜11時


お問い合わせ、お申し込みはコチラからお願い致します。
| | スクール | 17:52 | comments(0) | trackbacks(0) |
失明疾患の原因遺伝子-九州大学
昨日に引き続き、気になる記事を記述します。

失明疾患の原因遺伝子特定

九州大学では、失明患者および健常者計2万人の遺伝子から、ゲノム解析を行い、失明疾患の原因遺伝子を特定したとのことです。

昨日も記述しましたが、次世代シーケンサーと解析技術の発展は、これからの疾患治療に多大な貢献をしていくと強く思います。


P.S.
九州大学が記事になるとやっぱり嬉しいですね。
地元愛です。

| | バイオ | 18:18 | comments(0) | trackbacks(0) |
未来に向けて。次世代シーケンサーと共に。
本日の日経産業新聞に“ITが導く医の進化論”という見出しがあり、次世代シーケンサーによる医学への貢献について特集されています。

記事には、主に下記の3つについて記載されています。

・ここ8年で次世代シーケンスに要するコスト、時間の著しい変動をグラフ化  当初は、ヒトゲノムを全て解読するのに8000日かかっていた。
  現在では1日。

・新薬開発への貢献
  突然変異による薬剤耐性が発し、その原因遺伝子、変異を解明した。

・国際プロジェクト!がん変異のリスト化!
  日本では、肝がんに関連する変異箇所を全てリスト化することが目標。
  ゲノム解析により、その変異箇所を特定する。

特に印象に残った言葉を下記に記します。
 「同じがん細胞でも種類によって様々である事が次世代シーケンサーによりわかってきた。今のペースでシーケンサーの能力が向上すれば、近い将来、患者の細胞のゲノムを検査し、検査結果に応じて治療法を決めるという時代が来る。」



上記の様な原因遺伝子の特定は、ゲノム解析が必須となります。次世代シーケンサー自体の性能ももちろんですが、ゲノム解析の向上も留まることなく行うべきです。
弊社では、学会や日々のお客様との関わりの中で、常に新しいゲノム解析へのヒントを頂き、解析の向上を図っています。上記の様な時代のサポートに貢献していきます。
| | 次世代シーケンサー解析 | 18:33 | comments(0) | trackbacks(0) |
Merlinでパラメトリック解析
これまでにMerlinに必要なInputファイル形式に関して記述して参りました。
本日は、Merlinを用いてパラメトリック解析を行いたいと思います。
よろしくお願いします。

今回は、Merlinの“exampleフォルダ”内に付属しています
・parametric.ped
・parametric.dat
・parametric.map
を用います。
ダウンロードはこちらから

まずは、pedファイルとdatファイルに矛盾がないか、
間違いがないか確認を行います。

pedstats -d parametric.dat -p parametric.ped

-d ; datファイル
-p;pedファイル

下記に結果(数か所を抜粋)を記します。
PEDIGREE STRUCTURE
==================
Individuals: 16
Founders: 5 founders, 11 nonfounders
Gender: 6 females, 10 males
Families: 1


入力した家系情報が合っているか確認します。
※もし、pedファイルの情報とdatファイルの情報(量)に
差異がある場合はエラーを返してくれます。

AFFECTION STATISTICS
====================
[Diagnostics] [Founders] Prevalence
VERY_RARE_DISEA 16 100.0% 5 100.0% 50.0%
Total 16 100.0% 5 100.0%

羅病の割合は合っていますかー。

次にLODスコアを算出します。
パラメトリック解析を行う際は、optional inputファイルとして
modelファイルというものが必要となります。

Modelファイル形式
1列目:affection名
   (datファイルのAエンコードと名前を合わせる)
2列目:疾患アレルの頻度
3列目:浸透率(0, 1 and 2 copies of the disease allele)
4列目: モデル名(自由に)

merlin -d parametric.dat -p parametric.ped -m parametric.map
-model parametric.model --step 1

-m;mapファイル
-model;modelファイル
--step n;LODスコアを算出する際にMarkerをnつ飛ばし。

結果は
Parametric Analysis, Model Dominant_Model
=========================================
   POSITION   LOD    ALPHA   HLOD
    5.000   -13.302   0.000   0.000
    10.000   -4.227   0.000   0.000
    15.000   -17.29   0.000   0.000
    20.000   -3.270   0.000   0.000
    25.000   -5.809   0.000   0.000
・・・

というようにLODスコアを得ます。
オプションコマンドの詳細はコチラ
| | SNP解析 | 17:42 | comments(2) | trackbacks(0) |
datファイルとmapファイルfor Merlin
先日、連鎖解析ツールソフトMerlinのInput ファイルの一つであるpedファイルに関して記述致しました(詳細はコチラ)。
本日は、datファイルとmapファイルのファイル形式を記述致します。

■datファイル(Describing the pedigree file)
datファイルは、pedファイルの基本構成以降(6列目以降)が何を表すのかという情報を記載するファイルです。
例えば、先日のブログに記載した順で行くと、基本構成以降は、下記のようになります。

 6列目: affection情報
 7列目: 量的形質情報
 8列目: SNP1に対するgenotype
 9列目: SNP2に対するgenotype
 ・・・・

datファイルでは、上記の情報をエンコードを用いて表します。
まずdatファイルのエンコードを下記に記します。

 M: SNP位置およびSNP名(マーカー)
 A: 疾患の状態
 T: 量的形質
 C: 共変量

datファイルの構成は、pedファイルの6列目から順に
“エンコード 名前”
という風に、行で区切って記載していきます。

つまり上記のpedファイル情報からdatファイルを作成すると・・・

 A  AFFECTION (ここは自由にaffection名を記入してください)
 T  trait
 M  SNP1
 M  SNP2
 ・・・

となります!

■mapファイル
続いてmapファイルです。
Mapファイルは、datファイルに記載したSNP1の位置が記載されているファイルです。

ファイル構成は下記に記します。

 1列目: 染色体番号
 2列目: datファイルで記載したSNP名
 3列目: 2列目のSNPの位置(単位はセンチモルガンで!)

です!
詳細はコチラ
| | SNP解析 | 17:39 | comments(0) | trackbacks(0) |
pedファイルfor Merlin
先日、連鎖解析の為のフリーツールソフトMerlinについて記述致しました
(こちらに関する記事はコチラ)。
MerlinではInput ファイルとしてpedファイル、datファイル、mapファイルが必要です。
本日は、pedファイルのファイル形式を記述致します。

■pedファイル(pedigreeファイル)
pedファイルでは、1検体(サンプル)の情報を1行で表します。
基本構成は下記の5列です。
1列目:a family ID(家系の識別名)
2列目:an individual ID(個々のサンプルID)
3列目:a link to Father ID (if available)
   (父親がサンプル内にある場合は父親のindividual IDを記述)
4列目:a link to Mother ID (if available)
   (母親がサンプル内にある場合は母親のindividual IDを記述)
5列目:an individual's sex.
   (個々のサンプルの性別、1=male, 2=female, 0=unknown)

基本構成以降の記述の順番は、比較的自由です(記載の順番は、datファイルに反映されますが、こちらに関しては、次回記述します)。

今回は、Merlinのtutorialに従って記述します。

6列目:an affection status
   (1=unaffecteds, 2=affecteds, 0=missing)
7列目:quantitative trait
   (量的形質)
8列目以降:各アレルに対するgenotype

詳細はコチラ

次回は、datファイルおよびmapファイルに関して記述します。
| | SNP解析 | 18:20 | comments(0) | trackbacks(0) |
分析展2011科学機器展2011 in 幕張メッセ
これから幕張メッセで開催されております分析展2011科学機器展2011に向かいます。
詳細はコチラ
9/7(水) - 9/9(金)の3日間開催されております。

分析展2011科学機器展2011は、分析展2011と科学機器展2011の合同展示会です。
実は、私が学生時代に開発した装置が形となり、今回こちらの展示会で展示されることになりました。
研究室初(?)の商品化です!!

大学院生活のおよそ半分を装置開発に費やし、こだわり抜いた機能や条件が多数あります。思い入れ深い装置ですので、展示品を見たら、泣いてしまうかもしれません。
| | よもやま話 | 13:54 | comments(0) | trackbacks(0) |
連鎖解析フリーソフトMerlin
先日、連鎖解析の為のフリーツールソフトが紹介されているサイトを御紹介させていただきました(参照)。
本日は、その中からMerlinというソフトを紹介させていただきます。
よろしくお願いします。

Merlinは、家系データを用いてパラメトリック解析、ノンパラメトリックス解析、量的形質の関連解析、IBDと家族推定、ハプロタイピングなどを行う事ができます。
Merlinには、exampleデータが付属されており、tutorialで解析の練習を行う事も可能です(これは私的に大事なポイントです)。

ダウンロードはこちらから

下記からは、linux上でMerlinを実行方法を記述していきます。

上記のサイトからmerlin-1.1.2.tar.gzをダウンロードし、解凍を行います。
解凍コマンド
tar zxvf merlin-1.1.2.tar.gz

その後、merlin-1.1.2ファイル内でmakeコマンドを用いて、コンパイルを行います。
さらにmake installをタイプします。


merlinとタイプしてみましょう。


MERLIN 1.1.2 - (c) 2000-2007 Goncalo Abecasis
References for this version of Merlin:
Abecasis et al (2002) Nat Gen 30:97-1




の様に表示されました。
merlinが使用できます!
準備完了!
| | SNP解析 | 19:09 | comments(0) | trackbacks(0) |
人工細胞!
本日も気になるニュースを御紹介します。

東大グループ、有機合成物質から人工細胞を構築

上記は、細胞を“生体”からではなく、“物質”から人工的に作成したという記事です。学生時代に、少々細胞を取り扱っていたこともあり、この様なニュースはとても気になります。

よく“細胞というのは生命の最小単位である”と言われています。ついに人間は、“無”から“生”を作り上げたか!と興奮しました。
| | バイオ | 18:13 | comments(0) | trackbacks(0) |
バイオインフォマティクス・スクールを開始します
アメリエフでは、原則偶数月にバイオインフォマティクス勉強会を開催してきましたが、実践にすぐに「使える」ようになるには、座学ではどうしても限界があります。

バイオインフォマティクスは実践を通して訓練することで身に付くという前提にたち、体系的に訓練できる場としてバイオインフォマティクス・スクールをご提供させていただきます。

2ヶ月間で4回のクラス(隔週ペース、1クラス3時間)が1単位です。最初のコースはバイオ研究者のためのLinux入門になります。
初回は10月中旬のスタートです。


進め方ですが、毎回課題が出ます。課題は3時間〜6時間は取り組む必要があります。
クラス内でディスカッションをしながら具体的な課題を進めていただきます。


バイオインフォマティクス・スクールの説明と模擬授業を行いますので、ご興味のあるかたはぜひ参加してみてください。みなさまからのご応募、お待ちしています。

説明会・模擬授業
【日時】
・9月28日(水) 19時〜20時
・10月1日(土) 14時〜15時

【場所】
・アメリエフ株式会社 会議室(9月28日)
・港区立商工会館(10月1日)
(両方とも、東京都立産業貿易センター 浜松町館6階です。)

【お申し込み・お問い合わせ】
こちらまで
| 社長 | スクール | 19:16 | comments(0) | trackbacks(0) |
新入社員募集のお知らせ
新入社員(新卒)募集のお知らせ

アメリエフ株式会社では、2012年3月卒業もしくは、既卒2年以内の方を正社員として募集します。


【募集要項】
対象:生物学・医学・薬学などのバイオ系大学および大学院(修士・博士)を2012年3月に卒業する予定の方、もしくは卒後2年以内の方
採用職種:バイオインフォマティクス技術者ならびに研究者
初任給:学部卒20万円、修士卒21万円、博士卒22万円
諸手当:通勤手当、出張手当
昇給:年1回
賞与:年2回(業績に応じて)
勤務地:本社(東京都港区)ほか
勤務時間:9時〜18時
休日休暇:土日祝日、夏期休暇、年末年始休暇、有給休暇
社会保険:健康保険、厚生年金、雇用保険
採用人数:若干名
業務内容:研究データの受託解析および研究開発、システム開発、教育等
求める人物像:
1.バイオインフォマティクスにチャレンジしたい人(プログラミング等の経験は問いません)
2.休日や余暇の時間に勉強したり社外の人間と交流するなど、自己研鑽に取り組むことができる人
3.ビジネスを通して自己成長と社会貢献をしたい人
4.ベンチャー企業でいろいろな分野にチャレンジしたい人
5.喫煙しない人

応募方法:
会社ホームページをご覧いただき、会社理念に共感していただけた場合は、
履歴書と自己PR(研究内容を含む)を下記住所へ郵送してください(両方とも書式自由)。
連絡はメールにて行いますので、メールアドレスは必須です。
※)選考後、書類の返却はいたしません。個人情報は責任をもって処分いたします

〒105−0022
東京都港区海岸1-7-8 東京都立産業貿易センター浜松町館 6F
アメリエフ株式会社 採用担当者 宛

選考方法:書類選考後、複数回の面接を受けていただきます。
書類選考を通過した方には、面接の日程を決めるためメールにてご連絡いたします。

お問い合わせはこちらにお願いします。
みなさまからのご応募、お待ちしています。

アメリエフ株式会社
採用担当者
| 社長 | 会社のこと | 16:34 | comments(0) | trackbacks(0) |
【バイオインフォマティクス勉強会】SNPデータ解析入門
10月1日(土)に開かれる第10回バイオインフォマティクス勉強会のご案内です。

今回のテーマは、「SNPデータ解析入門」です。

タイリングアレイ(Microarray)や次世代シーケンサー(NGS)により得られたSNPタイピング情報から、GWAS解析や連鎖解析などの遺伝統計解析の実践につきまして、ご紹介させていただきます。

また、PLINKなどのフリーの解析ツールや実際のコマンドもご紹介させていただきます。

              記
日時: 2011年10月1日(土) 15:30〜17:00
場所:港区立商工会館 会議室
   (東京都立産業貿易センター 浜松町館6階)
地図:http://tlic.incubation-center.com/access.htm
定員:24名
テキスト代:お一人 500円(当日受付にてお支払いください)

プロジェクターで投影しながら進行していきます。
ノートPCの持ち込みは可能ですが、ネット環境の準備はございません。


また例によって、勉強会後に懇親会を開きたいとおもいます。
毎回、勉強会以上に盛り上がっておりますので、ぜひ懇親会への参加をご検討ください。
予算は4,000円です。

どちらかの参加、もしくは両方の参加をご希望の方は、お問い合わせからお早めにお申し込みください。

勉強会(15:30〜17:00)  ○
懇親会(17:30〜)     ○

みなさまとお会いできることを楽しみにしています。

アメリエフ株式会社
代表取締役社長 山口 昌雄
| 社長 | 勉強会 | 15:48 | comments(0) | trackbacks(0) |
血液検査でうつ病診断
本日も気になる記事を紹介させていただきます。よろしくお願いします。

広島大学で、鬱病診断の指標を血液検査で行うという報告がなされました。
詳細はコチラ。 より詳細はコチラ

鬱病という病気は、気持ちの病気であることから、見える形として表れにくく、お医者様の判断で診断しています。

しかし広島大学のグループでは、BDNFという物質を産生させる遺伝子のメチル化反応が通常の人と鬱病患者とで反応パターンに差異があるということを発見したそうです。

これまでは、鬱病の指標として、脳内セロトニンの物質量が注目されていたと思います。しかしこの物質は、脳内に存在するため、診断段階の指標には向かないように思います。

今回広島大学が発見された指標は、遺伝子評価であるため、血液で診断する事が可能だという事です。補助的な診断法として用いるということですが、これは、鬱病診断に於いて大きな一歩ではないでしょうか。

| | バイオ | 17:52 | comments(0) | trackbacks(0) |
    123
45678910
11121314151617
18192021222324
252627282930 
<< September 2011 >>

このページの先頭へ