アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
渋谷の真ん中で刃物を振り回す
先日、社内でお昼を食べながら
「どうして遺伝子間領域にあるSNVより遺伝子上にあるSNVを気にするのか」という話をしていて、

渋谷の交差点で刃物を振り回したら大変なことになるけど、大砂漠の真ん中で振り回しても大した害はないでしょ?

とドヤ顔で説明したのですが、一緒にいた解析担当者たちの反応が「そうですね」という感じでびっくりするくらい薄くて、こちらがびっくりしました。

そういえば先日の社内研修でも、ゲノムを楽譜に、DNAをドレミに例えて分子生物学基礎のプレゼンをしたのですが、その時も生温かく見守られる雰囲気になったことを思い出しました(プレゼン内容についてはあまりコメントが無かったのですが、「hatさん楽しそう」と言われました)。

私はわかりやすく伝えようとして例えを使うことが多いのですが、もしかするとかえってわかりづらくしてしまっているのかもしれません。
ひとりよがりな説明にならないよう、ジョブスの本など読んで精進したいと思います。

スティーブ・ジョブズ 驚異のプレゼン
スティーブ・ジョブズ 驚異のプレゼン
カーマイン・ガロ (著), 外村仁 解説 (その他), 井口耕二 (翻訳)
| hat | SNP解析 | 15:52 | comments(0) | - |
アノーテーションツール
tokunagaです。
本日も、変異を検出した後のアノーテーションに役立つサイトのご紹介をしたいと思います。
前回の記事(MutationaTaster)はこちらです。

【Likelihood Ratio Test Query:LRT】
http://www.genetics.wustl.edu/jflab/lrt_query.html
コドンの保存性から、変異の影響の度合を尤度比検定で計算してくれます。


下記の情報を入力すると、結果が表で出力されます。

・染色体番号
・変異の入ったポジション
・変異の入った塩基
(例)chr1:1377627:G/A

またファイルをアップロードすることも出来るようです。

LRT_PとLRT_Predictionで変異の影響の度合を示します。LRT_PredictionがDだと変異が有害であるということを示します。
その他に変化したコドンやアミノ酸などの情報も表に出力されます。

前回のMutationaTasterと同じく、LJB(dbNSFP)などのデータベースや、Annovarなどのアノーテーションツールにも使用されているデータベースです。
| tokunaga | SNP解析 | 16:07 | comments(0) | trackbacks(0) |
アノーテーションツール
tokunagaです。
本日は、変異を検出した後のアノーテーションに役立つサイトのご紹介をしたいと思います。

【MutationTaster】
http://www.mutationtaster.org/
・論文
http://www.nature.com/nmeth/journal/v7/n8/abs/nmeth0810-575.html

配列上の変異が疾患を引き起こすポテンシャルを予測してくれます。



下記の情報を入力すると、変異の種類によって分類され、どのような変化をもたらすかをsummeryで出力します。

・HGNC gene symbol、NCBI Gene ID、またはEnsembl gene ID
・Ensembl transcript ID(geneの項目を入力すると自動で予測)
・変異の入ったポジション
・変異した塩基

その他にもアミノ酸変化やフレームシフトなどの情報も出力されます。
これまでHapmapで報告されているものは「無害」、ナンセンス変異依存分解(NMD)を引き起こすものは自動的に「疾患を引き起こす」と予測されます。

LJB(dbNSFP)などのデータベースや、Annovarなどのアノーテーションツールにも使用されているデータベースです。
| tokunaga | SNP解析 | 16:20 | comments(0) | trackbacks(0) |
GWAS解析で2型糖尿病発症の原因遺伝領域発見!
2型糖尿病の発症に関与したな遺伝子領域を発見

糖尿病には、1型糖尿病と2型糖尿病に分類されます。
(1型はインスリン依存型、2型はインシュリン非依存型です)

2型糖尿病は、遺伝的に糖尿病になりやすい体質(遺伝因子)の人が、糖尿病になりやすいような生活習慣を送ること(環境因子)によって2型糖尿病になると考えられているそうです。
Wikipedia参照

今回は、東アジア人のゲノムワイド関連解析(GWAS)を行っています。
約250万箇所のSNPに対して解析を行い、8か所のSNPが今回新たに2型糖尿病の発症に依存することがわかったようですね。

ぜひこちらの論文を読んでみたい!!!

GWAS解析受託にご興味のある方はこちらをご覧ください



| | SNP解析 | 16:15 | comments(0) | trackbacks(0) |
plinkの裏?!オプション
SNP解析を行う際に用いられる“PLINK”。
本日は、その裏オプションをご紹介します。

PLINKの使い方については、コチラを御参照ください。
SNP解析につきましては、コチラを御参照ください。

染色体の数は生物によって異なる為、ツールを用いてSNP解析を行う際には、染色体の数を設定する必要があります。

“PLINK”では、生物種の名前を入れることで、染色体の数を調整してくれます。

--dog Set chromosome codes for dog
--mouse Set chromosome codes for mouse
などなど

使用例: plink --mouse ・・・・

使用例のように、オプションとして使用できます。
詳細な情報は、コチラの下方に掲載されています。


裏オプションじゃないじゃないか!!とお叱りを受けそうですね。
| | SNP解析 | 17:11 | comments(0) | trackbacks(0) |
疾患感受性遺伝子の発見
本日は、気になるニュースを御紹介します。

「思春期特発性側弯症 (AIS)」の疾患感受性遺伝子の1つを発見

2000名のAIS患者さんからDNAサンプルを採取し、GWAS解析を行っています。
その結果、10番染色体上に存在する3つの疾患SNP候補を同定し、その中から、“rs11190870”が最も強い相関を示す事が判明したそうです。

さらに、このSNPは脊髄や筋肉の発生に関与する遺伝子(LBX1)の近傍に存在しています。よって今回発見したSNPが、筋肉、脊髄に関与しているということをより強く示唆する結果となったようです。

弊社でもSNP解析を行っています!詳細はコチラ
| | SNP解析 | 18:54 | comments(0) | trackbacks(0) |
Eigenstratで主成分分析〜PCA解析〜
これまでに、eigenstratに必要なファイルに関して記述致しました。
本日は、いよいよ主成分分析です。

使用するファイルを記述します。
   example.geno
   example.ind
   example.snp

smartpca.perl -i example.geno -a example.snp -b example.ind -k 2 -o example.pca -p example.plot -e example.eval -l example.log
   
   入力
   -i example.geno を入力する
   -a example.snp を入力する
   -b example.ind を入力する
   
   出力
   -k 出力する主成分(principal components)の数。
   -o 主成分の出力ファイル
   -p トップ二つの主成分を用いたプロットファイル
   -e 全ての固有値を算出したファイル
   -l ログファイル

主成分分析の結果がexample.pca.evecに算出されました!
| | SNP解析 | 18:51 | comments(0) | trackbacks(0) |
Eigenstratで主成分分析〜ファイルを変換〜
昨日は、eigenstratに必要なファイルとその形式を記述致しました。
本日は、それらのファイルをeigenstrat用に変換する方法を記述します。
よろしくお願いします。

ここでeigenstratに必要なファイルを再度下記に記します。
 ・pedファイル
 ・pedindファイル
 ・pedsnpファイル

今回は、eigenstratのCONVERTFディレクトリ内に付属しているexampleファイルを用います。
 ・example.ped
 ・example.pedind
 ・example.pedsnp

上記のファイルをeigenstrat用に変換するためには、CONVERTFディレクトリ内にあるpar.PED.EIGENSTRATのファイル内を書きなおす必要があります。
※CONVERTFディレクトリ以外のディレクトリで使用する際は、このファイルをpedファイル等があるディレクトリ内にコピーしておきましょう。
※今回はeigenstratに付属されているファイルを使用するため、変更はしていません。

par.PED.EIGENSTRATファイル内は下記のようになっています。

   genotypename: example.ped
   snpname: example.pedsnp # or example.map, either works
   indivname: example.pedind # or example.ped, either works
   outputformat: EIGENSTRAT
   genotypeoutname: example.geno
   snpoutname: example.snp
   indivoutname: example.ind
   familynames: NO

変更箇所は以下の通りです。

 Input用変更箇所(準備したファイル名を記入します)
   Genotypename:pedファイル名
   Snpname:pedsnpファイル名
   Indivname:pedindファイル名

 Output用変更箇所
   Outputformatは変更せず。
   Genotypeoutname:output名.geno
   Snpoutname:output名..snp
   Indivoutname:output名..ind
   Familynames:ある場合は記述し、ない場合は“NO”

par.PED.EIGENSTRATファイル変更後、CONVERTFディレクトリ内で
   ../bin/convertf -p par.PED.EIGENSTRAT

とタイプしましょう。するとeiganstrat用のファイル
   example.geno
   example.ind
   example.snp
が作成されます!
| | SNP解析 | 18:35 | comments(0) | trackbacks(0) |
Eigenstratで主成分分析〜必要なファイル〜
本日は、eigenstratに必要なファイルを紹介させていただきます。
eigenstratでは、下記の3つのファイルが必要となります。
・pedファイル
・pedindファイル
・pedsnpファイル

pedファイルの形式は、plinkやmerlinのものとほとんど一緒です。
  1列目: Family ID
  2列目: sample ID
  3列目: Father ID
  4列目: Mother ID
  5列目: sex(male=1, female=2)
  6列目:case-control(control=1, case=2) 
  ※ここは、affection情報でも良いです。
  7列目以降:genotype
pedindファイルは、pedファイルの1列目から6列目までをsample毎に各行に設置します。

pedsnpファイル形式は、plinkやmerlinのmapファイルの様なものです。
  1列目: chromosome number
  2列目: snp name
  3列目: genetic position (Morgan)
  4列目: physical position (bp)
が必須です。

5列目は、optionalです。
  5列目: alleles(reference variant)

上記のファイルをeigenstratを用いて、eigenstrat用のファイル形式に変更します。
| | SNP解析 | 10:05 | comments(0) | trackbacks(0) |
Eigenstratで主成分分析〜ダウンロード偏〜
本日は、ゲノム情報から主成分分析を行うソフトeigenstratを紹介させていただきます。
よろしくお願いします。
Eigenstratは、主成分解析法をもちいて集団の構造化を解析し、関連検定の結果を補正するソフトウェアツールです。

ダウンロードはコチラから


まず上記のサイトから、eigenstrat(eig4.2.tar.gz)をダウンロードしてください。

解凍します。
tar zxvf eig4.2.tar.gz

Eigenstratで使用するコマンドは、binディレクトリ内に保存されています。
使用する際は、binまでのアドレスをいれて使用するか、pathを通しておきましょう。

また、Eigenstratは下記のものを入れておく必要があります。

・g77 (yum install g77*)
・lapack(yum install lapack*)
・atlas(yum install atlas*)
・compat(yum install compat*)※CompatはCentOS6.0以上の場合は入れてください。
| | SNP解析 | 19:06 | comments(0) | trackbacks(0) |
Merlinでパラメトリック解析
これまでにMerlinに必要なInputファイル形式に関して記述して参りました。
本日は、Merlinを用いてパラメトリック解析を行いたいと思います。
よろしくお願いします。

今回は、Merlinの“exampleフォルダ”内に付属しています
・parametric.ped
・parametric.dat
・parametric.map
を用います。
ダウンロードはこちらから

まずは、pedファイルとdatファイルに矛盾がないか、
間違いがないか確認を行います。

pedstats -d parametric.dat -p parametric.ped

-d ; datファイル
-p;pedファイル

下記に結果(数か所を抜粋)を記します。
PEDIGREE STRUCTURE
==================
Individuals: 16
Founders: 5 founders, 11 nonfounders
Gender: 6 females, 10 males
Families: 1


入力した家系情報が合っているか確認します。
※もし、pedファイルの情報とdatファイルの情報(量)に
差異がある場合はエラーを返してくれます。

AFFECTION STATISTICS
====================
[Diagnostics] [Founders] Prevalence
VERY_RARE_DISEA 16 100.0% 5 100.0% 50.0%
Total 16 100.0% 5 100.0%

羅病の割合は合っていますかー。

次にLODスコアを算出します。
パラメトリック解析を行う際は、optional inputファイルとして
modelファイルというものが必要となります。

Modelファイル形式
1列目:affection名
   (datファイルのAエンコードと名前を合わせる)
2列目:疾患アレルの頻度
3列目:浸透率(0, 1 and 2 copies of the disease allele)
4列目: モデル名(自由に)

merlin -d parametric.dat -p parametric.ped -m parametric.map
-model parametric.model --step 1

-m;mapファイル
-model;modelファイル
--step n;LODスコアを算出する際にMarkerをnつ飛ばし。

結果は
Parametric Analysis, Model Dominant_Model
=========================================
   POSITION   LOD    ALPHA   HLOD
    5.000   -13.302   0.000   0.000
    10.000   -4.227   0.000   0.000
    15.000   -17.29   0.000   0.000
    20.000   -3.270   0.000   0.000
    25.000   -5.809   0.000   0.000
・・・

というようにLODスコアを得ます。
オプションコマンドの詳細はコチラ
| | SNP解析 | 17:42 | comments(2) | trackbacks(0) |
datファイルとmapファイルfor Merlin
先日、連鎖解析ツールソフトMerlinのInput ファイルの一つであるpedファイルに関して記述致しました(詳細はコチラ)。
本日は、datファイルとmapファイルのファイル形式を記述致します。

■datファイル(Describing the pedigree file)
datファイルは、pedファイルの基本構成以降(6列目以降)が何を表すのかという情報を記載するファイルです。
例えば、先日のブログに記載した順で行くと、基本構成以降は、下記のようになります。

 6列目: affection情報
 7列目: 量的形質情報
 8列目: SNP1に対するgenotype
 9列目: SNP2に対するgenotype
 ・・・・

datファイルでは、上記の情報をエンコードを用いて表します。
まずdatファイルのエンコードを下記に記します。

 M: SNP位置およびSNP名(マーカー)
 A: 疾患の状態
 T: 量的形質
 C: 共変量

datファイルの構成は、pedファイルの6列目から順に
“エンコード 名前”
という風に、行で区切って記載していきます。

つまり上記のpedファイル情報からdatファイルを作成すると・・・

 A  AFFECTION (ここは自由にaffection名を記入してください)
 T  trait
 M  SNP1
 M  SNP2
 ・・・

となります!

■mapファイル
続いてmapファイルです。
Mapファイルは、datファイルに記載したSNP1の位置が記載されているファイルです。

ファイル構成は下記に記します。

 1列目: 染色体番号
 2列目: datファイルで記載したSNP名
 3列目: 2列目のSNPの位置(単位はセンチモルガンで!)

です!
詳細はコチラ
| | SNP解析 | 17:39 | comments(0) | trackbacks(0) |
pedファイルfor Merlin
先日、連鎖解析の為のフリーツールソフトMerlinについて記述致しました
(こちらに関する記事はコチラ)。
MerlinではInput ファイルとしてpedファイル、datファイル、mapファイルが必要です。
本日は、pedファイルのファイル形式を記述致します。

■pedファイル(pedigreeファイル)
pedファイルでは、1検体(サンプル)の情報を1行で表します。
基本構成は下記の5列です。
1列目:a family ID(家系の識別名)
2列目:an individual ID(個々のサンプルID)
3列目:a link to Father ID (if available)
   (父親がサンプル内にある場合は父親のindividual IDを記述)
4列目:a link to Mother ID (if available)
   (母親がサンプル内にある場合は母親のindividual IDを記述)
5列目:an individual's sex.
   (個々のサンプルの性別、1=male, 2=female, 0=unknown)

基本構成以降の記述の順番は、比較的自由です(記載の順番は、datファイルに反映されますが、こちらに関しては、次回記述します)。

今回は、Merlinのtutorialに従って記述します。

6列目:an affection status
   (1=unaffecteds, 2=affecteds, 0=missing)
7列目:quantitative trait
   (量的形質)
8列目以降:各アレルに対するgenotype

詳細はコチラ

次回は、datファイルおよびmapファイルに関して記述します。
| | SNP解析 | 18:20 | comments(0) | trackbacks(0) |
連鎖解析フリーソフトMerlin
先日、連鎖解析の為のフリーツールソフトが紹介されているサイトを御紹介させていただきました(参照)。
本日は、その中からMerlinというソフトを紹介させていただきます。
よろしくお願いします。

Merlinは、家系データを用いてパラメトリック解析、ノンパラメトリックス解析、量的形質の関連解析、IBDと家族推定、ハプロタイピングなどを行う事ができます。
Merlinには、exampleデータが付属されており、tutorialで解析の練習を行う事も可能です(これは私的に大事なポイントです)。

ダウンロードはこちらから

下記からは、linux上でMerlinを実行方法を記述していきます。

上記のサイトからmerlin-1.1.2.tar.gzをダウンロードし、解凍を行います。
解凍コマンド
tar zxvf merlin-1.1.2.tar.gz

その後、merlin-1.1.2ファイル内でmakeコマンドを用いて、コンパイルを行います。
さらにmake installをタイプします。


merlinとタイプしてみましょう。


MERLIN 1.1.2 - (c) 2000-2007 Goncalo Abecasis
References for this version of Merlin:
Abecasis et al (2002) Nat Gen 30:97-1




の様に表示されました。
merlinが使用できます!
準備完了!
| | SNP解析 | 19:09 | comments(0) | trackbacks(0) |
遺伝統計解析ツールとパラメトリック連鎖解析
昨日は遺伝統計解析である連鎖解析について記述しました。

連鎖解析のためのオープンフリーツールソフト(以後、連鎖解析ツール)が紹介されているサイトをご紹介します。
コチラのHPをご覧ください

解析ごとに分類わけがしてあり、とても使いやすいサイトであると思います。
こちらのサイトにはGenehunterやLinkage、Merlin、Solarなどの連鎖解析ツールが紹介されています。
上記のツールでは、パラメトリック連鎖解析、ノンパラメトリック連鎖解析やLODスコアの算出などを行う事が可能です。

本日は、パラメトリック解析の理論を図にしてみました(下図参照)。

DNAマーカーが偶然に疾患遺伝子(単一座位の遺伝子)と共に遺伝する確立は1/2です。
一方、疾患遺伝子のごく近傍に存在するDNAマーカーは、1/2より高い確率で疾患遺伝子と共に遺伝します(という仮定を立てます)。
パラメトリック解析は、上記の原理を用いた解析手法で、ヒトゲノム中に存在する多数のマーカーを調べ、原因遺伝子が存在する候補領域を検出し、疾患と最もよく対応しているマーカーのごく近傍にある原因遺伝子を特定する方法です。
| | SNP解析 | 18:20 | comments(0) | trackbacks(0) |
連鎖解析
本日は連鎖解析に関して記述します。
よろしくお願いします。

まず遺伝連鎖は、特定の対立遺伝子の組み合わせがメンデルの独立法則に従わず、親から子へ一緒に遺伝することを言います。
上記の記述を図にしてみました(Figure 1)。

Figure 1 遺伝連鎖のイメージ図

図ではエンドウマメで表しましたが、実際の遺伝連鎖は、ヒトや動物などが対象です。

連鎖解析とは、上記のような遺伝連鎖の遺伝箇所や伝達の様式を遺伝統計学的に解明するものです。

明日からは、連鎖解析のための解析ツール等をご紹介します。
| | SNP解析 | 18:55 | comments(0) | trackbacks(0) |
GWAS解析ソフト「QuickGWAS Academic」がバージョンアップしました
GWAS解析ソフト「PLINK」のWindows版ラッパーソフトである「QuickGWAS Academic」がバージョンアップされました。

PLINKは、SNP解析、GWAS解析、ハプロタイプ解析、連鎖解析、層別化解析などなど、各種のSNPをベースとした遺伝統計解析ができるオープンソースソフトウェアです。

ただ、コマンドライン操作が基本になるので、一般的な実験研究者にとっては少々敷居の高いソフトウェアでもあります。


そこで開発したのが、Windows上で直感的にマウス操作でPLINKの操作(GWASなど)とプロット作成が行える「QuickGWAS」です。
2010年末にバージョン1.0が公開されていましたが、今回はバージョンが1.2.2まで上がり、マルチスレッド化、処理時間の表示、細かなバグ修正などが行われています。

基本機能としては前バージョンの1.1.0から変わりはありませんが、使いやすさは向上していますので、全ユーザー様にバージョンアップをオススメいたします。

QuickGWAS Academic 1.2.2 - GWAS画面
図1.GWAS画面

QuickGWAS Academic 1.2.2 - Plot画面
図2.プロット画面(マンハッタンプロットとQ-Qプロット)
| 社長 | SNP解析 | 16:14 | comments(0) | trackbacks(0) |
PLINKの使い方3
昨日に引き続き、SNP統計解析ソフトPLINKの、コマンドのオプションについて書きたいと思います。
閾値に関するオプションを何個か紹介します。

--geno {0.01}
説明:Maximum per-SNP missing
集団において遺伝子型が決定されなかった割合の最大値です。
1%以上、遺伝子型が不明なSNPは除外されます。

--mind {0.01}
説明:Maximum per-person missing
個体において遺伝子型が決定されなかった割合の最大値です。
1%以上、遺伝子型が不明なサンプルは除外されます。
除外されたサンプルは「.irem」ファイルに記録されます。

ファイル名が
PEDファイル    :study1.ped
MAPファイル    :study1.map
の場合、下記のコマンドでデータチェックできます。
plink --file study1 --geno 0.01 --mind 0.01
閾値を変えて試してみてください。

【参考】
・PLINK
http://pngu.mgh.harvard.edu/~purcell/plink/index.shtml
| きむ | SNP解析 | 18:26 | comments(0) | trackbacks(0) |
PLINKの使い方2
これまで何回か、SNP統計解析ソフトPLINKについて書きました。
QTL解析2(2番目の記事)
PLINKの使い方1
今日は、コマンドのオプションについて書きたいと思います。
ファイルのinput/outputに関するオプションを何個か紹介します。

1.PEDファイル作成(拡張子「.ped」)
縦にサンプル情報、横にSNPごとのGenotypeが並ぶファイルです。
基本のカラム数は7つです。
1 Family ID
2 Individual ID
3 Paternal ID
4 Maternal ID
5 SEX
6 affection status
7.. Genotype

データや血縁関係が無いサンプルの場合、下記のようにPEDファイルに入力しても動きます。
1 Family ID = サンプル名
2 Individual ID = 1
3 Paternal ID = 0
4 Maternal ID = 0
5 SEX = 0
6 affection status
7.. Genotype

オプションでも対応できます。
--no-fid
説明:PED file does not contain column 1 (family ID)
--no-parents
説明:PED file does not contain columns 3,4 (parents)
--no-sex
説明:PED file does not contain column 5 (sex)
上記の3つのオプションを使う場合、カラム数は3つです。
1 Individual ID
2 affection status
3.. Genotype

2.MAPとPEDの書式を確認
ファイル名は
PEDファイル    :study1.ped
MAPファイル    :study1.map
ということで説明していきます。

PEDファイル(カラム数7つ)の時は
plink --file study1

PEDファイル(カラム数3つ)の時はオプションを付けて、
plink --file study1 --no-fid --no-parents --no-sex --allow-no-sex
他にもいろいろオプションを設定します。

【参考】
・PLINK
http://pngu.mgh.harvard.edu/~purcell/plink/index.shtml
| きむ | SNP解析 | 19:20 | comments(0) | trackbacks(0) |
SNP解析パッケージ「PLINK」のGUIインターフェース
先週の金曜日にアナウンスしました「Windows版 PLINKのフロントエンド」についてご質問をいただいております。

マイクロアレイがそうであったように、SNP解析も一般的な技術になってきておりますが、マイクロアレイほどにはデータ解析ソフトが普及していないようにおもいます。やはり遺伝統計解析は少々特殊であることと、GUIベースでオープンソース(フリー)のソフトが少ないことも要因の一つではないかと考えています。
(PLINKにはGUIインターフェースである「gPLINK」が存在します)

弊社では、「QuickGWAS Online」というWebベースのSNP解析サービスをご提供させていただいていますが、みなさんにSNPデータ解析を広く利用していただくため、Windows版のPLINKを利用したGUIのラッパーに、統計解析パッケージ「R」で「マンハッタンプロット」と「Q-Qプロット」を作成する機能を追加したフリーソフト(アカデミック用)をご提供予定です。

現在は、リリースの最終準備(ソフトは完成しています)をしています。もう少々お待ちください。
| 社長 | SNP解析 | 23:41 | comments(0) | trackbacks(0) |
eQTL解析
今週はPLINKを用いたQTL解析やGWASを紹介してきました。

今日は、SNPジェノタイピングとマイクロアレイを結合させるExpression-QTL解析(eQTL)を行います。

1.サンプルデータを用意します
遺伝子発現量が一定レベル以上の発現マーカーを対象に解析を行います。

2.MAPファイルを作成します
発現マーカーごとのMAPファイルを作成します。
発現マーカーの前後数kbの領域に含まれるSNP一覧のファイルです。

3.PEDファイルを作成します
発現マーカーごとのPEDファイルを作成します。
QTL解析では、affection statusカラムにコントロールorケースの情報を入力しました。
eQTL解析では、affection statusカラムに遺伝子発現量を入力します。
縦にサンプル、横に発現マーカーのSNPが並びます。

4.いよいよ解析です
plink --file exp --assoc --out arg

画面にファイルデータの詳細が表示されますので、意図どおりに認識されているかチェックしてください。
arg.qassocというファイルが出来上がります。
カラム数は9つで
Chr   Chromosome number
SNP   SNP identifier
BP    Physical position (base-pair)
NMISS  Number of non-missing genotypes
BETA  Regression coefficient
SE    Standard error
R2    Regression r-squared
T    Wald test (based on t-distribtion)
P    Wald test asymptotic p-value
です。

4ステップで、1つの発現マーカーに対する解析を行いました。

実際には、複数の発現マーカー(約2万)を対象に解析を行うことになるので、Perlでプログラミングすることで自動化しています。

すべてのマーカーを対象にMAPファイルを作成しeQTL解析する方法もありますが、膨大な計算時間がかかります。
例えば、計算時間20秒/マーカー → 2万マーカーで約111時間の計算時間がかかります。(弊社サーバーの場合)

事前に全ゲノムのeQTL解析をしておき、データベース化することで必要に応じて検索することもできます。

【参考】
・PLINKマニュアル(Quantitative trait association)
http://pngu.mgh.harvard.edu/~purcell/plink/anal.shtml#qt

| きむ | SNP解析 | 11:09 | comments(0) | trackbacks(0) |
PLINKの使い方1
これまでQTL解析のお話をしてきました。
今日はPLINKを使って基本的なSNPのデータ解析(GWAS:ゲノムワイド関連解析)を行います。

1.サンプルデータを用意します
NCBI Gene Expression Omnibus (GEO)に登録されているデータが整理されている「遺伝子発現バンク(GEO)目次」という大変便利なサイトがあります。
では、イルミナ社が公開しているHuman610-Quad v1.0ビーズチップでHapMapサンプルを解析したデータをダウンロードして使用します。
CHBとJPT(75サンプル)をコントロール、CEU(73サンプル)をケースにします。

2.MAPファイルを作成します
MAPファイルの名前はhapmap.mapにしました。
マーカー数が約62万なので、62万行4列の縦長の形になります。

3.PEDファイルを作成します
まずasia.pedおよびceu.pedのふたつのPEDファイルを作成します。
affection statusカラムには、コントロールは「1」、ケースは「2」を入力します。つまり、asia.pedの6列目はすべて「1」、ceu.pedの6列目はすべて「2」となります。
ふたつのファイルを合体させると、縦がサンプル数・横がSNP数の、
148行62万列の横長の形になります。
(イルミナ社のゲノムブラウザーをご使用の方は、pedファイル作成のプラグインがございますのでご活用ください)

cat asia.ped ceu.ped > hapmap.ped


拡張子より前の部分はMAPファイルと同じ名前にする必要があるので、PEDファイルの名前はhapmap.pedにしました。

ふたつのファイルを作成するときに大切なのは、MAPファイルとPEDファイルのSNPの順番を一致させることです。

同じ要領で、HapMapのデータをコントロール、自分の実験データをケースとしてGWASをすることも可能です。

次のステップです。

4.MAPとPEDの書式を確認します
plink --file hapmap

画面に、マーカー数・サンプル数・ケースとコントロールそれぞれの数・性別などの情報が表示されますので、意図どおりに認識されているかチェックしてください。

5.PEDファイルとMAPファイルから、binary PEDファイルを作成します
plink --file hapmap --make-bed --out hapmap

6.いよいよ解析です
・Basic association analysis
plink --bfile hapmap --assoc --out as1

as1.assocというファイルが出来上がります。
カラム数は9つで
Chromosome
SNP identifier
Code for allele 1 (the minor, rare allele based on the entire sample frequencies)
The frequency of this variant in cases
The frequency of this variant in controls
Code for the other allele
The chi-squared statistic for this test (1 df)
The asymptotic significance value for this test
The odds ratio for this test
です。

・補正をするための「adjust」(ボンフェローニ補正など)
plink --bfile hapmap --assoc --adjust --out as2

カラム数は10で
Chromosome
SNP identifier
Unadjusted, asymptotic significance value
Genomic control adjusted significance value
Bonferroni adjusted significance value
Holm step-down adjusted significance value
Sidak single-step adjusted significance value
Sidak step-down adjusted significance value
Benjamini & Hochberg (1995) step-up FDR control
Benjamini & Yekutieli (2001) step-up FDR control
です。
補正前(as2.assoc)と補正後(as2.assoc.adjust)のふたつのファイルが作成されます。

【参考】
・遺伝子発現バンク(GEO)目次
http://lifesciencedb.jp/geo/

・PLINK
http://pngu.mgh.harvard.edu/~purcell/plink/index.shtml

| きむ | SNP解析 | 16:04 | comments(0) | trackbacks(0) |
QTL解析3

前回は3種類のファイルを作成しました。

ファイル名は
PEDファイル    :study1.ped
MAPファイル    :study1.map
Phenotypeファイル :qt.phe
ということで説明していきます。

ある遺伝子型と臨床情報の関係を調べるため、
PLINKでQTL解析を行っていきます。

Linuxを使用して、コマンドラインで行います。

1.PEDファイルとMAPファイルから、binary PEDファイルを作成します。
plink --file study1 --make-bed --out study1

2.QTL解析を行います。
plink --bfile study1 --assoc --pheno qt.phe --out quant1

quant1.qassocというファイルが出来上がります。

カラム数は9つで
Chr   Chromosome number
SNP   SNP identifier
BP    Physical position (base-pair)
NMISS  Number of non-missing genotypes
BETA  Regression coefficient
SE    Standard error
R2    Regression r-squared
T    Wald test (based on t-distribtion)
P    Wald test asymptotic p-value
です。

いくつかの臨床情報と比較したい場合には、
Phenotypeファイルをその数だけ作る必要があるのでちょっと不便です。

社内では、Perlでプログラミングすることで複数のPhenotypeファイルに対応させています。

明日はPLINKの使い方を紹介したいと思います。

【参考】
・PLINK
http://pngu.mgh.harvard.edu/~purcell/plink/index.shtml


| きむ | SNP解析 | 17:28 | comments(0) | trackbacks(0) |
QTL解析2
今日は、フリーのSNP統計解析ソフトPLINKを使用してQTL解析を行いたいと思います!

PLINKのDownloadページからプログラムをダウンロードします。

tutorialに従って一通りの作業していくと、
徐々に使い方が分かってきました。
では、さっそく解析の準備を始めたいと思います。

QTL解析の下準備として、以下の3種類のファイルを作成します。
1.PEDファイル
2.MAPファイル
3.phenotypeファイル

1.PEDファイル作成
拡張子を「.ped」で設定します。
縦にサンプル情報、横にSNPごとのGenotypeが並ぶファイルです。

カラム数は7つで
Family ID
Individual ID
Paternal ID
Maternal ID
SEX
affection status
Genotype

血縁関係にないサンプルの場合には、
Family ID = サンプル名
Individual ID = 1
Paternal ID = 0
Maternal ID = 0
と、設定して良いようです。

2.MAPファイル作成
拡張子を「.map」で設定します。
SNP一覧のファイルです。

カラム数は4つで
Chrmosome
SNP identifier
Genetic distance
Base-Pair position

3.phenoファイルの作成
拡張子を「.phe」で設定します。

カラム数は3つで
Family ID
Individual ID
Phenotype
Phenotypeカラムには、臨床情報などを入力します。


次回は、実際の解析をイメージしながら実行していきます。


【参考】
・PLINK
http://pngu.mgh.harvard.edu/~purcell/plink/index.shtml

| きむ | SNP解析 | 16:11 | comments(0) | trackbacks(0) |
QTL解析1
アメリエフに新しいメンバーがひとり加わりました。
いっそうにぎやかで楽しくなりそうです♪

本日からは、QTL解析についてお話していこうと思います。

身長や腹囲など連続的な形質(量的形質)を規定する座位を
量的形質座位(Quantitative Traits Loci:QTL)と言います。

QTL解析によって、QTLの染色体上の位置を知ることができます。

ここでは統計学的な詳しい解説は省略してしまいますが、
羊土社から出版されている「実感と納得の統計学」という本が大変参考になります。実例が多く、イメージしながら統計学の基礎を学べるおススメの一冊です。

次回からは、フリーのSNP統計解析ソフトPLINKを使用して解析していこうと思います。

入力するファイルの形式など、
解析の方法を簡単に紹介していきます。

次回へ続きます。


| きむ | SNP解析 | 16:41 | comments(0) | trackbacks(0) |
   1234
567891011
12131415161718
19202122232425
262728    
<< February 2017 >>

このページの先頭へ