アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
<< スクールDay4 | main | 1000 人ゲノムプロジェクトJPT データの活用 >>
BEDフォーマット完全解説
BEDフォーマットはゲノム上のポジションを示すのに使われているフォーマットで、遺伝子や結合部位などを示すのに広く使われています。
元々はUCSC Genome Browserで使われていたフォーマットですが、最近は様々な解析ソフトウェアでも読み書きできるようです。

BEDフォーマットは最大12列からなるフォーマットで、最初の3列が必須です。
後半は使わないことも多いのですが、知っていると、UCSC Genome Browserにカスタムトラックを作る際に便利です。
今日はBEDフォーマットについて詳しく解説したいと思います。

(1)chrom:染色体名(chr1など)
(2)chromStart:スタート位置(数値)
 0スタート(染色体の左端を0と数える)である点にご注意ください。
 他のフォーマット(例えばVCF)には1スタートのものもあります。
 フォーマット間の変換の際は気を付けましょう。
(3)chromEnd:エンド位置(数値)

---↑この3列は必須。この3列だけのものをbed3と呼びます。

 bed3の例:chr1 0 100
 =染色体chr1の先頭から100bpの領域を指す

 項目間はタブかスペースで区切ります。

(4)name:名前(文字列)
 遺伝子名や任意の文字列を指定します。特に必要ない場合は空文字列を入れます。
(5)score:スコア(0-1000の間の数値)
 遺伝子らしさ(新規遺伝子候補の場合など)や類似度(比較ゲノムの場合など)など、0-1000間の数値を何でも入れることができます。特に必要ない場合は一律で0などを入れます。
 UCSC Genome Browserでは、スコアに応じて濃淡をつけることができます。その場合、BEDファイルの先頭に次の1行を記載します(nameやdescriptionは適当な文字列に変更してください)。
 
track name=myTrack1 description="myTrack1 score" useScore=1


(6)strand:ストランド(+ または -)
 ゲノム配列に対して5'→3'の向きなら+、3'→5'の向きなら-です。

---↑(1)-(6)まであるものをbed6と呼びます。

 bed6の例:chr1 1000 2000 foo 100 -
 =染色体chr1の1000塩基目から2000塩基目にゲノムと逆向きである、スコア100の「foo」という領域を指す


(7)thickStart:CDSの開始位置(数値)
(8)thickEnd:CDSの終了位置(数値)
 UCSC Genome Browser上で、(7)-(8)の領域は太い線で表示されます。数値的に(2)<=(7)<(8)<=(3)になっていないと怒られます。
 元々はCDS用の列ですが、遺伝子以外のデータの場合で、部分領域を強調するのに使えます。

(9)itemRgb:色をRGBで指定(数値,数値,数値)
 これは完全にUCSC Genome Browserで表示するためだけの情報なので、他のソフトウェアで開く場合には関係ないことが多いです。使わない場合は0などを入れておきます。
 例えば赤で表示したい場合はここを「255,0,0」とし、BEDの先頭にTrack行をつけ、itemRgb Onと指定します。
track name=myTrack1 description="myTrack1 with color" itemRgb="On"


(10)blockCount:エキソンのブロック数(数値)
(11)blockSizes:ブロックサイズ(数値をコンマ区切りで)
(12)blockStarts:エキソンの「転写開始位置からみた」スタート位置(数値をコンマ区切りで)

---↑(1)-(12)まであるものをbed12と呼びます。

 bed12の例:chr1 100 300 bar 0 + 110 220 0 2 30,60, 10,60,
 =転写領域が「chr1:100-300」、1つ目のエキソンが「chr1:110-140」、2つ目のエキソンが「chr1:160-220」である遺伝子「bar」を示す


以上、ちょっと細かいBEDフォーマットのお話でした。
itemRgbやスコアによる濃淡を使うと、カラフルなトラックを使うことができますよ!

【参考】UCSC Genome BrowserのHelp

| hat | ゲノムブラウザ | 16:42 | comments(5) | trackbacks(0) |
コメント欄ですみません。
BEDのstartが混乱してしまったのでもしよろしければ教えてください。
chr1 の 一番最初の+鎖の塩基を示すときは、
chr1 0 1 XXX 0 +

chr1 の 一番最初の-鎖の塩基を示すときは、
chr1 0 1 XXX 0 -

で良いのでしょうか?
| Tessi | 2013/07/08 10:45 AM |
Tessiさん、コメントありがとうございます。

はい、それで正しいと思います。
| hat | 2013/07/08 5:10 PM |
久しぶりですが、また教えてください。
BED formatのstartとWig (Old?)のvariableStepのstartは同じになりますか?
Wig:
variableStep chrom=chr01
180 11

Bedgraph:
chr01 180 181 11

こんな感じでしょうか?
| Tessi | 2016/06/16 9:54 AM |
お久しぶりです。コメントありがとうございます。hatに代わりましてお答えいたします。

BED(およびBedgrapch)は0-based、最初の塩基を0、Wig(およびbigWig)は1-based、つまり最初の塩基を1とします。

なので、以下のようになります。
Wig:
variableStep chrom=chr01
180 11

Bedgraph:
chr01 179 180 11

詳細はUCSC Genome BrowserのBedgraphフォーマットの説明ページ(http://genome.ucsc.edu/goldenPath/help/bedgraph.html)、IGVのWigフォーマットの説明ページ(https://www.broadinstitute.org/igv/WIG)に説明がございますので、ご参考になりましたら幸いです。
| kubo | 2016/06/16 11:12 AM |
承認待ちのコメントです。
| - | 2017/03/03 4:04 PM |









http://blog.amelieff.jp/trackback/195350
   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>

このページの先頭へ