アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
VCF format

どうもakbです。
今日からVCF formatの連載が始まります。

さて、VCFとは (Variant Call Format)の略で、次世代シーケンサー解析に用いられるformatの一つです。
samtoolsを用いて抽出した多型情報が、VCFファイルに格納されて出力されます。

まず、VCFファイルの中身を見てみます。



ファイルのメタデータは、"##"の文字列の後に記載されています。
例えば、最初の行には、VCFのバージョンが次のように示されます。
(例)
##fileformat = VCFv4.1

次にVCFファイルの本体で使用されるフィルタ(INFO)とFORMATが、
メタデータセクションに含まれます。
(例)
##INFO = <ID=DP,Number=1,Type=Integer,Description="Total Depth">

"##"から始まる行(メタデータ)の後の構造は、"#"から始まるヘッダー行と、そのヘッダー行のカラムに対応したデータ行から成ります。


ヘッダ行には9個のカラム+SAMPLEカラムがあります。これらのカラムは次のとおりです。





次回のブログでは、各カラムに対応するデータ行の説明をしたいと思います。
| akb | 次世代シーケンサー解析 | 09:16 | comments(0) | trackbacks(0) |
  12345
6789101112
13141516171819
20212223242526
2728293031  
<< May 2012 >>

このページの先頭へ