アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
<< レゴ | main | GRCh38 >>
HGVDについて (2) サンプル数編
前の記事
次の記事

Human Genetic Variation Databaseで公開している日本人ゲノムデータの、データの確からしさの判断に使えそうな項目を見てみます。

配布されている圧縮ファイルをダウンロードし、解凍しますと、READMEとタブ区切りテキストの2つのファイルができます。

READMEによると、日本人から検出された478,228個のSNPについて、1行につき1SNPの以下の情報が記載されています。
hgvdのカラム説明
■#Sample(サンプル数):データベースに含まれる1,208人のうち、N人でそのSNPのポジションをシーケンスできたという意味です。Altのアリルが検出されたサンプルの数ではありません。

このうち、#Sample、Mean_depthが、確からしさを判断するのに使えそうです。

まず#Sampleの分布を見てみます。
HGVDのサンプル数ヒストグラム
(※クリックで大きくなります)

まず左の図をご覧ください。
横軸が各SNPをシーケンスできたサンプル数、縦軸がその登場回数です。
200〜500サンプル、あるいはそれ以上でシーケンスできているSNPが多いようですが、案外サンプル数が少ないSNPも登録されているようです。
試しに、サンプル数が100より少ないSNPでヒストグラムを書いたのが右図です。40サンプル以下、その中でも5サンプルより少ないサンプルでしか読まれていないSNPが多数あるようです。

ちなみに、データベースのうち、100サンプル未満でしかシーケンスされていないSNPをすべて除くと、約95.0%のSNPが残ります。

次はMean_depthの分布を見てみます。



データベースの名前を「Human Genome Variation Database」と記載しておりましたが、これは別のデータベースの名前でした。
正しくは「Human Genetic Variation Database」でした。
ブログをご覧くださった皆様、並びに関係者様各位にご迷惑をおかけしてしまい申し訳ございません。
| kubo | バイオインフォマティクス | 15:58 | comments(2) | - |
こんにちは。
お世話になっております。

Human Genome Variation Databaseは別のデータベースです(東大・人類遺伝・徳永ラボで作成しているデータベースです)。
京大の松田先生グループが作成しているものは”Human Genetic Variation Browser”です。
似たような名前が付いていて非常に紛らわしいのですが、
宜しくお願いいたします。
| 川嶋実苗 | 2014/02/03 5:16 PM |
いつもお世話になっております。
ご指摘大変ありがとうございました、
誤って別のデータベース名を書いてしまい、大変失礼いたしました。
これまでのブログ記事については訂正いたしました。
今後もどうぞよろしくお願い申し上げます。
| kubo | 2014/02/04 6:36 PM |









   1234
567891011
12131415161718
19202122232425
262728    
<< February 2017 >>

このページの先頭へ