アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
<< 効き脳 | main | 第16回 RNA学会 >>
samtools ゲノムのインデックスファイルの中身
次世代シーケンサ解析では、リファレンスゲノムやbamファイルなど、サイズの大きなファイルを扱う必要があります。
大きなファイルには扱う前にインデックス(目次)を作成することがしばしばあります。多くのソフトはインデックスファイルがないと動きません。
同じデータでも、ソフトごとに別のインデックスファイルが必要な場合もあります。

インデックスファイルには人が読めないバイナリデータも、プレーンテキストのものもありますが、Samtoolsが作成するゲノムファイルのインデックスファイルは、人にも読めるものです。
内容を知っていると便利なこともあるので、ご紹介いたします。
インデックス作成

$ samtools faidx hg19.fa

hg19.fa.faiが作成されます。

$ cat hg19.fa.fai
chr1 249250621 6 50 51
chr2 243199373 254235646 50 51
chr3 198022430 502299013 50 51
chr4 191154276 704281898 50 51
chr5 180915260 899259266 50 51
chr6 171115067 1083792838 50 51
chr7 159138663 1258330213 50 51
chr8 146364022 1420651656 50 51
chr9 141213431 1569942965 50 51
chr10 135534747 1713980672 50 51
chr11 135006516 1852226121 50 51
chr12 133851895 1989932775 50 51
chr13 115169878 2126461715 50 51
chr14 107349540 2243934998 50 51
chr15 102531392 2353431536 50 51
chr16 90354753 2458013563 50 51
chr17 81195210 2550175419 50 51
chr18 78077248 2632994541 50 51
chr19 59128983 2712633341 50 51
chr20 63025520 2772944911 50 51
chr21 48129895 2837230949 50 51
chr22 51304566 2886323449 50 51
chrX 155270560 2938654113 50 51
chrY 59373566 3097030091 50 51
chrM 16571 3157591135 50 51
1列目:染色体(fastaファイルのヘッダ)
2列目:各染色体の長さ
3列目:ファイルの先頭から見た、染色体の第一塩基めの位置
4列名:fastaの1行の文字数
5列目:各行のバイト数

Bamを切り出すために各染色体の長さをすぐに知りたいときなどに便利ですよ。
| kubo | 次世代シーケンサー解析 | 14:09 | comments(0) | - |









   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>

このページの先頭へ