アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
<< ログの残し方 | main | 初めてのClinVar >>
STAR(1)
RNA-seqデータを高速にマッピングするソフトウェアSTARについて
ご紹介します。

A. Dobin et al, Bioinformatics 2012;
doi: 10.1093/bioinformatics/bts635
"STAR: ultrafast universal RNA-seq aligner"

◆STARのインストール
$ wget http://STAR.googlecode.com/files/STAR_2.3.0e.Linux_x86_64.tgz
$ tar zxvf STAR_2.3.0e.Linux_x86_64.tgz


◆ゲノムのダウンロード
$ wget ftp://ftp2.cshl.edu/gingeraslab/tracks/STARrelease/STARgenomes/hg19_Gencode19.tgz
$ tar zxvf hg19_Gencode19.tgz


◆STAR実行
$ STAR --genomeDir hg19_Gencode19 --readFilesIn FASTQ1 FASTQ2 --runThreadsN 3


ヒトRNA-seqデータ(※1)をTophat(※2)でマッピングした結果と
比較してみました。
◆実行時間 Tophat:25分、STAR:6分
◆マッピング率 Tophat:85.28%、STAR:85.88%

※1:ERR030874の先頭1Mリード、ペアエンド間の平均距離 137bp
※2:tophat -p 3 -G GENE -g 3 -r 137 GENOME FASTQ1 FASTQ2

IGV上で実際のマッピング結果を見比べてみると、STARではTophatに比べて
ペアエンド間の距離が離れているものが多く検出されました。
この原因としては次のことが考えられます。

Tophatではペアエンド間のマッピング距離をパラメータで
指定しているのですが(-r 137)、STARでは特に指定していません。
STARにも--alignMatesGapMaxという同様のパラメータが
ありますので、これを設定することにより改善されるものと
考えられます。

もう少しパラメータチューニングが必要ですが、これだけ速くて
Tophatと同程度の結果が得られるならSTARを使うメリットはありますね!

また、STARではSAMファイル(Aligned.out.sam)の他に、
スプライスジャンクション(SJ.out.tab)が出力されます。
こちらの見方については次回ご紹介します。

| hat | バイオインフォマティクス | 10:24 | comments(0) | - |









   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>

このページの先頭へ