アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
<< BED、VCFをスッキリと染色体番号順にソートする方法 | main | 無害なメッセージと有害なメッセージ >>
chimerascanで融合遺伝子を検出する
融合遺伝子検出ソフトウェアは数多くありますが、ベストなソフトがないのが現状だと思います。
TopHat-FusionやdeFuse(deFuseの記事)などが有名ですが、今回はchimerascanというソフトの使い方を紹介したいと思います。

1. アノテーションデータの準備


・UCSCからヒトリファレンスゲノム(hg19)をダウンロードして、解凍します。染色体のFASTAファイルのみ(chr1.fa〜chrY.fa )を1ファイルにマージします。

・UCSCからヒトトランスクリプトームのデータをダウンロードして、解凍します。chimerascanのダウンロードリストからダウンロードすることもできます。


2. ソフトウェアのインストール


chimerascanからソースコードをダウンロードして解凍します。

・chimerasanのディレクトリにあるsetup.pyを使ってコンパイルします。

・chimerascan_index.pyでchimerascanのインデックスを作成します。
インデックスの作成にはbowtie-buildを使うのでパスを通しておく必要があります。

これで、ソフトウェアの準備ができました。

3. ソフトウェアの実行


chimerascanのディレクトリには、ヒト前立腺癌のRNA-Seqデータ(Fastqファイル)があり、融合遺伝子 TMPRSS2-ERG が含まれています。
これを用いた場合、以下のように実行できます。
$ python /usr/local/bin/chimerascan_run.py -v --quals solexa /home/genome/hg19/chimerascan/ /usr/local/src/chimerascan-0.4.5/tests/vcap_pe_53bp/TMPRSS2-ERG_1.fq /usr/local/src/chimerascan-0.4.5/tests/vcap_pe_53bp/TMPRSS2-ERG_2.fq output_dir


outputに生成されたchimerascan.bedpeからhtmlを作成することもできます。
$ python /usr/local/src/chimerascan-0.4.5/chimerascan/tools/chimerascan_html_table.py --read-throughs -o chimeras.html chimeras.bedpe


chimerascanは実行までの準備が比較的簡単だと思うので、ぜひ試してみてください。
| onouek | 次世代シーケンサー解析 | 16:15 | comments(2) | - |
こちらの記事でchimerascanを知り試しているのですが、indexを作る段階で以下のようにエラーが出でしまい、最近、自らのデータを解析してみようと始めた身のため、困っています。

ダウンロード後のannnotationファイルに加えた操作は、Macのテキストエディトで開いて一行目の項目名のみを書き換えてそのまま保存しただけです。

この段階でのエラーの投稿を見かけないので、お門違いかとは思いましたが、何かヒントをいただければと書き込みさせていただきました。コメントいただけましたら大変助かります。

OSXのPython2.7.5
bowtieはhomebrewでインストール( v1.1.2)
Jinja2はpipでインストール


$ python /usr/local/bin/chimerascan_index.py ./hg19.fa ./genes_mac_hg19.txt myindexdir_hg19
2016-03-07 17:45:04,777 - root - DEBUG - Checking for 'bowtie-build' binary... found
2016-03-07 17:45:04,777 - root - INFO - Created index directory: myindexdir_hg19
2016-03-07 17:45:04,778 - root - INFO - Adding reference genome to index
2016-03-07 17:45:24,069 - root - INFO - Indexing FASTA file
[fai_load] build FASTA index.
2016-03-07 17:45:51,578 - root - INFO - Building transcriptome sequences and gene features
2016-03-07 17:45:51,578 - root - INFO - Adding transcript sequences and gene features to index
Traceback (most recent call last):
File "/usr/local/bin/chimerascan_index.py", line 184, in <module>
main()
File "/usr/local/bin/chimerascan_index.py", line 180, in main
gene_feature_file, bowtie_build_bin)
File "/usr/local/bin/chimerascan_index.py", line 117, in create_chimerascan_index
for g, fa_record in genepred_to_fasta(gene_feature_file, index_fasta_file):
File "/usr/local/bin/chimerascan_index.py", line 57, in genepred_to_fasta
for g in GeneFeature.parse(open(gene_feature_file)):
File "/Library/Python/2.7/site-packages/chimerascan/lib/feature.py", line 83, in parse
yield GeneFeature.from_string(line)
File "/Library/Python/2.7/site-packages/chimerascan/lib/feature.py", line 61, in from_string
g.tx_start = int(fields[3])
ValueError: invalid literal for int() with base 10: 'txStart'
| chaoi | 2016/03/07 8:30 PM |
コメントいただき、ありがとうございます。

>ダウンロード後のannnotationファイルに加えた操作は、Macのテキストエディトで開いて一行目の項目名のみを書き換えてそのまま保存しただけです。

annotationファイルの1行目先頭の”#”を削除して実行すると同様のエラーが出力されますので、annotationファイルは書き変えずに実行していただければ問題なくインデックスが作成できると思います。
| onouek | 2016/03/28 9:00 AM |









   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>

このページの先頭へ