アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
<< 「NGS現場の会 第2回研究会」資料を公開しました | main | スクール「Linux基礎」2012年7月期の募集を開始しました >>
QC の道 その1
こんにちは。detです。

今日は、次世代シーケンサーから得られる生データのクオリティコントロールについて、お話したいと思います。

次世代シーケンサーから得られるデータ(例えば、Fastq形式のファイル)は、クオリティに問題があることが多いため、その後の解析にそのデータをそのまま用いることはあまり推奨されません。

そこで、得られたデータを処理する前に、そのリードのクオリティを確認し、必要に応じてトリミングやリードの除外などの処理(クオリティコントロール(QC))をする必要があります。

ひとつ前の記事の一番下の資料にも一部書いてありますが、いくつかのフリーツールを用いてFastqファイルのQCをすることができます。よく利用されるものを以下に挙げてみます。

FASTX-Toolkit
Fastq/Fasta形式に対応したプリプロセスツール群です。いくつかのツールがセットになっており、データの統計解析や、形式の変換、長さやクオリティなどに基づいたトリミング・フィルタリング等の豊富な機能を持ちます。

PRINSEQ
PRINSEQもFasta/Fastqに対応したQCツールです。豊富なQC項目だけでなく統計解析を簡単にグラフィカルに確認できます。web版とコマンドラインで動かすstandalone版があり、windowsユーザーでも気軽に利用できます。

Tagcleaner
シーケンス用ライブラリ調整時に結合するアダプター(タグ)配列が、Fastqファイルの中に紛れ込んでいることがあります。そのタグを検出して削除してくれるのがこのTagcleanerです。タグ配列が不明の場合はその予測機能も持ちます。Tagcleanerにもweb版とstandalone版があります。

cmpfastq
ペアエンドのデータをQCしていくと、ペアの片側が除去されて無くなってしまい、片側だけのデータができてしまいます。その片側だけのデータを除去して、ペアを揃えるのがこのcmpfastqです。perlのハッシュを用いて処理を高速化していますが、大容量データだとメモリ消費量が上昇するのが難点です。

以上、簡単にQCソフトを紹介しました。上記以外にもQCに関するツールは存在しており、それぞれさまざまな特徴があります。

本日はこのくらいで。
detでした。

-------
次の記事 QC の道 その2 はこちら。
| deda | 次世代シーケンサー解析 | 17:12 | comments(3) | trackbacks(0) |
cmpfastq_pe
http://compbio.brc.iop.kcl.ac.uk/software/cmpfastq_pe.php

cmpfastq に CASAVA v1.8のものを投入するのにアレヤコレヤ苦労していたのですが、cmpfastq_peなるものがあることに最近、気づきました。これは、前からあったのでしょうか・・・・まずは、調べてみてからですね・・・(´・ω・`)
| akitod | 2012/07/21 3:38 PM |
akitod様、cmpfastq_peについて情報を頂きまして
ありがとうございます。
こちらでも早速調べてみます。
どのようなものかわかり次第お返事いたします。(^o^)
| det | 2012/07/24 10:45 AM |
akitod様、
cmpfastq_peに関する記事を作成しました。

http://blog.amelieff.jp/?day=20120723

もしよろしければ、ご参照ください。
| det | 2012/07/26 3:19 PM |









http://blog.amelieff.jp/trackback/178638
   1234
567891011
12131415161718
19202122232425
262728293031 
<< March 2017 >>

このページの先頭へ