アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
設立四周年記念
7月1日はアメリエフの設立四周年記念日でした!

土用の日も近いということからか、弊社では、設立記念日前後の社員が集まれる日にウナギを食べる習慣があります。
ということで、今年もうな重の出前をを取ってみんなでいただきました。


うなぎ


ごちそうさまでした。
| kubo | 会社のこと | 14:57 | comments(0) | - |
アダプタ除去ソフトの比較
シーケンシングデータをFastQCなどでチェックしていると
アダプタ配列が混入しているのを見つけることがあります。

アダプタ除去ソフトウェアはいろいろありますが
今回は以下の3ソフトウェアの使い方をご紹介します。

cutadapt
FastX-Toolkit(fastxclipper)
tagcleaner


丁度以下のアダプタが混入しているらしき公開データがあったので、
このアダプタを除去することにしました。

◆Illumina PCR Primer Index 1
CTACAGTCCGACGATCTCGTATGCCGTCTT

◆実行コマンド
各ソフトを以下のように実行しました。

$ cutadapt -b TACAGTCCGACGATCTCGTATGCCGTCTTC -m 10 -n 1 ¥
original.fastq 1> out_cutadapt.fastq

$ fastx_clipper -C -l 10 ¥
-a TACAGTCCGACGATCTCGTATGCCGTCTTC ¥
-i original -M 3 -o out_fastxclipper.fastq

$ tagcleaner.pl -fastq original.fastq -out out_tagcleaner ¥
-tag5 TACAGTCCGACGATCTCGTATGCCGTCTTC -minlen 10


パラメータが違うので厳密に同じ条件にはできませんでしたが
だいたい同じような条件で実行しています。

◆結果
「処理後にアダプタ断片がどれくらい残っているか」と
「処理前後でリード数がどのくらい減少したか」を確認しました。

・FastX-Toolkitは厳しめ
(アダプタ断片がよく取り除かれているが、リード数がかなり減って
おり、アダプタ以外も誤除去している可能性あり)
・tagcleanerは緩め
(リード数はあまり減らないが、アダプタ断片が残っている)
・cutadaptは両者の中間
(リード数はあまり減らず、アダプタ断片も比較的取り除かれている)

データやパラメータにもよると思いますが、cutadaptが比較的
バランスがとれているように思われます。
| hat | 次世代シーケンサー解析 | 14:58 | comments(0) | - |
統計に親しむ
統計の検定手法にはいろいろありますが、
「こういう場合は××検定を使うのが良い」と言われているものを
そのまま使っている方が意外と多いのではないでしょうか
(私もそうです)。

もっと統計への理解を深めたいと思って本屋さんに行ったところ、
生物統計学の著者によって書かれた本書を見つけました。

p値とは何か 統計を少しずつ理解する34章
p値とは何か 統計を少しずつ理解する34章
竹内 正弘,竹内 正弘

いいなと思ったのが例えのわかりやすさです。

例えばウィルコクソンの符号順位検定もt検定も、2群間に差があるか
調べるのに使いますが、本書では「順位」で比較するウィルコクソンの
符号順位検定を「スポーツ(1位との間が僅差でも2位は2位)」に、
「値」で比較するt検定を「ビジネス(業界ランクより業績が大事)」
に例えていて、なるほどと思いました。

また、帰無仮説を説明するのに、寝る前に歯を磨かない息子の
エピソードが出てきます。

息子が歯を磨いたか検証したい(本人はさっき磨いたと主張している)

「息子は歯を磨いた」という帰無仮説を立てる。
洗面所に行き、息子の歯ブラシを触ってみる。乾いている。
さっき磨いたなら乾いていることはまずありえない。
帰無仮説は棄却される。

息子は歯を磨いていない

恥ずかしながら私はこれを読んで初めて心から帰無仮説を理解できた
気がしました。

この他にも、「スペックがいいのになぜか結婚できない友人の話」や
「平均年収を出しているところにビル・ゲイツが来たら?」など、
楽しいエピソードとユニークな挿絵を楽しみながら
統計に親しめること間違いなしの一冊です。
1章1章は短くてどこからも読め、巻末にはより理解を深めるための
ディスカッションもあります。

ただ、Amazonのレビューによると誤訳が多いとのことなので、
原著のWhat is a p-value anyway? 34 Stories to Help You Actually Understand Statisticsもぜひ読んでみたいと思います。
| hat | よもやま話 | 15:45 | comments(0) | - |
bwa のバージョン検討 その1
 最も広く利用されているマッピングソフトの一つにbwaがあります。bwaは2011年にリリースされたバージョン0.6が広く使用されてきましたが、今年の2月末にバージョン0.7がリリースされました。0.7ではBWA-backtrack、BWA-SW、BWA-MEMの、三種類のアルゴリズムが選択できます。この中でBWA-backtrackはilluminaのショートリード用、残り二つがショートリードから1Mbまでのロングリードに対応しているようです。また、bwaのサイトによれば、BWA-SWとMEMでは、MEMの方がより新しく、精度も高いとのことです。
 こうなると今までの0.6と、0.7[MEM]を比較したくなりますね。というわけでやってみました。条件は以下の通りです。

【サンプル】
WholeExomeSequenceデータ(SRR077486、paired-end)

【データ解析】
1. QC(FastQC、QCleaner)
2. マッピング(bwa0.6.1、bwa0.7.4[MEM])
3. リアライメント/リキャリブレーション(GATK1.6)
4. 変異のコール(GATK1.6)

上記の解析の流れは、弊社製Reseq解析パイプラインとほぼ同じです。

 では、コールされた変異について簡単に比較してみたいと思います。




 bwa(バージョン0.6と0.7[MEM])を用いて得られた変異がどの程度重なっているかを、ベン図にしてみました。SNVとIndelで分けています。このように、かなりの変異が重なっていますが、どちらか一方でしか検出されなかった変異も数%存在しています。

次回はこの数%の変異に焦点を当ててみたいと思います。
| deda | 次世代シーケンサー解析 | 16:57 | comments(0) | - |
BioHackathon2013
6月23〜28日に開催されたBioHackathon2013に参加してきました。

初日のシンポジウム@スカイツリーでは、日本SGI様と共同で
ドリンクコーナーのスポンサーをさせていただきました。

二日目以降はライフサイエンス統合DBセンターで、
ひたすらハッキングします。
私はH-invitationalデータベースのグループに入って、
RfamデータをH-invitationalにリンクするための調査や
データ作成を行いました。

休憩時間やバンケットではたくさんの研究者の方とたくさんお話を
させていただくことができ、とても楽しかったです。

★★★
____早く世界中の有益なデータがつながって
____簡単に検索できるようになりますように!
________________________________★★★
| hat | バイオインフォマティクス | 14:58 | comments(0) | - |
第24回バイオインフォマティクス勉強会「SNPデータ解析入門@神戸」開催のお知らせ
第24回バイオインフォマティクス勉強会のご案内です。
昨年12月に東京で好評だった「SNPデータ解析入門」を神戸会場にて開催いたします。

タイリングアレイ(Microarray)や次世代シーケンサー(NGS)により得られたSNPタイピング情報から、GWAS解析や連鎖解析などの遺伝統計解析の実践につきまして、ご紹介させていただきます。また、PLINKなどのフリーの解析ツールや実際のコマンドもご紹介させていただきます。勉強会後には情報交換会、会場にはささやかですがソフトドリンクとお菓子のコーナーをご用意しております。ご質問などございましたら、お近くのスタッフまでいつでもお気軽にご相談ください。みなさまにとって、貴重な情報交換の場となりましたら幸いです。

               記
日時 :2013年7月13日(土) 15:30〜17:00
場所 :関西事業所 (兵庫県神戸市中央区港島中町2-1-12北埠頭ビル 3階)
地図 :http://www.om-kobe.co.jp/office_kitafuto.html
定員 :16名

お申込み方法などの詳細はこちらをご参照ください。勉強会後に情報交換会を開きますので、ぜひ参加をご検討ください。

みなさまとお会いできることを楽しみにしています。ご意見・ご質問・リクエスト等ございましたら、遠慮無くご連絡ください。
| akb | 勉強会 | 17:09 | comments(0) | - |
変異の絞り込み 【3】 候補の絞り込み方
変異の絞り込み 【1】論文紹介
変異の絞り込み 【2】変異検出

前回は、LCA患者とその両親のトリオのfastqデータをダウンロードし、変異検出まで行いました。
今回は、主題である疾患関連変異候補の絞り込みについてお話します。


絞り込みの流れは、以下の通りです。

[1]既知の変異の除外
[2]アレル頻度が高い変異の除外
[3]クオリティが低い変異の除外
[4]タンパク質に与える影響が低い変異の除外
[5]遺伝形式による絞り込み


既知の変異(dbSNP132)は、SNPのデータベースに登録されている変異です。データベースは、重大な疾患のない人々から収録されているため、登録されている変異は重篤な症状をもたらす変異ではないと考えられます。疾患関連変異の探索では除外します。
アレル頻度が高い変異は、1000人ゲノムプロジェクトにおけるアレル頻度が5%より高い変異としました。これも、既知の変異と同様の理由で除外します。
クオリティが低い変異とは、マッピングの結果から変異を検出する際に、カバレージやクオリティなど、経験的に正しい変異が多く含まれている条件に該当しない変異のことです。GATKを用いてその情報を変異に付与して、信頼性の低い変異を除外しました。
タンパク質に与える影響が低い変異の除外には、snpEffを使用しました。snpEffはよく使われるSNV/SNPのアノテーションプログラムです。SNV/SNPがタンパク質に与える影響の大きさを予測し、“High”, “Moderate”, “Low”, “Modifier”のいずれかをアノテーションします。このうち、“Low”, “Modifier”とアノテーションされた変異は重篤な症状をもたらしにくいとして除外しました。
最後に、遺伝形式による絞り込みを行っています。罹患者の両親がいずれもLCAを発症していないことから、この家系のLCAの原因変異は劣性遺伝していると考えられます。そこで、両親においてはヘテロ、罹患者においてはホモの変異を抜き出しました。



ステップの紹介に終始してしまいましたが、今回はここまでにします。
次回は上記の[1][2]にあたる、公開データベースを用いた絞り込みの、実際の結果をお見せします。

変異の絞り込み 【4】公開データベースを用いた候補の絞り込み
変異の絞り込み 【4.5】訂正とお詫び
変異の絞り込み 【5】変異のクオリティとインパクト
変異の絞り込み 【6】遺伝型による絞り込み
| kubo | 次世代シーケンサー解析 | 18:16 | comments(0) | - |
バイオインフォマティシャン養成プログラム開講のお知らせ
ライフサイエンスを学ぶ学生(学部生・修士課程)の方を対象に、バイオインフォマティシャン養成プログラムを開催いたします。
必修科目では、バイオインフォマティクスの基本となるLinux操作や、プログラミング言語perlを用いた簡単なプログラミングを学びます。
さらに選択科目を通して、より実践的な解析手法を学ぶことができます。
みなさまの研究を効率よく行うためのスキルアップをサポートいたします。

■カリキュラム
・8月1日、2日、3日、8日、9日、10日の計6日間で開講します
・1日に1コマ90分の講義を2〜3コマ行います
・解析の基本から実践的な内容までトレーニングを行います

■科目・価格一覧


■お申込み方法
参加をご希望の方は、弊社ホームページのお問い合わせより、次の項目をご記入の上、お申し込みください。
(1) お名前(よみがな)
(2) 現住所
(3) 連絡先 
(4) 学校名、学部名、専攻名など

詳細は弊社ホームページでもご覧いただけます。
| akb | スクール | 15:12 | comments(0) | - |
 123456
78910111213
14151617181920
21222324252627
28293031   
<< July 2013 >>

このページの先頭へ