アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
神戸開講・バイオインフォマティクス・スクール追加募集行います
6/20(木)・21(金)、浜松町会場にてバイオインフォマティクス・スクール「R基礎バイオ統計」を開講しました。
統計解析パッケージ「R」を用いて初めて解析を行う方を対象に、Rを使うメリット、基本コマンドからマイクロアレイ解析など実践的な解析手法までを実習を交えてご紹介しました。

次回の開講は、7月18〜19日(神戸会場)です。
また、「Linux基礎」もお申込み受付中ですので、ぜひご検討ください。
追加募集を行う期間については、下記のとおりです。

追加募集を行う期間
Linux基礎:2013年6月21日(金)〜 7月5日(金)
R基礎バイオ統計:2013年6月27日(金)〜 7月12日(金)


受講前にソフトウェアの準備がございますので、ご検討中のみなさまはお早めにお申し込みください。

カリキュラムとお申込み方法はこちらからご確認いただけます。
リクエストやご質問などございましたら、お気軽にお問い合わせフォームよりご相談ください。
| akb | スクール | 18:44 | comments(0) | - |
テスト用Fastqファイルを作る
マッピングソフトウェアの性能比較をする際に、
正解がわかっているデータを使いたい場合があります。

そんな時に便利な、ゲノム配列からFastqファイルを作成できる
ArtificialFastqGeneratorというソフトウェアをご紹介します。

例えばヒトゲノムhg19から150bp Paired-EndのFastqを作成するには
以下のようなコマンドを実行します。
$ java -jar ArtificialFastqGenerator.jar -R hg19.fa -O OUTNAME -RCNF 2 -S ">chr1" -E ">" -RL 150

パラメータの意味です。
・-R:ゲノム配列のMultiFastaファイル
・-O:出力ファイル名
(この例では、OUTNANE.1.fastq, OUTNANE.2.fastqができます)
・-RCNF:N入り配列を許すか
(0:N入りを許す、1:全部Nの配列は除く、
 2:1つでもNが入っている配列は除く)
・-S、-E:-Rで指定したFastaのどの配列を使うか(この例ではchr1)
・-RL:リード長

エラーを入れたり、実際のFastqを参照してリアルなクオリティスコアを
入れたりすることもできます。

とても便利なソフトウェアです。
| hat | バイオインフォマティクス | 14:14 | comments(0) | - |
scp stalled
サーバー間で、データをやり取りするときによく使用するコマンドにscpがあります。
便利なコマンドなので、私も良く利用するのですが、コピーしている途中で転送速度が急激に低下し stalled という表記と共に、コピーがストップすることがあります。

原因としては、ネットワークの速度に問題がある場合が多いようですが、何度コピーを試みても落ちることもあり、なかなか不便です。

解決策がないものかと、ネットで調べていたのですが、[-l]オプションで転送速度の上限を指定すれば落ちにくくなるようです。

$ scp -l 5000 hoge.txt 192.168.0.0:/home/hoge

-l の後ろに指定する数字はKbit/s単位になります。私はこれで、落ちにくくなり、データを無事にコピーすることが出来ました。

stalledが出るときは、この方法を試してみるのもいいかもしれません。
| deda | システム | 14:55 | comments(0) | - |
プライマー設計、行います
akbです。

いつもブログをご覧いただきましてありがとうございます。
さて、右脇のバナーが新しくなったことにお気づきでしょうか。

プライマー設計受託サービスです。

大量設計にも対応しておりますので、プライマーの設計にお困りの方は、ぜひご検討ください。

また、リクエストやご質問などございましたら、お気軽にお問い合わせフォームよりご相談ください。
| akb | プライマー設計 | 15:59 | comments(0) | - |
変異の絞り込み 【2】 変異検出
変異の絞り込み 【1】論文紹介

前回は、exome sequencingによりある家系においてレーバー先天黒内障(LCA)を引き起こしている原因変異を特定した論文についてご紹介しました。
今回は、その論文で使用されたデータから、変異検出を行った結果についてご紹介いたします。


まず、論文で用いられたデータは公開されているので、DRAsearch に登録されているexome sequencingのfastqデータをダウンロードします。データはこちらです。
この家系は少し複雑な婚姻を繰り返しており、その最初の世代をI、次の世代をIIとし、罹患者の親世代が世代III、罹患者が世代IVにあたります。他のIV世代(罹患者の兄弟や従兄弟、非罹患者とLCA罹患者を含む)のデータも登録されていますが、今回の解析では罹患者とその父母のトリオのデータのみ使用することにします。トリオのうち、罹患者はIV-1(Accession numberはSRS344411)、母親はIII-4(同SRS344410)、父親はIII-5(同SRS344412)です。
Paired-end readなので、データは3サンプルについてそれぞれforward readとreverse readの2つずつ、合計6つダウンロードしました。


まず、各サンプルの変異を検出します。

【変異検出解析の流れ】
1.リードのクリーニング: QCleaner(弊社製ツール)
2.マッピング・カバレッジ集計: bwa、samtools、picard
3.リアライメント・SNV/Indel検出、クオリティフィルタの付与: GATK
4.snpEff: SNV情報の付与


リードクリーニングの結果はこちらです。
Pakistan-clean
III-4のforwardの塩基減少率が高く、あまりきれいなデータではないようです。
実際、III-4のforwardのFastQC結果を確認すると、こんな感じでした。
fastqc
(縦軸がリードのクオリティで、赤い部分はクオリティ20未満の塩基です)
今回の解析結果にはあまり影響ありませんでした。


マッピング結果、SNV/Indel検出結果はこちらです。
pakistan-map

ここから疾患関連遺伝子を絞り込むのは大変そうですね。


それでは、次回はいよいよ本題である、疾患関連変異候補の絞り込み手法についてご紹介します。

変異の絞り込み 【3】候補の絞り込み方
変異の絞り込み 【4】公開データベースを用いた候補の絞り込み
変異の絞り込み 【4.5】訂正とお詫び
変異の絞り込み 【5】変異のクオリティとインパクト
変異の絞り込み 【6】遺伝型による絞り込み
| kubo | 次世代シーケンサー解析 | 14:28 | comments(0) | - |
hg20
あまり梅雨らしくないこの6月、いかがお過ごしでしょうか。
今年も「あっ、数日前から明けてました」と後付けで梅雨明け宣言されて、なし崩し的に夏になる予感がしています。

私は四季の中で夏が一番好きなので、夏に向かいつつあるこの時期は毎年とてもわくわくします。
野山を駆けまわって遊んで、麦茶を飲んで汗だくで昼寝した、子供のころの夏休みを思い出すからでしょうか。
ひぐらしが鳴きだすと「夏が終わってしまう...」と寂しくなってしまいます。

今年の夏も、実家に帰って野山を駆け回ったり昼寝したりしたいと思います。

ですが、今年の夏の一番の楽しみといえば、なんといっても
hg20/GRCh38が出る
ということではないでしょうか。

hg19/GRCh37と比べてどれくらい変わっているのでしょうか?
ランダム配列がどのくらい減っているのでしょうか?!
楽しみです!
| hat | バイオインフォマティクス | 16:01 | comments(0) | - |
変異の絞り込み 【1】
今回は、次世代シーケンサーを用いて検出した変異の絞り込み解析の具体例についてご紹介したいと思います。


次世代シーケンサーを用いた解析の難点のひとつに、多数の変異が検出されるため、目的の疾患に関連した遺伝子の探索が困難であることが挙げられます。そのため、目的変異を絞り込む手法が重要になってきます。
今回は、公開データベース及び推測される遺伝形式を用いた絞り込みについてお話します。

こちらの論文は、次世代シーケンサーを用いてある家系のexome sequencingを行い、その家系における遺伝性疾患の関連変異を特定した、ひいては、他の家系でも、同じ遺伝子上に変異がある罹患者が存在していること、その遺伝子が疾患に関わっていることを突き止めたという論文です。

NMNAT1 mutations cause Leber congenital amaurosis
Nat Genet. 2012 September; 44(9): 1040–1045

簡単に内容をご紹介しますと、

・レーバー先天黒内障(LCA、幼児期に視力が減退する病気)罹患者が多く生まれる家系があった
・LCAの罹患者やその血縁者でexome sequencingを行った
・絞り込み:
 1. 罹患者ではホモだが、視力に異常がない両親や罹患者の兄弟ではホモではない変異
 2. 非同義置換が起きている変異(コドンが変化しアミノ酸に置換が生じている)
 3. 新規の変異(dbSNP132、1000人ゲノムプロジェクト、NHlBI ESPに未登録)
 4. マウスの網膜RNA-seqで発現量が高いことが知られている遺伝子上の変異
 5. SIFT、Polyphen他、アミノ酸置換がタンパク質に与える影響を調べるプログラムで、タンパク質の機能を損なうとされた変異
→その家系のLCA原因変異を特定

特定された変異は
・NMNAT1遺伝子上にある
・25番目のヌクレオチドがGからAに置換(アミノ酸一次配列の9番目のValがMetに置換)

この研究の公開データを用いて、変異検出および絞り込みを行い、論文で報告された疾患の原因変異がを探し出せるか試してみました。

次回から、その変異検出と、検出後の絞り込みを行う過程をご紹介しようと思います。

変異の絞り込み 【2】変異検出
変異の絞り込み 【3】候補の絞り込み方
変異の絞り込み 【4】公開データベースを用いた候補の絞り込み
変異の絞り込み 【4.5】訂正とお詫び
変異の絞り込み 【5】変異のクオリティとインパクト
変異の絞り込み 【6】遺伝型による絞り込み
| kubo | 次世代シーケンサー解析 | 14:58 | comments(0) | - |
English Website Open
Dear Customer,


We would like to inform you about our new English page at our website.

Amelieff is working on bioinformatics business and research support.
Our vision is to enable the field of bioinformatics to achieve an improved level of expertise in analysis & reporting.
We believe this can be achieved through the use of our tools & training.


If you are interested about us, please contact us using query form for more information or from our Facebook page.


Sincerely yours,

Amelieff Corporate
| kubo | 会社のこと | 13:32 | comments(0) | - |
「Linux基礎」6月期終了
6/6(木)・7(金)、浜松町会場にてバイオインフォマティクス・スクール
「Linux基礎」を開講しました。

Linux初心者の方を対象に、Linuxを使うメリット、基本コマンド、
ソフトウェアのインストールなどを実習を交えて学んでいただきました。

受講生の方たちからは、絶妙なタイミングで、的をついた
良い質問がたくさん出ました。

初めて端末からコマンドを入力する際、コマンドの後ろに
空白を入れ忘れる方が多いので、気を付けていただくために

ここで はきものをぬいでください
 と
ここでは きものをぬいでください
 では意味が変わりますよね!空白は大事なんですよ!

という小ネタを入れようと思っていたのですが、言おうとした矢先に
「コマンドの後の空白は入れないといけないのですか」
とご質問があり、そこでうっかり真面目に詳しく解答してしまったため、
秘蔵のこのネタはご披露できませんでした。
今後ぜひリベンジしたいと思います。

ちなみに「'Hi Jack!'と'Hijack!'は違いますよね?」という英語バージョンもあります。

バイオインフォマティクス・スクールの今後の開講スケジュールです。

・Linux基礎
【神戸会場】7月11日(木)〜12日(金)

・R基礎バイオ統計
【浜松町会場】6月20日(木)〜21日(金)
【神戸会場】7月18日(木)〜19日(金)

詳細は弊社HPをご覧ください。
| hat | スクール | 15:36 | comments(0) | - |
      1
2345678
9101112131415
16171819202122
23242526272829
30      
<< June 2013 >>

このページの先頭へ