アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
1000 人ゲノムプロジェクトJPT データの活用
 皆様、こんにちは。detです。今回は、前回までの1000人ゲノムプロジェクトJPTデータの解析からは少し離れまして、日本人の全ゲノムシーケンスデータに関する解析についてご紹介いたします。

 2012年7月31日に慶応大の富田先生の全ゲノムが 日本DNAデータバンク(DDBJ) で公開されました。シーケンスは、Beijing Genomics Institute(BGI) によって Illumina HiSeq 2000を用いて行われ、合計1,079,459,974リードが得られています。今回は、この日本人全ゲノムデータを弊社製の Reseq パイプラインで解析した結果をご紹介いたします。解析の流れは、本連載の前の記事「1000 人ゲノムプロジェクトJPT データの活用◆でご紹介したものと同じです。それでは、データのクリーニング(QC)結果を見ていきたいと思います。



 上にQC結果を纏めました。このように、幾つかのステップを経て精度の低いリードを削除することで、以降の解析精度を保証することができます。データによっては、この段階でかなりの数のリードが削除されてしまうこともありますが、今回は 99.97 % のリード(1,079,147,434 リード)を残すことができました。この結果は実験の精度が高く、綺麗なリードであったことを示しています。このQC処理には弊社製のツールであるQCleanerを利用しています。
 次回は、マッピングや多型検出の結果についてご紹介いたします。

-----関連記事-----
1000 人ゲノムプロジェクトJPT データの活用
1000 人ゲノムプロジェクトJPT データの活用
1000 人ゲノムプロジェクトJPT データの活用
1000 人ゲノムプロジェクトJPT データの活用
1000 人ゲノムプロジェクトJPT データの活用
| deda | 次世代シーケンサー解析 | 18:00 | comments(0) | trackbacks(0) |
BEDフォーマット完全解説
BEDフォーマットはゲノム上のポジションを示すのに使われているフォーマットで、遺伝子や結合部位などを示すのに広く使われています。
元々はUCSC Genome Browserで使われていたフォーマットですが、最近は様々な解析ソフトウェアでも読み書きできるようです。

BEDフォーマットは最大12列からなるフォーマットで、最初の3列が必須です。
後半は使わないことも多いのですが、知っていると、UCSC Genome Browserにカスタムトラックを作る際に便利です。
今日はBEDフォーマットについて詳しく解説したいと思います。

(1)chrom:染色体名(chr1など)
(2)chromStart:スタート位置(数値)
 0スタート(染色体の左端を0と数える)である点にご注意ください。
 他のフォーマット(例えばVCF)には1スタートのものもあります。
 フォーマット間の変換の際は気を付けましょう。
(3)chromEnd:エンド位置(数値)

---↑この3列は必須。この3列だけのものをbed3と呼びます。

 bed3の例:chr1 0 100
 =染色体chr1の先頭から100bpの領域を指す

 項目間はタブかスペースで区切ります。

(4)name:名前(文字列)
 遺伝子名や任意の文字列を指定します。特に必要ない場合は空文字列を入れます。
(5)score:スコア(0-1000の間の数値)
 遺伝子らしさ(新規遺伝子候補の場合など)や類似度(比較ゲノムの場合など)など、0-1000間の数値を何でも入れることができます。特に必要ない場合は一律で0などを入れます。
 UCSC Genome Browserでは、スコアに応じて濃淡をつけることができます。その場合、BEDファイルの先頭に次の1行を記載します(nameやdescriptionは適当な文字列に変更してください)。
 
track name=myTrack1 description="myTrack1 score" useScore=1


(6)strand:ストランド(+ または -)
 ゲノム配列に対して5'→3'の向きなら+、3'→5'の向きなら-です。

---↑(1)-(6)まであるものをbed6と呼びます。

 bed6の例:chr1 1000 2000 foo 100 -
 =染色体chr1の1000塩基目から2000塩基目にゲノムと逆向きである、スコア100の「foo」という領域を指す


(7)thickStart:CDSの開始位置(数値)
(8)thickEnd:CDSの終了位置(数値)
 UCSC Genome Browser上で、(7)-(8)の領域は太い線で表示されます。数値的に(2)<=(7)<(8)<=(3)になっていないと怒られます。
 元々はCDS用の列ですが、遺伝子以外のデータの場合で、部分領域を強調するのに使えます。

(9)itemRgb:色をRGBで指定(数値,数値,数値)
 これは完全にUCSC Genome Browserで表示するためだけの情報なので、他のソフトウェアで開く場合には関係ないことが多いです。使わない場合は0などを入れておきます。
 例えば赤で表示したい場合はここを「255,0,0」とし、BEDの先頭にTrack行をつけ、itemRgb Onと指定します。
track name=myTrack1 description="myTrack1 with color" itemRgb="On"


(10)blockCount:エキソンのブロック数(数値)
(11)blockSizes:ブロックサイズ(数値をコンマ区切りで)
(12)blockStarts:エキソンの「転写開始位置からみた」スタート位置(数値をコンマ区切りで)

---↑(1)-(12)まであるものをbed12と呼びます。

 bed12の例:chr1 100 300 bar 0 + 110 220 0 2 30,60, 10,60,
 =転写領域が「chr1:100-300」、1つ目のエキソンが「chr1:110-140」、2つ目のエキソンが「chr1:160-220」である遺伝子「bar」を示す


以上、ちょっと細かいBEDフォーマットのお話でした。
itemRgbやスコアによる濃淡を使うと、カラフルなトラックを使うことができますよ!

【参考】UCSC Genome BrowserのHelp

| hat | ゲノムブラウザ | 16:42 | comments(5) | trackbacks(0) |
スクールDay4
tokunagaです。

前回スクールDay3の演習では実際に2つのツールをインストールして動かしていただきました。
PATHの概念やシンボリックリンクなど、最初はなかなか理解しづらい箇所がありましたが、実戦を通しておわかりいただけましたでしょうか?
前回のツールのインストール手順を理解していただければ、おそらく大体のツールに対応することが出来るのではないかと思います。

Day4からは、次世代シーケンサーデータのテストデータを用いて解析の流れに沿って様々なツールを使用していきます。コマンドラインでツールを実行する時のポイントを押さえていただきたいと思っております。
今週土曜日もよろしくお願いいたします。
浜松町までお気を付けてお越しくださいませ。

また、次回のバイオインフォマティクス勉強会の第一部では「はじめてのLinux〜コンパウンドヘテロを探してみよう〜」というテーマで便利なLinuxコマンドの簡単なご紹介などをさせていただく予定です。

Linuxとはどのようなものか、どのようなことが出来るのか知りたいという方、またはLinux基礎を受けてみたいけど迷われている方などいらっしゃいましたら、次回勉強会にお越しいただけると幸いです。

皆様にお会いできますことを楽しみにしております。
| tokunaga | スクール | 09:02 | comments(0) | trackbacks(0) |
Linux基礎 短期コース in 神戸 開講のご案内
このたび弊社では大変ご要望が多かった『Linux基礎 短期コース』
3月期を神戸会場にて開講いたします。

座学と実践を組み合わせた実習形式で、次世代シーケンスデータの解析方法を
基礎から学ぶことができる内容となっております。
ご検討いただけましたら幸いです。

■Linux基礎 短期コース
2時間×5回の講義を2日間で学ぶコースです。
■開催日 : 3月12日 10:00〜12:00、13:30〜15:30、15:45〜17:45
       3月13日 10:00〜12:00、13:30〜15:30
■会場   : 神戸会場

詳細は、こちらからお問い合わせください。

よろしくお願い申し上げます。
| akb | スクール | 14:18 | comments(0) | trackbacks(0) |
1000 人ゲノムプロジェクトJPT データの活用
 皆様、こんにちは。detです。前回に引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。

 今回は、1000人ゲノムJPTサンプルのデータ解析結果から得られたアレル頻度分布と、他の人種におけるアレル頻度分布を比較した結果をご紹介いたします。比較には、1000 genome project が公開している下記のデータを利用しました。
1092サンプルの多型情報をまとめたVCFファイル
 このデータには人種毎のアレル頻度も記載されているため、今回の比較において有用であると判断しました。それでは、比較した結果を下の図に示します。
 
 濃い青色の線が、弊社で解析した1000人ゲノムJPTサンプルのアレル頻度分布であり、それ以外の線が公開VCFファイルの人種毎のアレル頻度分布になります。JPTとEast Asians(※)の分布が、他の人種に比べて比較的似ているのが分かります。つまり、欧米人とアジア人ではリファレンスゲノム上での多型の分布や、頻度が異なる可能性が高いことが分かります。このことは、日本人ゲノムのデータ解析をする際に、日本人のリファレンスゲノムに基づいたデータ解析が必要であることを示しているのかもしれません。

※East Asiansに含まれる人種:CHB(Han Chinese in Bejing), JPT(Japanese in Tokyo), CHS(Southern Han Chinese)

 次回からは、1000人ゲノムから少し離れて、日本人全ゲノムシーケンスデータ(慶応大冨田先生のデータ)の解析についてご紹介いたします。

-----関連記事-----
1000 人ゲノムプロジェクトJPT データの活用
1000 人ゲノムプロジェクトJPT データの活用
1000 人ゲノムプロジェクトJPT データの活用
1000 人ゲノムプロジェクトJPT データの活用
| deda | 次世代シーケンサー解析 | 13:40 | comments(0) | trackbacks(0) |
プレゼンの技術
akbです。
本日は書籍のご紹介です。

小室淑恵の即効プレゼン術
小室淑恵の即効プレゼン術
小室 淑恵

著者の小室淑恵さんは株式会社ワーク・ライフバランスの代表取締役社長として活躍されています。以前、弊社のブログにてご紹介させていただきました「なぜ、あの部門は「残業なし」で「好成績」なのか? 6時に帰る チーム術」の著者としても有名です。
社会人になって人前で発表する機会が増えました。
上手なプレゼンテーションを拝聴することも大切ですが、体系的にプレゼン技術について学べないかと思っていた矢先、この書籍に出会いました。
本書は、全ページカラーで、実践で使えるテクニックが41例も、図解と実例を合わせて具体的に記載されています。
また「あの社員のプレゼンスライドが見たい」というコラムでは、実際にビジネスで使われたスライドが参考として記載されています。
一度読んだだけでは習得できないほど豊富な内容が盛り込まれています。
発表をする機会が多い方は、ぜひ手に取ってみてください。
| akb | 書籍の紹介 | 17:23 | comments(0) | trackbacks(0) |
これ、なんて読みますか
ゲノム解析の定番ソフトウェアに「Picard」というのがあります。
私はずっと「ピ・カード」と呼んでいましたが
学会などでは「ピカール」と呼ばれるのをよく聞きます。
正式には「ピカール」なんでしょうか?

マイクロRNAのデータベース「miRBase」も、
私はずっと「ミルベース」と呼んでいたのですが
「ミベース」と呼ばれることが多いことを最近知りました。

この他にも私が勝手な呼び方をしているものがありそうです。
いくつかのバイオインフォマティクス用語の私の読み方を書いてみました。
「それは間違っている」「こう呼ぶのが公式」
「自分はこう呼んでいる」というのがありましたら教えてください。

FASTA「ファスタ」
FASTQ「ファスト・キュー」
VCF「ブイ・シー・エフ」
BWA「ビー・ダブリュ・エー」
Bowtie「ボタイ」
SOAP「ソプ」
GATK「ジー・エー・ティー・ケー」
IGV「アイー・ジー・ブイ」
Exon「エソン」

この中で、一番意見が分かれ、結論が出ていないのが
Exon(エキソン/エクソン)だと思います。

ちなみに私が「エキソン」派なのは、
「キ」のほうがmRNAがシャープにスプライシングされる
感じが伝わると思うからです。

みなさんはどちら派でしょうか?
| hat | バイオインフォマティクス | 15:04 | comments(0) | trackbacks(0) |
Rでアノテーション付け
tokunagaです。

これまでにVCFtoolsを使ったVCFファイルの加工や比較の方法をご紹介しました。
VCFtools
VCFtools
今回はVCFファイルに関するRパッケージをご紹介いたします。

VariantAnnotation

Bioconductorのパッケージです。
VCFフォーマットのファイルを入力することができ、変異の概要やアミノ酸の変化、またはSIFTやPolypenスコアなどのアノテーション情報を見ることができます。
マニュアルには比較的分かりやすい使用手順が記載されています。

機会がありましたらまた詳しい情報を載せたいと思います。

まだR初心者ですが、Rには色んな便利なパッケージがありますので、しっかり勉強してご紹介いていきたいと思っております。
| tokunaga | バイオインフォマティクス | 07:50 | comments(0) | trackbacks(0) |
1000 人ゲノムプロジェクトJPT データの活用
 皆様、こんにちは。detです。前回に引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。

 前回は1000人ゲノムJPTサンプルのデータ解析から得られた、88人の多型情報をまとめたVCFファイルについてご紹介いたしました。本日の記事では、今回の解析で得られた多型情報と、IlluminaのSNPジェノタイピングチップ(Omni 2.5 chip)で読まれたJPTサンプルの多型情報を比較することで、SNVの検出精度を明らかにする方法についてご紹介します。この Omni 2.5 chip は1000人ゲノムプロジェクトで検出された多型情報を基に設計されているため、今回の評価に用いるchipとして有用であると考えられます。
 まず最初に、1000人ゲノムJPTサンプルと、Omni 2.5 chip の両方に含まれるサンプルを二つ選びます。次に、Omni 2.5 chipによるSNV検出結果と、弊社での reseqパイプラインを用いた1000人ゲノムJPTのSNV検出結果が一致する割合を解析します。この結果から解析の信頼性が議論できると考えられます。現在、さらなる精度の向上に向けて、ブラッシュアップを行っております。

 次回は人種間で解析結果を比較した結果をご紹介いたします。

-----関連記事-----
1000 人ゲノムプロジェクトJPT データの活用
1000 人ゲノムプロジェクトJPT データの活用
1000 人ゲノムプロジェクトJPT データの活用
| deda | 次世代シーケンサー解析 | 18:44 | comments(0) | trackbacks(0) |
「産業交流展2012」
2012年11月20日(火)〜22日(木)の3日間、東京ビックサイトにて
「産業交流展2012」が開催されます。
今回の「産業交流展2012」には、弊社が入居させていただいている
「東京ライフサイエンスインキュベーションセンター(TLIC)」が出展されます。
アメリエフは11月20日(火)にTLICの出展コーナーの一間をおかりして宣伝させていただきます。
皆さまのご来場をお待ち申し上げます。

■ 産業交流展2012ホームページ
http://www.sangyo-koryuten.jp/

■ 弊社参加日程
2012年 11月 20日(火)10:00 〜 17:00

■入場料
無料

■ 会場
東京ビッグサイト 東2・3ホール
東京都江東区有明3-11-1
詳細:http://www.tokyo-bigsight.co.jp/index.html


■ ご紹介内容
弊社で開講しているバイオインフォマティクス・スクールをご紹介いたします。
皆様の研究の一助となれますよう努めて参りますので、是非とも足をお運びください。
| akb | 学会出展 | 12:00 | comments(0) | trackbacks(0) |
マインドマップを描きたくなる本
ふだん使いのマインドマップ 描くだけで毎日がハッピーになる
ふだん使いのマインドマップ 描くだけで毎日がハッピーになる
矢嶋美由希

マインドマップをご存知ですか?

中央にテーマの絵を描き、思いついた単語を放射状に伸ばしていく、思考整理法の一つです。

この本は公式マインドマップインストラクターである著者が、
「マインドマップをとりあえず描いてみよう、楽しいよ」
ということを伝えるために書いた本です。

「運動会の感想」「読書感想」「買い物リスト」といった身近な例がたくさん載っていて、マインドマップの描き方がよく理解でき、自分でも描いてみたくなります。

この本を読んだ日曜日の朝、早速「今日の予定」をマインドマップにしてみました。
休日はいろいろやりたいと思いつつ、だらだら過ごしてしまうことが多いのですが、マインドマップを描いてみたら
「意外とやることが少ないな」
「とりあえずこれをやってしまおう」
という気になり、普段よりだらだらせずに過ごすことができました。

描いている途中で思いがけないアイデアが出てくるのが面白く、脳のすみずみまで洗い出される感じが味わえます。

マインドマップを見ると描いた時の気持ちを思い出せるので、思考内容のメモリダンプに使うこともできそうです。

仕事のTODOや問題整理などに使ってみたいと思います。
| hat | よもやま話 | 15:58 | comments(2) | trackbacks(0) |
PBSIM
tokunagaです。
本日はBioinfomaticsで気になる記事を見つけましたのでご紹介いたします。

Bioinformatics. 2012 Nov 4
PBSIM: PacBio reads simulator–toward accurate genome assembly
Ono Y, Asai K, Hamada M


PacBioのシーケンサーから出力されるリードの特徴としてCLR(長いがエラー率の高いリード)とCCS(短いがエラー率の低いリード)があるそうです。その特徴を考慮し、model-basedとsampling-based methodというアルゴリズムを使ってゲノムのアセンブルを行うシュミレーターについての記事です。

以下のサイトからLinux用にコンパイル済みのツールとソースコードがダウンロードできます。
http://code.google.com/p/pbsim/downloads/list

もしご興味のある方は試してみてはいかがでしょうか?
また、気になるツールを見つけましたらご紹介いたします。
| tokunaga | バイオインフォマティクス | 16:11 | comments(0) | trackbacks(0) |
【バイオインフォマティクス勉強会】SNPデータ解析入門
12月15日(土)に開かれる第19回バイオインフォマティクス勉強会のご案内です。
今回の勉強会は下記の2部構成で開講させていただきます。

第一部:「はじめてのLinux〜コンパウンドヘテロを探してみよう〜」
第二部:「SNPデータ解析入門」

第一部はLinuxの超入門編です。基本的なコマンド操作の方法をご紹介いたします。
第二部では、タイリングアレイ(Microarray)や次世代シーケンサー(NGS)により得られたSNPタイピング情報から、GWAS解析や連鎖解析などの遺伝統計解析の実践につきまして、ご紹介させていただきます。
また、PLINKなどのフリーの解析ツールや実際のコマンドもご紹介させていただきます。

              記
日時: 2012年12月15日(土) 14:45〜17:00
場所:東京ライフサイエンスインキュベーションセンター会議室A
   (東京都立産業貿易センター 浜松町館6階)
地図:http://tlic.incubation-center.com/access.htm
定員:24名


プロジェクターで投影しながら進行していきます。ノートPCの持ち込みは可能ですが、ネット環境の準備はございません。

今回の勉強会はUstreamにてライブ配信いたします。

公開予定の映像への映り込み等の可能性につきましては、予めご理解頂いた上でのご参加をお願い致します。
音声と資料のみの配信となりますが、遠方のため勉強会へ参加できない方は、ぜひご覧ください。
URLはこちらになります。

http://www.ustream.tv/channel/amelieff
※Chromeブラウザにて動作確認を行っております。その他のブラウザをご利用の場合、正しく動作しない可能性があります。あらかじめご了承ください。
また、勉強会後に懇親会を開きたいとおもいます。毎回、勉強会以上に盛り上がっておりますので、ぜひ懇親会への参加をご検討ください。予算は4,000円(予定)です。
参加をご希望の方は、お問い合わせページにてお早めにお申し込みください。
第一部(14:45〜15:15) ○
第二部(15:30〜17:00) ○
懇親会(17:30〜) ○

※解析経験をお持ちの方は、第二部からの参加をおすすめいたします。
みなさまとお会いできることを楽しみにしています。ご意見・ご質問・リクエスト等ございましたら、遠慮無くご連絡ください。
| akb | 勉強会 | 16:00 | comments(0) | trackbacks(0) |
アメリカ人類遺伝学会に来ています
山口です。

米国サンフランシスコで開催されている、
アメリカ人類遺伝学会(ASHG)に参加しています。

特にブースなどを出展したり、発表があるわけではありませんが、
勉強のために来ています。

初めての参加でしたが、約7000人の参加者があるそうで、
日本の人類遺伝学会とは1桁規模が大きいので、驚くことばかりです。

研究発表も、SNPによるGWASはもちろん、
半分以上がWhole Exome Sequence (WES)やWhole Genome Sequence (WGS)になっていて、
研究規模の大きさや発展スピードの速さが目立ちます。

「我々もがんばらなければ!」と奮い立っています。

山口

ASHG 52nd Annual Conference
| 社長 | バイオ | 18:14 | comments(0) | trackbacks(0) |
<新規開講>「Linux基礎」短期コース
「短期間で修了したい」「平日に開催してほしい」
というご要望にお応えしました。

☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆
 バイオインフォマティクス・スクール「Linux基礎」に
 短期コースを開講します!
☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆

■開催日: 2013年2月7・8日(2日間)
■会場 : 浜松町会場

これまで日程がネックで参加が難しかったみなさまも
ぜひご検討ください。

通常の、土曜日午後に開催するコースも2月期から開講します。
こちらは全5回です。

詳細はスクールのページをご覧ください。

★お知らせ★
分子生物学会会場にて会社説明会を開催する予定です。
日程や場所など詳細が決まりましたら
ブログとホームページでご案内させていただきます。
| hat | スクール | 16:56 | comments(0) | trackbacks(0) |
1000 人ゲノムプロジェクトJPT データの活用
 皆様、こんにちは。detです。前回に引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。

 前回は88人の1000ゲノムJPTサンプルに対して、Reseq パイプラインでデータ解析した結果から、リードのクリーニング結果とマッピング結果をご紹介しました。今回は、得られた88サンプルの多型情報を一つにまとめたVCFファイルについてご紹介いたします。(VCFとは多型情報のフォーマットの一つで、超高速シーケンサーのデータ解析に用いられています。詳細は過去のこちらの記事を参照ください。)

 VCFファイルは横長のため、部分毎に説明します。下の図は、VCFファイルの先頭部分になります。染色体(Chr)と位置情報(Pos)から始まり、ID、リファレンスの塩基、ALTアリル(ALT)の塩基、クオリティになります。



ALTが複数の場合は、カンマで区切って表示されます。またクオリティ情報はサンプル間の平均値になっています。次は、下の図に示すようにフィルタリング結果と、インフォメーションが続きます。



どのフィルターに引っ掛かったか、PASSしたかが分かります。インフォメーション行に関する説明は過去の記事をご参照ください。今回の解析ではインフォメーション行の最後に以下の図に示す、FreqALTallelsとNumbersの項目を追加しています。



FreqALTallelsは全サンプル中のALTの頻度、NumbersはALTをもっていたサンプル数を示します。最後に以下の図に示すように、各サンプル毎の多型情報が記されます。



フォーマットに続いて、サンプル毎に情報が記されます。GTで表現されるのがジェノタイプで、0/0がリファレンスのホモ、0/1がALTのヘテロ、1/1がALTのホモを表します。ALTが複数の場合は、1/2や、0/2などの表記になります。
 以上、今回の解析で得られたVCFファイルについてご紹介しました。次回は、結果の信頼性などを見ていきたいと思います。


-----関連記事-----
1000 人ゲノムプロジェクトJPT データの活用
1000 人ゲノムプロジェクトJPT データの活用
| deda | 次世代シーケンサー解析 | 11:40 | comments(0) | trackbacks(0) |
インフルエンザ
hatです。

先日、インフルエンザの予防接種を受けてきました。
今年のワクチンには以下の3株が入っているそうです。
一番上のH1N1は2009年にパンデミック(世界的な大流行)を引き起こした株です。

・A/カリフォルニア/7/2009(H1N1)
・A/ビクトリア/361/2011(H3N2)
・B/ウィスコンシン/1/2010

気を付けたいのは、あくまでも予防接種は「感染した時に症状が軽く済む」ためのもので、「感染を防ぐ」ものではない点です。
数年前、軽い風邪だと思って普通に出勤してインフルエンザをばらまいてしまったことがありました。
気を付けたいと思います。

インフルエンザねたということで、Cleveland Clinic Journal Medicine最新号に載っていた以下の記事をご紹介します。

Jin XW, Mossad SB.
2012-2013 Influenza update: Hitting a rapidly moving target.
Cleve Clin J Med. 2012 Nov;79(11):777-84. doi: 10.3949/ccjm.79a.12151.


豚インフルエンザウイルス(H3N2v)や鳥インフルエンザウイルス(H5N1)がパンデミックを引き起こす可能性があることが前から言われています。

また、オセルタミビル(商品名:タミフル)に耐性のあるH1N1株がオーストラリアで見つかっており、早急にオセルタミビル耐性株に対する新しい薬が求められている状況です。
ちなみに、ザナミビル(商品名:リレンザ)は比較的、耐性株ができにくいらしいです。

これらのうち、今年のワクチンが効くのはH1N1だけで、H3N2vやH5N1には効かないそうです。

ということは、結局は日々の手洗いうがいや体調管理が大事で、予防接種を受けたからと言って安心せず、かかったかなと思ったらすぐ病院へ行ったほうがいいということだと思います。

みなさま体に気を付けて寒い冬を乗り切りましょう!
| hat | よもやま話 | 14:48 | comments(0) | trackbacks(0) |
VCFtools
tokunagaです。

本日は以前ご紹介したVCFtoolsでちょっと気になっていたコマンドを調べましたのでご紹介したいと思います。
vcf-compareというVCFファイル同士の簡単な比較を行ってくれるコマンドです。

前回ご紹介したように前処理としてVCFファイルをbgzipで圧縮して、tabixでインデックスを付けた後、以下のコマンドを実行します。
vcf-compare A.vcf.gz B.vcf.gz

実行すると以下のような情報が標準出力で出てきます。
# This file was generated by vcf-compare.
# The command line was: vcf-compare(r731) A.vcf.gz B.vcf.gz
#
#VN 'Venn-Diagram Numbers'. Use `grep ^VN | cut -f 2-` to extract this part.
#VN The columns are:
#VN 1 .. number of sites unique to this particular combination of files
#VN 2- .. combination of files and space-separated number, a fraction of sites in the file
#2サンプル間で位置情報が共通していたSNV/Indel数と割合
VN 106845 A.vcf.gz (39.2%) B.vcf.gz (44.3%) 
#Bに特有なSNV/Indel数と割合
VN 134310 B.vcf.gz (55.7%) 
#Aに特有なSNV/Indel数と割合
VN 165380 A.vcf.gz (60.8%) 
#SN Summary Numbers. Use `grep ^SN | cut -f 2-` to extract this part.
#位置情報が共通し、且つREFの塩基が一致した数
SN Number of REF matches: 106339 
#ALTの塩基が一致した数
SN Number of ALT matches: 105653 
#REFの塩基が一致しなかった数
SN Number of REF mismatches: 506 
#ALTの塩基が一致しなかった数
SN Number of ALT mismatches: 686 
#遺伝子型を比較したサンプル数
SN Number of samples in GT comparison: 0 
# Number of sites lost due to grouping (e.g. duplicate sites): lost, %lost, read, reported, file
#位置情報が重複し除外されたSNV/Indelや割合
SN Number of lost sites: 157 0.1% 272382 272225 A.vcf.gz 
#位置情報が重複し除外されたSNV/Indelや割合
SN Number of lost sites: 167 0.1% 241322 241155 B.vcf.gz 

2サンプル以上でも実行することが可能です。
今回はデフォルトで実行しましたがオプションも結構な数あるようです。
とりあえずVCFファイルを大まかに比較したい場合には便利かもしれません。

また、機会がありましたら他のコマンドもご紹介したいと思います。
| tokunaga | バイオインフォマティクス | 12:26 | comments(0) | trackbacks(0) |
1000 人ゲノムプロジェクトJPT データの活用
皆様、こんにちは。detです。
akbさんに引き続きまして、1000人ゲノムプロジェクトJPTデータの解析に関する記事を書かせていただきます。
前回の記事の目的に従いまして、今回は、1000人ゲノムのデータベースに含まれる100程度の日本人サンプルから88サンプルを選び、解析対象としました。解析の流れは、以下のようになっています。

1.リードのクリーニング: QCleaner(弊社製ツール)
2.マッピング・カバレッジ集計: bwa、samtools、picard
3.リアライメント・SNV/Indel検出: GATK
4.アノテーション付け: QuickAnnotator(弊社製ツール)
5.snpEff: SNV情報の付与


QCleanerの詳細につきましては、こちらのSlideShareをぜひご覧ください。またQuickAnnotatorに関しましては、弊社HPに説明がございます。
またこれらの一連のデータ解析は、弊社製のReseq パイプラインを用いる事で簡単に実行することができます。

では、解析結果を紹介していきたいと思います。まずは、リードクリーニングの結果です。



最初の2行ではクリーニング前のファイルサイズとリード数が記してあります。サイズにはかなり幅があります。またそれ以降は、クリーニング後の結果です。かなり綺麗なリードから、クオリティの低いリードまで、様々なリードがJPTサンプルに含まれていることが分かります。次にマッピング結果について以下の表に示します。



SNV数の最大値は Whole Genome Sequence のデータ、最小値は Target reseq のデータの結果です。
次回は、VCFファイルの詳細についてみていきたいと思います。
| deda | 次世代シーケンサー解析 | 18:35 | comments(0) | trackbacks(0) |
1000 人ゲノムプロジェクトJPT データの活用
akbです。
「日本人類遺伝学会 第57回大会」に出展いたしました。
弊社のポスター発表、ならびにブースまで足を運んでくださった皆さま方に、この場をかりて厚く御礼申し上げます。

本日から「日本人類遺伝学会 第57回大会」で発表させていただいたポスター内容の連載を開始いたします。
タイトルは『超高速シーケンサーを用いた疾患関連遺伝子探索のデータ解析と今後の展望-1000 人ゲノムプロジェクトJPT データの活用-』です。
日本人のゲノムデータを重点的に収集して解析することは、個別医療の実現や臨床研究の促進に有用であると考えられます。
そこで弊社では、1000ゲノムプロジェクトのデータから全てのJPT(Japanese in Tokyo)サンプルを抽出し、Illuminaのシーケンサーを用いてペアエンドでシーケンスされた88サンプルにおけるアリル頻度の算出を行いました。
<JPT88サンプルの内訳>
Whole Genome Sequence(WGS): 29
Whole exome Sequence(WXS): 35
Target reseq: 24
さらに、慶應義塾大学 環境情報学部の冨田勝 教授の全ゲノムシーケンスデータとの比較も行いました。
今回の解析には、弊社で開発した超高速シーケンスデータ解析サーバを使用しております。

解析の詳細を本日より複数回に渡って連載していきますので、連載終了までご覧いただけましたら幸いです。
| akb | 次世代シーケンサー解析 | 13:06 | comments(0) | trackbacks(0) |
MITで生物学を学びなおす
私は生物学出身なのですが、学生時代は生物の「行動」に興味があり、分子生物学はあまり身を入れて勉強していませんでした。

そのつけがたたり、バイオインフォマティクスのお仕事をさせていただくようになった当初はわからないことだらけでした。
この業界に入れていただいて随分たった今でも「なんとなくわかった気になっているけど本当はよくわかっていないこと」がたくさんあります。

最近、改めてきちんと分子生物学を勉強しなくてはいけないなと反省し、以下の本を購入しました。

カラー図解 アメリカ版 大学生物学の教科書 第3巻 分子生物学 (ブルーバックス)
カラー図解 アメリカ版 大学生物学の教科書 第3巻 分子生物学 (ブルーバックス)
石崎 泰樹,丸山 敬,吉河 歩,浅井 将

この本は、マサチューセッツ工科大学の一般教養の生物学講義で使われている教科書「LIFE」から、抜粋して翻訳したシリーズの第三巻です。
内容はシグナル伝達・発生・免疫などで、最近の話題も盛り込まれています(訳注でIPS細胞についても触れられています)。

いいなと思ったのは次の2点です。

・図やグラフが多く、直感的にわかりやすい
・導入がうまく、内容に入りやすい

「導入がうまい」点ですが、シグナル伝達の導入として「コーヒーの話」、組み換えDNAの章の導入として「行方不明だった赤ちゃんが見つかった時に自称・親が何人も名乗り出てきた話」が使われていて、読み物としても楽しめる内容になっています。

私のように分子生物学をコソ勉したい方におすすめです。

第一巻は細胞生物学、第二巻は分子生物学ですが、そちらもぜひ読んでみたいと思いました。

| hat | 書籍の紹介 | 12:15 | comments(2) | trackbacks(0) |
    123
45678910
11121314151617
18192021222324
252627282930 
<< November 2012 >>

このページの先頭へ