アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
ご指摘ありがとうございます!(箱ひげ図)
箱ひげ図の概念に対し、ご指摘いただきました。
誠に申し訳ありません。訂正し、御詫び申し上げます。
またご指摘いただきまして、誠にありがとうございます。
下記に訂正、追加説明を行います。

箱ひげ図の概念図(訂正版)をFigure1に示します。


Figure1 箱ひげ図の概念図

御指摘がありましたように、 “ひげ”の上下末端は、“最大値”、“最小値”ではなく、それぞれ“(箱の長さ)×range(default=1.5)+第3四分位数 ”および“(箱の長さ)×range(default=1.5)-第1四分位数 ”を指します。

(ひげの定義は、書籍、参考資料によって異なります(上記の定義の他: “(箱の長さ)×range(default=1.5)+第3四分位数”内の最大数など)。そのため、上記の定義が絶対的に正しいとは申しません)

さらにRで箱ひげ図を作成する際にも何も指定することなく下記のようにコマンドを書きますと、ひげは記載されません(Figure 2)。

コマンド1
age <- c(22, 23, 24, 25, 40)
boxplot(age)


Figure2 コマンド1で作成した箱ひげ図

しかしboxplot()コマンドにはrangeというオプションがあります。こちらのrangeは、“箱の長さから何倍の場所にひげの長さを設定するか?”という意味となります。

rangeはdefaultでは1.5となっています。
そのため上記のコマンドの場合、第3四分位数=25であることから、ひげ上部の長さは、

(25-23)×1.5+25=28

となります。ageの変数内に28がないため、上のコマンドでは上のひげが表示されませんでした。

このオプションをrange=0とすると、ひげの上下は、数値データ群の“最大値”“最小値”を示します(Figure3)。

コマンド2
age <- c(22, 23, 24, 25, 40)
boxplot(age, range=0)


Figure3 コマンド2で作成した箱ひげ図


今回の御指摘、誠にありがとうございました。とても勉強になりました。
また不足の致すところがあれば、ご指摘いただけますと幸いです。
| | 統計解析ソフトR | 18:52 | comments(2) | trackbacks(0) |
中央値と箱ひげ図
昨日は、中央値について記述しました。
本日は、Rを用いた中央値の算出方法と箱ひげ図の作成について記述します。
よろしくお願いいたします。

例としまして
21歳, 23歳, 23歳, 25歳, 22歳, 60歳の方々の中央値を算出します。
中央値を算出する際は、median()というコマンドを用います。
age <- c(21, 23, 23, 25, 22, 60)
median(age)

→23(中央値です)

とても簡単に算出できました。

昨日も記述致しましたように、中央値を用いる時というのは、数値データの分布がskewed分布となる時です。せっかくだったら数値データの分布、ばらつきを見たい。
そんな時は、“箱ひげ図(box plot)”を作成します。


Figure 1 箱ひげ図概念

“箱ひげ図”の概念をFigure 1に示します。箱の中にある太線が中央値、箱の上下がそれぞれ数値データ内の3/4, 1/4位の値、そして箱から伸びている点線(これがひげ)がそれぞれ最大値、最小値を表します。
さっそくRで作成してみます。箱ひげ図は、boxplot()コマンドで作成する事ができます。
age <- c(21, 23, 23, 25, 22, 60)
age2 <- c(21, 23, 23, 25, 22)
boxplot(age, age2, names=c("with 60", "without 60"), boxwex=0.8, range=0)

今回は60歳の有無で比較してみました。上記の結果をFigure 2に示します。


Figure 2 年齢の箱ひげ図

“with 60”の箱ひげ図は、最大値が他の数値郡にたいして大きく離れています。このように箱ひげ図を用いる事で、数値データのばらつき具合を簡単に見る事ができます。

Rって便利(結局はソコ)。
| | 統計解析ソフトR | 17:59 | comments(2) | trackbacks(0) |
平均値じゃなく中央値!
本日は、中央値について記述します。
よろしくお願いいたします。

あるテレビ番組で、24歳、 22歳、 22歳、25歳の方々が出演していたとします。そこにゲストとして60歳の方が登場しました。そこで60歳の方が「自分が平均年齢を上げているなー!」と一言。こんなシーン見た事ありませんか?
平均というのは、“いくつかの数や量の中間的な値”という意味。中間的という事は、平均値の前後に同じ数だけ数値データが分布しているという事だと考えます。 今回の場合だと平均年齢は30.6歳となります。しかし・・・各年齢(数値データ)は、30.6歳前後に均等には存在せず、むしろ平均値より前に固まっています(Figure1 参照)。


Figure1 中央値の概念図

こんな時は、中央値を求めます。
中央値は、数値データの半分が上側に、半分が下側にある所の数値です。上記のように数値データが正規分布の形ではなく、Figure1のように歪んだデータ(skewed 分布)の際に、平均値の代わりに使用されます。
明日は、このRを用いて簡単に中央値を算出する方法を記述します。
| | バイオ | 18:26 | comments(0) | trackbacks(0) |
“1”の重み
“1違うということは、全く違う事だ”
上記の言葉は、幼少の頃、父親によく言われた言葉です。
その当時は、数学のテストなど紙面上のみの事だったのでよく意味を理解していませんでした。
今私は、統計のお仕事をさせていただいてます。集計結果が、“1”違うだけで大騒ぎです。
集計を始めからやり直し、確認しを繰り返します。その“1”が違うと、解析結果の信頼度が大きく異なります。
このような場面で、ふと上記の言葉を思い出しました。
肝に銘じないといけない言葉だと思います。
| | よもやま話 | 17:40 | comments(0) | trackbacks(0) |
「QuickGWAS Academic」バージョンアップしました
表題にありますように、遺伝統計解析ソフト「QuickGWAS Academic」がバージョンアップ(→1.2.3)しました。

フリーのGWASソフトである「PLINK」のWindows版ラッパーソフトである「QuickGWAS」シリーズですが、独自の機能として、統計解析パッケージ「R」を利用して、Q-Qプロットとマンハッタンプロットを描画する機能が実装されています。


しかし、この作図の機能を利用するため「make plot」ボタンを押すと、エラーとなりソフトが終了してしまうことがある、というバグが、ユーザー様よりご報告がありました。

この場を借りて、お礼申し上げます。


バグ修正の他にも、細かな機能改善も行っていますので、多くの方にご利用いただけましたら幸いです。
| 社長 | QuickGWAS | 23:50 | comments(0) | trackbacks(0) |
Rの参考書を御紹介します
最近久しぶりにRを書いています。
すごくウキウキします。

本日は、私が参考にしている書籍を紹介します。
Rによる画像表現とGUI操作 株式会社カットシステム
MATLABによるバイオ統計学 工学者

特に使用頻度が高いのは、“Rによる画像表現とGUI操作”です。
集計や統計解析は、グラフや図形で表す方が理解は早いと思います。Rは、コマンド一つで、いろいろなグラフや図形を描く事ができる言語です。
そのため、あのグラフで表したいな・・・・と思ったらすぐに上記の本を活用します。小難しい事が書いていないので、いざ!という時にとても便利です。
また使用しているコマンドや解析方法の理解をもっと深めたい!というときは、“MATLABによるバイオ統計学”の方がおススメです。式から説明してあるので、あいまいな理解ではなく、しっかり基礎から理解できると思います。
| | 書籍の紹介 | 18:26 | comments(1) | trackbacks(0) |
【バイオインフォマティクス勉強会】8/5(金)MiSeq入門
8月5日(金)に開かれるバイオインフォマティクス勉強会の御案内です。

今回の勉強会は、「MiSeq入門」と題しまして、イルミナ株式会社様の御協力のもと、2部構成とさせていただきました。

第1部「MiSeqの技術的な解説」(担当:イルミナ株式会社様)
第2部「MiSeqデータを用いた多型解析」(担当:アメリエフ株式会社)


デスクトップNGSであるMiSeq(イルミナ社)より得られたデータから、
多型情報(SNPやIndelなど)を抽出し、データ解析を行います。
多型情報を得るまでに必要なファイル操作、及びフリーの解析ツールを用いた操作を実際のコマンドも交えて御紹介させていただきます。

              記
日時:2011年8月5日(金) 16:00〜17:30(第1部:45分、第2部:45分)
場所:東京ライフサイエンスインキュベーションオフィス 会議室A
   (東京都立産業貿易センター 浜松町館6階)
地図:http://tlic.incubation-center.com/access.htm
定員:24名
会費:無料
※)前回と同様、申し込み締切前に満席となることが予想されますので、
  お早めのお申し込みをお願いいたします。

プロジェクターで投影しながら進行していきます。
ノートPCの持ち込みは可能ですが、ネット環境の準備はございません。

また例によって、勉強会後に懇親会を開きたいとおもいます。
毎回、勉強会以上に盛り上がっておりますので、ぜひ懇親会への参加をご検討ください。
予算は4,000円です。

どちらかの参加、もしくは両方の参加をご希望の方は、8/1(月)までにお問い合わせからお早めにご連絡ください。
その際は、下記のように表記していただきますと幸いでございます。
勉強会(16:00〜17:30)  ○
懇親会(18時〜)     ○

皆様とお会いできることを楽しみにしています。
| | 勉強会 | 17:12 | comments(0) | trackbacks(0) |
7/22(金)のバイオインフォマティクス勉強会を再度案内させていただきます!!
弊社初のバイオインフォマティクス勉強会@京都がいよいよ今週金曜日(7/22)に開催いたします。まだ空席もございますので、興味のある方は、ぜひご参加ください!!

テーマ:次世代シーケンサー(NGS)による多型解析入門
日時:2011年7月22日(金) 16:00〜17:30
※受付開始時間は15:50
場所:キャンパスプラザ京都 5階 第4演習室
地図:http://www.consortium.or.jp/contents_detail.php?frmId=585
定員:26名
テキスト代:お一人 1,000円(当日受付にてお支払いください)

お申し込みはコチラからお願いいたします。
| | 勉強会 | 17:43 | comments(0) | trackbacks(0) |
GWAS解析ソフト「QuickGWAS Academic」の不具合につきまして
GWAS解析ソフト「QuickGWAS Academic」をご利用いただきありがとうございます。

Windows XPにおきまして、「plink.exe」もしくは「Rscript.exe」のパス内に「スペース」を含む場合に、動作しない不具合を確認いたしました。

ご迷惑をおかけしておりますこと、お詫び申し上げます。
早急に修正版を公開いたしますので、もう少々お待ちください。

引き続き、「QuickGWAS Academic」をよろしくお願い申し上げます。
| 社長 | QuickGWAS | 09:43 | comments(0) | trackbacks(0) |
ありがとうございました!!
明日から3連休ですね。
皆様はどうお過ごしになる予定でしょうか?

今週は、国際ゲノム会議へ出展参加をしました。
わざわざ弊社の展示ブースまで足をお運びいただいた皆様、本当にありがとうございました。
今回の会議は、とても濃度の濃い学会だったという印象を受けました。
貴重な現場の御意見を直接聞くことができ、大変刺激的な日々を過ごすことができました。

また私ごとですが、外国の方とお話をさせていただける機会がありました。
ひさびさに英語で会話をすると、自分の英会話力がグッっと落ちていることに気づかされました。
やっぱりこういうものは、継続ですね・・・。
痛感いたしました。
これからは、独り言を英語で言います!!

最後になりましたが、展示ブースまで御来場いただいた皆様、重ねてお礼申し上げます。
ありがとうございました。
| | よもやま話 | 17:37 | comments(0) | trackbacks(0) |
元気を出さねば!
今日、国際ゲノム会議が終了しました!!
今回の会議で学んだこと
「元気に見えるよう努める」

周りの企業様の接客態度を見ていると、盛り上がっているブースの皆様は、イキイキと接してらっしゃいます。
ただ立っているだけでも、オーラが“とても元気です!”という感じで、お客様も話かけやすいように思いました。
それは、その方の出展してらっしゃる商品への誇りやそれに対する知識を持っているという自信から来るオーラなのではないかなと感じました。
私も、ニコニコしているだけではなくて、もっと勉強して自信をつけて、お客様にもっと元気に見えるように努めます!!
元気を出さねば!!
| | よもやま話 | 17:59 | comments(0) | trackbacks(0) |
遺伝子には何ができないか
キムです。
最近読んだ本のご紹介です。
遺伝子には何ができないか
Lenny Moss (原著)

著者は、生化学と哲学の博士。
2004年に書かれた本なので、近年得られた科学的知見を踏まえて、ぜひ改訂版をと望む一冊。
| きむ | 書籍の紹介 | 09:46 | comments(0) | trackbacks(0) |
「第9回国際ゲノム会議」出展のご案内
アメリエフ株式会社は、2011年7月12日(火)〜14日(木)に一橋記念講堂で開催される、「第9回国際ゲノム会議」に出展いたします。
皆さまのご来場をお待ち申し上げます。

■ 学会名
第9回国際ゲノム会議
ホームページ:http://gt164.jpn.org/9agw/jp/

■ 開催期間
2011 年6 月12 日(火) 〜14 日(木)

■ 会場
学術総合センター
〒101-0003 東京都千代田区一ツ橋2丁目1番2
Tel:03-4212-6321
ホームページ:http://www.zam.go.jp/i00/i0000000.htm

■ 展示内容
・次世代シーケンサーを用いた解析のご案内
・SNP、CNV、メチル化解析のご紹介

| きむ | 学会出展 | 16:46 | comments(2) | trackbacks(0) |
国際ゲノム会議に行ってきます
本日は、明日から開催される“第9回 国際ゲノム会議”の出展準備に行ってきます。
荷物の受け取りから展示までを行います。
多くのお客様に足を停めていただけるように、心をこめて展示準備をします!!
国際ゲノム会議につきましては、コチラを御参照下さい。
開催期間は、2011年7月12日-14日です。
会場で皆様に会える事を楽しみにしております。
| | 学会出展 | 14:26 | comments(0) | trackbacks(0) |
夏といえば!
最近鼻血がよく出るタノです。
先日Rスクリプトを作成するためのツール“Tinn-R”を紹介しました(参照)。
本日は、“Tinn-R”とRを用いてちょっと簡単なグラフ作成をしてみたいと思います。
よろしくお願いします。

突然ですが、夏といえば・・・・ダイエット!!をする方が多いですよね。私もその一人ですが、ダイエットの際に体重を管理するグラフがあればとても便利だと思います。
エクセルでも可能ではありますが、本日はRで作成します。
まず、エクセルで下図の様なcsvファイル(体重表)を作成します。今回はカロリーも入れてみました。


そして、“Tinn-R”を起動し、下記のようにスクリプトを作成します。
rm(list=ls())
graphics.off()

# read csv file
X <- read.table("weight.csv", sep=",", header=TRUE)

par(mai=c(1,1,1,1))
plot(X$Day, X$Weight, xlim=c(1,30), ylim=c(40,70), type="l", col="red", xlab="Day/day", ylab="Weight/kg")
par(new=TRUE)

plot(X$Day, X$Calorie, xlim=c(1,30), ylim=c(800,2500), type="l", col="blue", xlab="Day/day", ylab="", axes=FALSE)

axis(4)
mtext("Calories/kcal", side=4, line=2)

↓詳細はこちらをクリック♪


このスクリプトファイルを”weight.r”として適当な場所に保存し、Rで読み込みます(source()コマンドです)。
そうすると・・・・


これで、摂取カロリーと体重増加の関係がわかります!

Rは、plot()などのようにコマンド一つで、いろいろなグラフや図形を描く事ができます。
ですので、データ同士の相違や関連性を見るのに適している言語だと思います。
今回は、2つのデータを比較しましたが、もっと多くの情報も一度に比較する事ができるんですよ!!
一度、試してみてはいかがでしょうか
| | 統計解析ソフトR | 19:46 | comments(0) | trackbacks(0) |
【バイオインフォマティクス勉強会】7/22(金)NGSによる多型解析入門@京都
7月22日(金)に「京都で」開かれるバイオインフォマティクス勉強会のご案内です。
なお、こちらは6/25(土)の勉強会とほぼ同一の内容となりますので、
関西方面でご興味のある方々にご転送いただけましたら幸いです。

テーマは、「次世代シーケンサー(NGS)による多型解析入門」です。

ExomeやWhole-genomeなどのResequencingをNGSで行ったデータから、
多型情報(SNPやIndelなど)を抽出し、データ解析を行います。
フリーの解析ツールや実際のコマンドもご紹介させていただきます。

              記
日時: 2011年7月22日(金) 16:00〜17:30
場所:キャンパスプラザ京都 5階 第4演習室
地図:http://csvr15.consortium.or.jp/campusplaza/access.html
定員:26名
テキスト代:お一人 1,000円(当日受付にてお支払いください)

プロジェクターで投影しながら進行していきます。
ノートPCの持ち込みは可能ですが、ネット環境の準備はございません。


また例によって、勉強会後に懇親会を開きたいとおもいます。
毎回、勉強会以上に盛り上がっておりますので、ぜひ懇親会への参加をご検討ください。
予算は4,000円です。

どちらかの参加、もしくは両方の参加をご希望の方は、
7/20(水)までにお申し込みをお願いいたします。

勉強会(16:00〜17:30)   ○
懇親会(18時〜)     ○

みなさまとお会いできることを楽しみにしています。

アメリエフ株式会社
代表取締役社長 山口 昌雄
| 社長 | 勉強会 | 09:34 | comments(0) | trackbacks(0) |
ワシントンナショナルギャラリー展
きむです。
暑い日が続きますが、皆さまお元気でしょうか。

先日、国立新美術館で開催される「ワシントン・ナショナル・ギャラリー展 印象派・ポスト印象派 奇跡のコレクション」に行きました。
ワシントン・ナショナル・ギャラリーは、市民の寄贈で成り立っており「アメリカ市民が創った奇跡のコレクション」とも言われています。建物が改装中ということで、作品の大量貸し出しが実現したとか。
写真やチューブ絵具の登場で、絵画ならではの表現が模索された時代の代表的なコレクションがズラリ!!
こんなに見ごたえのある展覧会は久しぶりでした。

ちなみに、7月7日(木)夕方4時30分以降にペアで来場した先着77組に、七夕記念としてポストカードをプレゼントしてくれるそうですよ。

【参考URL】
■公式サイト
http://www.ntv.co.jp/washington/
■Art inn美術館携帯サイト
http://www.art-inn.jp/tokushu/003158.html

| きむ | よもやま話 | 14:31 | comments(0) | trackbacks(0) |
Rでスクリプトを書くときは!!
こんにちは。
本日より、R漬けの日々を過ごします、タノです。
学生時代にやっていたとはいえ、大量のデータに四苦八苦しております。というわけで、本日は、私が愛用しているRスクリプトを書くためのR code editor、“Tinn-R”を紹介します。
Tinn-Rは、R言語用のメモ帳の様なもので、“.r”というファイルを作成する事が可能です。
例えば、Tinn-R上に下記のスクリプトを書き、“example.r”というファイルを作成します。

# Clear workspace
rm(list=ls())
# A little game
cat("Let's play a little game..¥n¥n")

# Set a number (can use a random generator later..)
k = 54
LP = 1
while (LP == 1) {
cat("¥nPick a number between 1 and 100!¥n")
cat("Selection: ")
choice = scan("",integer(0),nlines=1) # Waits for user input
if (choice == k) { # START FIRST IF
cat("¥nCORRECT!! Well done!!¥n")
LP = 0
} else {
if (choice < 1 | choice > 100) { # START SECOND IF
cat("¥nI SAID BETWEEN 1 AND 100!!!! TRY AGAIN!!¥n")
} else {
cat("¥nWRONG!!! Try again!¥n")
}
}
}


次にR(Rのインストール方法はコチラ)を起動し、ファイル→ディレクトリの変更から“example.r”の保存先にディレクトリーを設定します。
そしてsource("example.r")とコマンドを打ちます。
すると・・・・・楽しいゲームの始まりです!!!

Tinn-Rを使用することで、コマンドの確認が可能となり、スクリプトも見易くなると思います。
お試しください!

Tinn-Rは、コチラのサイトの“Tinn-R, edit code and run it in R”からダウンロードしてください。
| | 統計解析ソフトR | 20:08 | comments(1) | trackbacks(0) |
国際ゲノム会議の開催が近づいてきました
弊社が出展させていただく“第9回 国際ゲノム会議”がいよいよ来週に開催されます。
この様な学会に参加させていただくと、普段なかなか聞く事が出来ないお客様の要望を直に聞けるため、とても貴重な時間を過ごす事が出来ます。
現在、展示に向けて準備中です。キムさんありがとうございます!

国際ゲノム会議はコチラを御参照ください。開催期間は、2011年7月12-14日です。
会場で皆様に会える事を楽しみにしております。
| | 学会出展 | 19:26 | comments(0) | trackbacks(0) |
貴重な存在
本日は、金曜日ですね。最近1週間があっという間に過ぎているように感じます。充実しているからでしょうか。
私事ですが、明日は、学生時代の先輩方との飲み会に参加します。先輩方は、みなさん分野をまたがって研究を推進されていらっしゃいます。
今回のような飲み会の席でも研究のお話がよく出ますが、様々な方面の考え方を駆使し、アイデアを出されていらっしゃるのが伝わります。そんな先輩方の話についていくのは、時として困難な場合があります。その際に、先輩後輩という近い存在であるからこそ「それはどういうことですか?」と素直に聞けるというのは、とても貴重な事だと感じます。なぜならそこから、研究者の裏話や新しいアイデアのヒント、さらには生き方のヒントさえも頂ける事が多いからです。
いろいろな知識を持っていらっしゃる先輩方の言葉は、何気ない言葉でさえ、ひとつひとつに重みを感じ、心に響きます。そしてそういう方々は、本当に人間としての厚みを感じます。
私も彼らのように偏った知識のみではなく、横断的な知識や考え方を身につけていこうと飲み会の際に毎度思います。明日も刺激的な飲み会を希望しています!
| | よもやま話 | 17:11 | comments(0) | trackbacks(0) |
     12
3456789
10111213141516
17181920212223
24252627282930
31      
<< July 2011 >>

このページの先頭へ