アメリエフのブログ

バイオインフォマティクスの紹介と社員の日々
楽しくコマンドを覚える・3
ファイルの各行を並び替えるにはsortコマンドを使います。

sortコマンドにはオプションがたくさんあります。
例えば、-nで数値としてソートしたり、-rで逆順にしたり、
-kで並び替えに使う列を指定したりできます。

また、大きいファイルをソートして途中で落ちてしまう場合、
-Tで中間ファイルを指定すると動くことがあります。
→過去の記事:「余裕が大事」

重複行をマージするuniqコマンドは、隣り合った行しかマージしません。
このため、uniqする前にはsortするとよいでしょう。
$ sort FILE | uniq

そんな大事なsortコマンドを忘れないよう、語呂合わせを考えました。

ソーット並び替え...

このだじゃれシリーズはまだ続きます。
| hat | システム | 14:55 | comments(0) | - |
楽しくコマンドを覚える・2
hatさんの「wc」コマンドに引き続き、「chown」コマンドの覚え方です。
「chown」はファイルやディレクトリの所有者を変更するLinuxコマンドです。次のように使います。

$ chown user:group FILE

これで、FILEの所有者と所属グループが変更されます。
chownコマンドの由来は、おそらく"change owner"ですが、できればもっと楽しく機能を覚えたいですよね。
そこで、次のダジャレを考えました。

所有者を変えまチョーン

これでいちいちman chownやchown --helpを実行してUsageを確認する
必要がなくなりましたね。よかったです。

※このシリーズはもう少し続く予定です。
| heshi | システム | 18:18 | comments(0) | - |
構造多型の検出原理2
前回に引き続き、今回は次世代シーケンサーを用いて構造多型(SV)を検出するもう一つの方法、Paired-end mappingを用いた方法についてご紹介します。

マップされなかったreadを用いていたSplit-read mappingと異なり、Paired-end mappingでは、マップされたものの、位置や向きがリファレンスと一致しなかったread(anomalously mapped read)を利用します。

たとえば、サンプル配列にinsertionがあると、対となるreadは本来ゲノム配列にマッピングされる距離よりも近距離にマップされます。Deletionがあった配列では逆に離れてマッピングされます。
paired-end mapping INDEL

また、inversionならreadの方向が逆になりますし、translocationならまったく離れた場所にマッピングされることもあります。
paired-end mapping OTHERS

この方法の長所としては、染色体間のtranslocationなど、split-read mappingを用いる方法に比べ多様なSVの検出が得意であることがあります。
欠点としてはbreakpointの精確な検出ができないこと、single-end readの解析は検出原理上不可能であることがあります。
また、もともと対となるread同士の距離にばらつきがあるため、小さなindelは検出できないことがあります。


次世代シーケンサを用いた構造多型(SV)の検出原理の説明はここまでです。
次回からはそれぞれの方法について、どのような構造多型検出ツールがあるのかご紹介します。
| kubo | 次世代シーケンサー解析 | 12:42 | comments(0) | - |
遺伝的アルゴリズム
「遺伝的アルゴリズム(以後GA)」とは、生物の進化を模倣した最適化アルゴリズムです。

「無数のルートの中から近道を探す」というような問題のように、複数の選択肢の中から最適なもの(解)を選択したいときがあります。そんなときは、最適化アルゴリズムの出番です。最適化アルゴリズムの中で、バイオ系研究者にも親しみやすいのがGAです。

個体群が、選択・交叉・突然変異によって環境条件に適応するように何世代にも渡って進化を繰り返すと、生き残った個体はものすごく優秀だと言えます。

GAの最初のプロセスとして、個体の表現方法と評価方法を考える必要があります。これらは解決したい事象によって工夫しなければならないものですが、「遺伝的」という名前の所以となるプロセスが以下の3つです。
・選択(淘汰):評価の高い親を選ぶ
・交叉:選ばれた親(ペア)から子供を生成する
・突然変異:任意の確率で突然変異を起こす

「遺伝的アルゴリズム」というネーミングについては、「遺伝的」というより「進化的」といった方がしっくりくる気もしますが、「進化的アルゴリズム」というものがGAの1つ上の階層に存在していて、GAは進化的アルゴリズムの一種なのだそうです。Wikipediaによると。

GAはRのパッケージとしても用意されているので、なにか最適化問題に直面したときは、どうぞ使ってみてください。
| heshi | システム | 17:08 | comments(0) | - |
楽しくコマンドを覚える・1
「wc」はファイルの行数、単語数、バイト数を表示するコマンドです。
次のように使います。

$ wc FILE
12 27 176 FILE


実行してはみたものの、どれが行数でどれが単語数かわからなく
なることはありませんか?ありますね!

あるいは、3つ目の数字が何を示すかど忘れしてしまうことは?
あるある!

そんなあなたのために、次の語呂合わせを考えました。

ワシ(wc)、ギョーザとワンタン作るバイ

これでいちいちman wcやwc --helpを実行してUsageを確認する
必要がなくなりましたね。よかったです。

※このシリーズはもう少し続く予定です。
| hat | システム | 16:15 | comments(0) | - |
来年の手帳
本屋さんに来年の手帳が並ぶようになりました。
いろいろなものがあって、見ているだけでも楽しいですね。

私はここ2年ほど、この手帳を使っています。
「超」整理手帳 スケジュール・シート スタンダード2014
「超」整理手帳 スケジュール・シート スタンダード2014
野口 悠紀雄

それまで手帳を買ってもひと月くらいで使わなくなっていたのが
これにしてからは、毎年最後まで使い切っています。
書くスペースの量がちょうど私に合っているようです。

横A4用紙を縦に四つ折りしたサイズのため、チケット類や、
印刷した紙が挟みやすいのも便利で、常に持ち歩いています。
おいしかったお店のレシートや映画の半券などを貼っているので、
見返すと思い出がよみがえります。

2014年版のリフィルを買いながら、来年も充実した年になると
いいなあと思いました。
| hat | よもやま話 | 13:13 | comments(0) | - |
野村監督の仕事哲学
B0039QM8CA
凡人を達人に変える77の心得


野村監督の初の電子書籍だそうです。自身の野球哲学をビジネスに応用し、ビジネスマンの心得としてまとめています。kindleだと価格もお手頃です。
77の心得のうち個人的に印象的だった一つは、「目上の人からほめられているうちは半人前」という章です。


レベルが低い状態では「無視」される。
少し可能性が出てきたときは「賞賛」される。
組織を支える存在になったときは「非難」される。


私は社会人になって日は浅いですが、非常に納得できました。学校の部活や研究室でも同じことがいえるからだと思います。

もし厳しい上司がいらしたら、それだけ期待されていると解釈すればいいのかもしれません。私はまだまだ賞賛も非難もされるレベルではありませんが(笑)

厳しくされて伸びる人も世の中にはいると思いますが、私は褒められて伸びたいです!
| heshi | 書籍の紹介 | 16:46 | comments(0) | - |
構造多型の検出原理1
構造多型(SV)を検出するためには、主にSplit-read mappingを用いた方法とPaired-end mappingを用いた方法があります。

まずSplit-read mappingを用いる方法からご説明します。
SVが存在するサンプル配列から得られたreadは、リファレンス配列にマッピングしても、配列が一致しないためマッピングされません。Split-read mappingを用いる方法では、このマッピングされなかったread(unmapped read)を使用してSVを検出します。
SVのbreakpoint(境界点)上にあるreadは、一部はリファレンス配列と一致していますが、SVのせいで残りは一致せず、マッピングされません。そこで、いったんreadを分割(split)して、リファレンス配列と一致するところのみをマップします。
その後、残った部分をリファレンス配列にマップします。残った部分がどのようにマップされたかによって、SVの種類を判断します。

Indelの例
Split-read(Indel)

その他のSVの例
Split-read(others)


Split-read mappingを用いる方法では、readの分割点がbreakpointにあたるため、精度よくbreakpointを検出できます。
また、図では分割したreadをマップするためにリファレンスにマップされた対のread(anchor read)を参考にしていますが、これを必要としない原理ではsingle-end readの解析も行えます。
ただ、多様なSVを検出するのは不得意なツールが多いようです。

次回で、もう一つの検出方法であるPaired-end mappingを用いる方法をご説明いたします。
| kubo | 次世代シーケンサー解析 | 15:14 | comments(0) | - |
Rで家系図描画
家系解析を行っている方は、家系図を描く機会が多いのでは
ないでしょうか。
kinship2というパッケージを使うと、Rで家系図を描くことができます。

(1)家系図情報ファイルの作成
以下の内容のテキストファイルを作成します。
id father mother sex name
1 0 0 1 Namihei
2 0 0 2 Fune
3 1 2 2 Sazae
4 1 2 1 Katsuo
5 1 2 2 Wakame
6 0 0 1 Masuo
7 6 3 1 Tarao
項目区切りは空白でもタブでもOKです。
idが一意なid、fatherが父のid、motherが母のid、sexが性別
(男性は1、女性は2)、nameが名前です。

(2)「kinship2」パッケージのインストール
> install.packages('kinship2')

(3)ファイル読み込み、家系図描画
>library(kinship2)
> df <- read.table('c:/Users/hat/Desktop/ped.txt', header=T)
# (1)のファイルを指定します
> ped <- pedigree(id=df$id, dadid=df$father, momid=df$mother, sex=df$sex)
> plot(ped, id=df$name)




さらに、疾患の有無や生死の情報も付加することができます。
詳細はkinship2のvignettesをご覧ください。
| hat | 統計解析ソフトR | 15:09 | comments(0) | - |
NBDCヒトデータベース運用開始
独立行政法人科学技術振興機構(JST)バイオサイエンスデータベースセンター(NBDC)が、ヒトデータに関するデータベースを共有するためのプラットフォームとして、「NBDCヒトデータベース」の運用を開始したそうです。

http://humandbs.biosciencedbc.jp/

公的資金を用いたプロジェクトで、ヒトを対象とした研究の成果として産生されたデータ(遺伝情報、臨床情報、画像情報など)を受け入れるそうです。
NGSデータは、DDBJのDRA(DDBJ Sequence Read Archive) / JGA(Japanese Genotype-phenotype Archive)へ格納することになると記載がありました。

データは大きく4つに分類されます。
1. オープンデータ
 すでに発表された論文の参照データなど。
2. 制限公開データ
 関連研究に従事したことのある研究者が使用できるデータなど。
3. 公開待機データ
 データ提供者による成果の公開の後、1あるいは2として公開される予定のデータなど。
4. 匿名化前・公開留保データ
 匿名化前のデータ。

データ提供者と利用者が守るべきセキュリティレベルが、データごとに異なるの点がポイントです。



利用可能な研究データはまだないようですが、順次公開されるそうです。
表現が異なる点もありますので、正確な内容はこちらをご覧ください。
| きむ | バイオインフォマティクス | 17:54 | comments(0) | - |
  12345
6789101112
13141516171819
20212223242526
2728293031  
<< October 2013 >>

このページの先頭へ