計算生物学演習（２００９年度後期）

大学院博士前期課程：計算生物学演習（２００９年度後期）

第１回：プログラミングと統計解析（１）

２１世紀はオミックスの時代
　２１世紀の生命科学分野では、今までにこの分野が遭遇したことがない大量のデータを生みだす技術が利用されている。この技術が産出するデータを正しく解析することで、新しい生命現象が見えてくることが期待されている。このような大量データ解析は、生命科学のさまざまな分野に広がっている。ゲノム解析の総合解析は、ゲノミクス（genomics）、転写産物の総合解析はトランスクリプトミクス（transcriptomics）、タンパク質の総合解析はプロテオミクス（proteomics）、代謝物の総合解析はメタボロミクス（metabolomics）、細胞中の糖の総合解析はグライコミクス（glycomics）、脂質の総合解析はリピドミクス（lipidomics）、分子の細胞内局在の総合解析はローカリゾミクス（localizomics）、表現型の総合解析はフェノミクス（phenomics）とよばれ、これらの総称を、その名称の語尾を取ってオミックス研究とよぶ（例えばnature reviews: molecular cell biology vol. 7 198-210, 2006を参照）。ゲノム塩基配列読み取り後に明らかになってきた多種のＲＮＡ分子の存在は、この技術の成果であろう。

大量データは統計的に振る舞う
　大量データを解釈する際には、従来分子生物学で用いられてきた解釈の方法をそのまま用いることが場合が多々ある。例えば、従来の分子生物学では、ゲル電気泳動法を利用して、ひとつのタンパク質の発現をバンドの有無を目視すること測定していた。しかし大量にデータがある場合には、ひとつひとつ見ながら解釈することは現実的ではない。細胞を構成する分子は統計的な振る舞いをしているで、大量のデータを統計的に解釈することで意味がある量を取り出せるはずである。細胞を構成する全タンパク質の振る舞いを時間を追って測定することは、有楽町駅前の交差点で、群衆が信号の変化にしたがって、どのように動いているかを測定していることと類似である。個々のタンパク質（ヒト）の動きではなく全体でどのように動いているかを知ることで、システム（細胞）の振る舞いを理解する必要がある。個々のタンパク質（ヒト）は時には、変な動きをしているかもしれないが、全体の流れの中でとらえると、その動きには意味がないことがわかる。このような解析が大量データ解析には必要になって来るであろう。

大量データから意味のある量を取り出す（仮説検定）
　従来の分子生物学においても、バンドの有無を測定することで、ある同一遺伝子由来のタンパク質集団の有無を測定していた。１個のタンパク質の有無をではなく集団として同一遺伝子由来のタンパク質が存在するかを測定していた。大量データ測定では、バンドの有無をたくさんのタンパク質で同時に測定し、それらを量的に比較しようとしている。タンパク質の発現量には統計的なふらつきがあるので、発現量の差が統計的なふらつきよりも大きいのか小さいのかを知る必要がある。統計的なふらつきよりも大きければ、タンパク質の発現量に有意な違いがあり、その原因を一生懸命考えることは大切になる。統計的なふらつきよりも小さければ、その発現量の差は偶然発生したと考えられる。

大量データからルールを見つけて未来を予測する（推定、回帰分析）
　大量データを解析すると、データの振る舞いがわかってくるようになる。どの量とどの量に意味がある相関があるのかなどが見えてくる。例えば、ある遺伝子群の発現はpHに依存しているとか、あるアミノ酸配列のパターンはタンパク質の特別な部分構造を形成している場合が多いなど。測定事実（経験）を積み重ねることで関係を見いだすことができれば、データがどのような振る舞いをするかが予測できるようになる。つまりまだ測定していない現象がどのような振る舞いをするかが予測できるようになる。様々なデータの間の関係を見つけ出すことは大切であることがわかる。

統計解析
　上記のことは、データの統計解析によって明らかにできる。近年のコンピュータの発達は、大量データの統計解析をいとも簡単に実行できる慣用を生みだしており、誰でもがかなり複雑な統計解析をできるようになった。しかし表計算ソフトウエアで得られる結果を解釈するのはヒトであり、出てきた数値の意味がわからなければ、解釈のしようがない。統計解析がどのような理屈で行われているかを知ることの重要性があがっていると言える。統計解析の裏にはかなりややこしい理論がある場合が多く、純粋に数学だけで理解していくことは容易なことではない。またそこまでの厳密な理解が必要な場面は限られているであろう。実地的な理解を求めるのであれば、自らで統計解析用のプログラムを作成し、プログラミングの過程で、どのような計算が実際に行われているのかを体感するのが一番よいであろう。

pythonを使って統計計算を勉強する
　プログラムの作り方ではなく、プログラミングをしながら統計解析の基礎的なことを学ぶのであるならば、できるだけ簡単なプログラミング言語を使うべきである。この演習授業では、pythonというプログラミング言語を用いる。自然言語と同じでプログラミング言語にはルール（文法）があり、それを覚えないと利用することができない。pythonは他のプログラミング言語と比較してルールが非常に少ない。ルールが非常に少ないので簡単に利用することができる。それにもかかわらずかなり複雑な処理も可能であり、pythonによる大きなプログラムや、pythonを用いてWebツールを開発することもできる。この言語は世界中で使われており、インターネット上には様々なプログラムが公開されているので、そのプログラムをもらって、自分のやりたい解析用に改良して利用することもできる。ゲノム塩基配列はアミノ酸配列を解析するためにプログラム群も存在するし、タンパク質の動的構造を解析するためにプログラム群も存在する。Pythonの使い方がわかれば、統計計算のみならず、生体高分子の解析もできるようになる。

Go back to the top page