今さら聞けない プロテオミクスの基礎
プロテオミクスの基礎事項をまとめました。各種教育セミナーなどのために用意した資料も順次公開していく予定です。
目次
・プロテオミクス関連の出来事
・ペプチドを測る
・ショットガン分析
・エレクトロスプレーイオン化法
・生成イオン(プロダクトイオン)スペクトルの例
・生成イオン(プロダクトイオン)スペクトルの例
・修飾ペプチドの回収: リン酸化ペプチドの場合
・修飾ペプチドの回収: 選択回収の効果
・プロテオミクスで使われている質量分析計
・ボトムアップとトップダウン
・LC-MS/MSデータの二次元表示
・検出強度の再現性
・非標識法と標識法
・同位体原子の導入
・標識法の考え方
・非標識法と標識法の比較
・配列データベース検索の構成要素
・配列データベース検索の考え方
・Target-Decoy検索の原理
・Decoy配列の作り方
・Target-Decoy検索の結果
プロテオミクス関連の出来事
物事の全体を俯瞰するにはまず歴史から、ということで、プロテオミクス関連のおもな出来事を年代順に並べてみました(図)。「Proteomics」の語が初めて現れたのは1994年なのですが、現在使われている基幹技術のいくつかはこの年以前に開発されたので前史も重要です。2000年以降に国際組織の設立や専門誌の創刊が続いています。
プロテオミクス年表
プロテオミクス史の関連では、プロテオミクス以前を含めたおもなタンパク質分析の技術を他サイトで紹介したことがあります。
新技術最前線 新薬開発を目指す人へ【第5回】
プロテオーム分析技術の変遷 すべての分析は自動化に通ず
この寄稿は各技術の自動化に主眼を置きました。併せてご覧ください。
2017年11月14日掲載; 2023年7月10日更新
ペプチドを測る
プロテオミクスの質量分析では、ほとんどの全ての場合でペプチド断片の混合物を直接の測定試料とします。このことを単純な絵で示しました。
プロテオミクスの質量分析ではペプチドの混合物を測定試料とする
電気泳動でバンドとして展開される単一のタンパク質はもちろんのこと、細胞溶解液のように千種類を優に超えるタンパク質混合物でも基本は同じです。つまり、基質特異性の高いタンパク質分解酵素(おもにトリプシン)を添加して試料タンパク質を短鎖のペプチドにします。こうして得られたペプチド混合物を質量分析計に導入します。プロテオミクス技術のセントラルドグマと言ってよいほど受け入れられている手順であり、この手順を使って現在までに多くの成果が挙がっていることは皆さんもご存知の通りです。
個々のタンパク質分子は、大きさ、電荷、溶媒への溶けやすさなどの性質が実にさまざまです。こういった分子群をそのまま特定の分析システム(この場合はLC-MS/MS)で網羅的に分離検出するのはたいへんですが、タンパク質としてどんな厄介な特性をもっていたとしても、そのアミノ酸配列の中には分析しやすい領域もいくらか含んでいることが期待できます。ペプチドに断片化する理由を少し乱暴に説明するとこんなふうになります。それでも、もともと複雑なタンパク質の組成をさらに面倒なことにしている感は否めません。実際に、ある特定のペプチド同定の情報が複数のタンパク質にまたがって帰属する例や、タンパク質あたりの各修飾体の種類が求めにくくなるなどのため、分析の現場ではデータの解釈に慎重になります。
一方で、タンパク質を分解することなくそのままLC-MS/MSに導入する方法も実用化に向けて研究が進められています。このアプローチは「トップダウンプロテオミクス」と呼ばれていて、質量分析計の性能の向上が大きく貢献しています。上に述べたプロテオミクスの常識も早晩過去のものになってしまうかもしれません。
2018年1月13日掲載
ショットガン分析
続いてペプチドの質量測定です。ペプチド混合物は、微流速の液体クロマトグラフにタンデム質量分析計が接続した分析システム (LC-MS/MS) に導入されます。
ショットガン分析の模式図
上図ではデータ依存的取得法 (Data-dependent acquisition, DDA) の様子を示しました。質量分析計内では2つの測定モードでそれぞれイオン化ペプチド群の質量スペクトルとプロダクトイオンの質量スペクトルを取得します。測定中は両走査が高速で切り替わり、たとえば前者1回の直後に後者の走査が10回連続で続くような編成を取ります。開裂反応に供するイオン化ペプチドを各イオンの検出強度に応じて(データ依存的に)自動選択するためにこの名 (DDA) があります。なお、イオン化ペプチド単位で選択せずに、設定したm/z幅に収まるイオンをm/zをずらしながら一斉に開裂反応に供する走査モードも開発されています。このデータ非依存的取得法 (Data-independent acquisition, DIA) は、DDAよりもプロテオームの同定網羅性が高い測定法として有力です。
2022年5月11日更新
エレクトロスプレーイオン化法
エレクトロスプレーは、LCとMS/MSのインターフェースとしてプロテオミクスに限らず広範に使われているイオン化法です。
エレクトロスプレーイオン化法 (ESI) の原理
2018年10月23日掲載
生成イオン(プロダクトイオン)スペクトルの例
リン酸化ペプチドとその非修飾体のプロダクトイオンスペクトル
2018年10月23日掲載
生成イオン(プロダクトイオン)スペクトルの例
ユビキチンン化ペプチドのプロダクトイオンスペクトル
2018年10月23日掲載
修飾ペプチドの回収: リン酸化ペプチドの場合
2018年10月23日掲載
修飾ペプチドの回収: 選択回収の効果
2018年10月23日掲載
プロテオミクスで使われている質量分析計
質量分析部による分類
現在のプロテオミクスでは様々な型式の質量分析計が使われています。上図では質量分析部に注目して質量分離の原理を3種類に分類しました。たとえば、サーモフィッシャーサイエンティフィック社のOrbitrap質量分析計は、この中のイオントラップ型に含まれます。2つ以上の原理を組み合わせたハイブリッドタイプの機器も上市されているので、実際の分類はこんな単純ではありません。ともあれ、各々の研究の目的に適った質量分析計を選択することが肝要です(分析の網羅性を重視するか、それとも標的分子の定量分析か、など)。
2018年7月10日掲載; 2023年6月26日更新
ボトムアップとトップダウン
2018年10月23日掲載
LC-MS/MSデータの二次元表示
2018年10月23日掲載
検出強度の再現性
2018年10月23日掲載
非標識法と標識法
2018年10月23日掲載
同位体原子の導入
2018年10月23日掲載
標識法の考え方
2018年10月23日掲載
非標識法と標識法の比較
2018年10月23日掲載
配列データベースの構成要素
アミノ酸配列データベース検索(以下、「配列DB検索」)は、現在のプロテオミクスでもっとも頻繁に用いられているデータ解析手法です。配列DB検索に必要な要素を3点挙げます。
・タンデム質量分析 (MS/MS) データ: プロテオミクスではペプチド断片の測定データの一つです。MS/MSによって当該ペプチド断片のプロダクトイオンスペクトルを取得しますが、MS/MSデータはプロダクトイオンスペクトルだけでなく、前駆イオンのm/z値や価数の情報も含んだ呼称です。
・配列データベース検索ソフトウェア: 単に検索エンジンとも言います。MS/MSデータとアミノ酸配列情報を照合し両者の同一性の確率を数値化する機能を有します。マトリックスサイエンス社のMascotやサーモフィッシャーサイエンティフィック社のSEQUESTが古くから使われています。
・アミノ酸配列データベース(配列DB): タンパク質毎に列挙されたアミノ酸配列の情報です。UniProtなどの公共サイトから、ヒトやマウスなどの生物種単位でも自由に出力できます。
各要素を組み合わせた検索の原理はこの下の図を使って説明します。
2018年10月23日掲載; 2023年6月26日更新
配列データベース検索の考え方
配列データベース検索によるペプチド/タンパク質の同定
配列DB検索の原理を線対称型の図で表現しました。
図の左側はおもに「物質の流れ」です。分析対象試料から抽出・調製したタンパク質(群)を、特定のアミノ酸残基に作用するタンパク質分解酵素(プロテアーゼ)によってペプチド断片に分解します。続いて、ペプチド断片の混合物をLC-MS/MSに供し、個々のぺプチドからMS/MSデータを取得します。このあとは検索エンジンのピーク検出機能を使って、MS/MSデータ中のプロダクトイオンのm/zを数値情報として出力します(m/zの実測値)。
図の右側は情報処理です。配列DB内のタンパク質のアミノ酸配列情報を、試料調製に用いたプロテアーゼと同じ規則で分割します。分割してできたアミノ酸配列からはどんなm/z値のプロダクトイオンが出てくるか予想できます(m/zの理論値)。m/z理論値と上記の実測値との間で照合の度合いを数値化したうえで、各照合結果をもとのタンパク質に帰属していきます。以上のとおり、検索の中身を大雑把に追ってみました。
検索結果はタンパク質またはペプチド断片の同定一覧として出力します。分析の目的によって両者を使い分けます。例えば、ゲルバンドの同定などではタンパク質同定一覧の出力のみで足りることが多いです。リン酸化プロテオミクスのような翻訳後修飾の分析では、ペプチド同定の一覧表に記載されている情報を用いて各種データ解析をおこないます。
配列DB検索は、MS/MSデータに合うアミノ酸配列を配列DBから選択する手法です。したがって、検索に適用した配列DBに含まれていないアミノ酸配列はそもそも同定しようがありません(例外あり)。同定の取りこぼしを避けるためには、配列DBの選択と構成がたいへん重要です。たとえば、ヒト由来の培養細胞から網羅的なタンパク質同定一覧を取得したいときには、当然ながらヒト遺伝子約20,000件を検索の対象とします。試料の由来が複数の生物種にわたる場合は配列DBの方でも同じ組み合わせにするなど工夫します。ただし、配列DBの規模を必要以上に大きくすると偽同定(次項参照)の確率が上がってくるのでご注意ください。
もう一つの注意点として、同定結果、すなわちMS/MSデータとアミノ酸配列との照合の信頼性を挙げます。上図に示した通り、ペプチド断片の単位で各タンパク質を同定します。このとき同定一覧には必ずと言っていいほど間違いが含まれます(「偽同定」や「偽陽性ヒット」と言います)。間違う理由はMS/MSデータの貧弱さをはじめとしていくつかあるのですが、現在のプロテオミクスでは統計的な処理をしつつ一定程度の間違いを許容する方針が一般的です(後述)。
2018年7月10日掲載; 2023年6月27日更新
Target-Decoy検索の原理
2018年10月23日掲載
Decoy配列の作り方
2018年10月23日掲載
Target-Decoy検索の結果
2018年10月23日掲載