メタアナリシスとは？・フォレストプロットやI²（異質性）の見方をわかりやすく解説

医療従事者のためのやさしい読み方ガイド

臨床の現場で論文を読んでいると、こんな一文に目が止まることがあります。

「メタアナリシスの結果、〇〇は有効であることが示された」

エビデンスレベルのピラミッドでは、メタアナリシスは最上位に位置づけられることが多く、「この治療法はメタアナリシスで支持されている」という言葉は、臨床判断に大きな影響を与えます。

しかし、立ち止まって考えてみてください。メタアナリシスは本当に無条件で信用してよいのでしょうか？フォレストプロットに並ぶ横棒とダイヤモンドは何を意味しているのでしょうか？ I² = 72% という数字はどう解釈すればよいのでしょうか？

この記事では、統計の専門家でなくても「メタアナリシスを読める」ようになるための考え方を、ひとつひとつ丁寧に整理していきます。

なお、研究の集め方や評価方法など、システマティックレビューそのものの方法論については「システマティックレビューとは？」で詳しく解説しています。

メタアナリシスとは？
なぜメタアナリシスは「最上位エビデンス」と言われるのか
システマティックレビューとメタアナリシスの違い
メタアナリシスの基本的な流れ
フォレストプロットの読み方
効果量の種類
異質性とモデル選択
1. 異質性（I²）とは
2. 固定効果モデル vs 変量効果モデル
バイアスとファンネルプロット
1. バイアス評価
2. ファンネルプロット
発展的内容（感度分析・サブグループ解析・ネットワークメタアナリシス）
1. 感度分析・サブグループ解析
  1. 感度分析
  2. サブグループ解析
2. ネットワークメタアナリシス
メタアナリシスを読むときのチェックリスト
PRISMAと「良いメタアナリシス」の見分け方
まとめ
メタアナリシスに関連する記事

メタアナリシスとは？

メタアナリシスとは、一言で表現すれば「同一のリサーチクエスチョンに対して行われた複数の研究を、統計で1つに統合・再解析する手法」です。

医学・医療の世界では、日々膨大な研究論文が発表されています。しかし、個々の研究（一次研究）に目を向けると、割り当てられた患者数が数十人程度にとどまる小規模なものが少なくありません。特に、対象となる患者数が限られる希少疾患や、個別性の高い介入が行われるリハビリテーション分野などにおいては、単一の研究で十分なサンプルサイズ（対象者数）を確保することは極めて困難です。

サンプルサイズが小さい研究は、偶然の要素や個体差による影響を受けやすく、結果に大きなばらつきが生じます。ある研究では「効果あり」とされた治療法が、別の研究では「有意差なし」となるような現象は、臨床研究において珍しくありません。

そこで、これらの分散している小規模な研究を「もしもこれらが、1つの大規模な共同研究であったら」という仮定のもと、数学的に合算するのがメタアナリシスです。

なぜメタアナリシスは「最上位エビデンス」と言われるのか

医療にかかわる職業の人であれば、以下のようなエビデンスピラミッドを一度は見たことがあるかもしれません。
メタアナリシスはエビデンスピラミッドの中でも非常に上位に位置しています。それはなぜでしょうか？

前述のように、メタアナリシスとは複数の研究を収集し、それぞれの結果を統計的に統合して1つの結論を導く手法です。

複数の研究を統合することで、実質的なサンプルサイズを大幅に増加させることが可能となります。その結果、単一研究の限界であった偶然の誤差やデータのランダムなばらつきが相殺され、その治療法が持つ「真の効果」を、より精密かつ安定した数値として導き出すことができるのです。これが、メタアナリシスが持つ最大の臨床的メリットです。これはメタアナリシスが高いエビデンスレベルを持つとされる理由にもつながります。

ただし、ここで重要な原則があります。「質の低い研究をいくら集めても、結論の質は上がらない」という点です。メタアナリシスは「統合」の手法であり、「浄化」の手法ではありません。含まれる研究の質が低ければ、結論もその限界を引き継ぎます。だからこそ、結論だけを見るのではなく、中身を読む目が必要なのです。

システマティックレビューとメタアナリシスの違い

「システマティックレビュー」と「メタアナリシス」は、論文タイトルにセットで登場することが多く、混同されがちです。しかし、この2つは明確に異なる概念です。

用語	意味
システマティックレビュー	事前に定めた方法で文献を体系的に収集・評価する研究デザイン
メタアナリシス	複数研究の結果を統計的に統合する手法（数値的な合算）

わかりやすく言えば、システマティックレビューは「研究の集め方・評価の枠組み」で、メタアナリシスはその中で行われる「統計処理」です。

すべてのシステマティックレビューがメタアナリシスを含むわけではありません。たとえば、対象とする研究間の異質性が大きすぎる場合には、「統合は適切でない」と判断して、数値の統合を行わないこともあります。

論文を読むとき、自分が今どちらのパートを読んでいるのかを意識するだけで、内容の理解は大きく変わります。

メタアナリシスの基本的な流れ

メタアナリシスは、システマティックレビューのプロセス（リサーチクエスチョンの定義、文献検索、選択基準による絞り込み、バイアスリスク評価）を経て収集された研究データに対し、以下のステップで統計的な統合を行います。

各研究から効果量を抽出
統合解析（メタアナリシス本体）
異質性・出版バイアスの評価

文献収集や研究の評価プロセスについては「システマティックレビューとは？」をご参照ください。

フォレストプロットの読み方

メタアナリシスを読む上で避けて通れないのが「フォレストプロット（forest plot）」です。一見複雑に見えますが、見るべきポイントは限られています。

以下は架空の研究のフォレストプロットです。

① 各研究の横棒（信頼区間）

各研究を表す横棒の「長さ」に注目してください。横棒が短いほど推定の精度が高く、サンプルサイズが大きい研究であることが多いです。逆に横棒が非常に長い研究は、結果の不確実性が大きいことを意味します。

② 黒い正方形の大きさ（重み）

各横棒の中央にある正方形の大きさは、その研究が統合結果に与える「重み（weight）」を表しています。正方形が大きいほど、最終的な統合値への貢献度が高いことを示します。

③ 赤いダイヤモンド（統合結果）

図の最下部にあるダイヤモンドの形が、全研究を統合した結果です。ダイヤモンドの中心が統合された効果量の推定値、その左右の幅が95%信頼区間を表しています。

④ 0の位置の縦線（垂直線）

フォレストプロットには「無効果線」と呼ばれる垂直線が引かれています。相対リスク（RR）やオッズ比（OR）なら「1」の位置、平均差（MD）なら「0」の位置です。
この記事では例として挙げた画像は計測値が連続量の場合のフォレストプロットです。再入院する/しない、転倒する/しない、のような2値アウトカムの場合は、無効下線は1.0の位置になります。

ダイヤモンドがこの線をまたいでいる場合、統計的有意差なし（p ≥ 0.05）と解釈されることが多いです。ただし、「統計的に有意」と「臨床的に意味がある」は別の話です。この点は後でも触れます。

効果量の種類

フォレストプロットで統合されているのは「効果量（effect size）」です。どの効果量が使われているかを理解しないと、図を正しく読むことができません。

アウトカムの種類	代表的な効果量	解釈のポイント
二値アウトカム（あり/なし）	RR（相対リスク）、OR（オッズ比）	1より大きい/小さいかで方向を確認
連続値（血圧値、スコア等）	MD（平均差）、SMD（標準化平均差）	0からの距離が効果の大きさ
生存時間・イベント発生	HR（ハザード比）	1より大きい/小さいかで方向を確認

SMD（標準化平均差）は、測定尺度が研究間で異なる場合に使われます。Cohen’s dと呼ばれることもあります。おおむね0.2が小さな効果、0.5が中程度、0.8以上が大きな効果の目安とされています。

異質性とモデル選択

異質性（I²）とは

異質性とは、統合する研究間のばらつきのことです。治療の対象患者が違う、介入の方法が微妙に異なる、アウトカムの評価時点が違う――こういった違いが「異質性」として現れます。

最もよく使われる指標が I²（アイ二乗）で、「全体のばらつきのうち、研究間の真のばらつきが占める割合」を表します。

I²の目安	解釈
0〜25%未満	異質性は低い
25〜50%未満	中等度の異質性
50%以上	高い異質性

ただし注意が必要です。I²が高い＝この研究は使えない、ではありません。 大切なのは「なぜ異質性が高いのか」を考えることです。異質性の原因がサブグループ解析や感度分析で説明できれば、それ自体が重要な発見になることもあります。

固定効果モデル vs 変量効果モデル

異質性の程度に応じて、統合に使うモデルを選びます。

モデル	前提	使いどころ
固定効果モデル	真の効果はすべての研究で同じ	異質性が低い場合
変量効果モデル	真の効果は研究ごとに異なる	異質性がある場合（医療研究に多い）

医療研究では患者背景や介入の細部が異なることが多いため、変量効果モデルが採用されることが多いです。モデルの選択理由が論文内に明示されているかも確認しましょう。

バイアスとファンネルプロット

バイアス評価

メタアナリシスに含まれる各研究のバイアスリスクを評価することは不可欠です。代表的なバイアスには以下のものがあります。

選択バイアス：ランダム化が適切に行われたか
パフォーマンスバイアス：盲検化が行われていたか
検出バイアス：アウトカムの評価者が群割付を知っていたか
出版バイアス：ポジティブな結果の研究だけが発表されていないか

ROB（Risk of Bias）ツールやNew castle Ottawa Scale（NOS）など、バイアス評価の方法は研究デザインによって異なります。

ファンネルプロット

出版バイアスを視覚的に確認するために用いられる図です。横軸に効果量、縦軸に研究の精度（標準誤差の逆数など）をとり、各研究をプロットします。

バイアスがない理想的な状態では、プロットは逆三角形（ファンネル＝漏斗）のように左右対称に分布します。一方、小規模でネガティブな結果の研究が少ない場合、非対称な分布になり、出版バイアスが疑われます。

ただし、ファンネルプロットの解釈は視覚的な印象に依存するため限界もあります。Egger検定などの統計的手法と組み合わせて解釈するのが望ましいです。

発展的内容（感度分析・サブグループ解析・ネットワークメタアナリシス）

この節ではメタアナリシスを読むのに必須ではないものの、知っていると良い内容を記載しています。興味のある方は下のタブをクリックしてください。

たたまれている部分が開いて、内容を見ることが出来ます。

クリックすると開きます。

感度分析・サブグループ解析

感度分析

感度分析とは、特定の研究を除外したり、解析の前提条件を変えたりしたときに、結論が大きく変わらないかを確認する分析です。バイアスリスクの高い研究を除外しても同じ結論が得られるなら、そのメタアナリシスの結論は「頑健（robust）」と言えます。

逆に、1つの研究を除くだけで結論が逆転するようなら、その研究に結果が強く依存していることを示しており、注意が必要です。

サブグループ解析

年齢層、疾患の重症度、介入の用量などで研究を分け、「効果が異なるサブグループが存在しないか」を探る分析です。

サブグループ解析はあくまで仮説探索的な意味合いが強く、事前に計画されていないサブグループ解析は偶然の発見を生みやすいという点に注意が必要です。「10のサブグループを切ったら1つで有意差が出た」という結果を、額面通りに受け取るのは危険です。

ネットワークメタアナリシス

通常のメタアナリシスは「A vs B」という直接比較のデータを統合します。一方、ネットワークメタアナリシス（NMA）では：

A vs B の研究
B vs C の研究

のデータから、直接比較されていない「A vs C」を間接的に推定することができます。さらに、A・B・C・D…と複数の治療を同時に比較し、「有効性の順位」を推定することも可能です。

薬剤選択のガイドラインや診療支援ツールへの活用が進んでいますが、間接比較には「A vs B の研究と B vs C の研究で、患者背景が本当に似ているか」という前提の妥当性が問われます。NMAの結果は有望な情報を提供しますが、解釈には慎重さが求められます。

メタアナリシスを読むときのチェックリスト

実際に論文を読む際には、以下の項目を確認する習慣をつけましょう。

PICOは明確に定義されているか
文献検索のプロセスは透明に記載されているか（PRISMAフローチャート等）
研究の選択基準・除外基準は妥当か
各研究のバイアス評価は行われているか
使用している効果量（RR/OR/MD等）を理解しているか
異質性の程度と原因は検討されているか
固定効果/変量効果モデルの選択に理由があるか
感度分析は行われているか
出版バイアスは検討されているか（ファンネルプロット、Egger検定等）
サブグループ解析は事前に計画されていたか

PRISMAと「良いメタアナリシス」の見分け方

PRISMA（Preferred Reporting Items for Systematic reviews and Meta-Analyses）は、システマティックレビュー・メタアナリシスの報告の質を担保するための国際的なガイドラインです。以前はPRSIMA2009が使用されていましたが、現在は大幅に刷新されたPRISMA2020が使用されています。

PRISMA声明に準拠した論文には「PRISMAフローチャート」が掲載されており、そこには次の情報が含まれます：

データベース検索でヒットした文献数
重複除去後の文献数
タイトル・要旨スクリーニングで除外された文献とその理由
全文精読で除外された文献とその理由
最終的にメタアナリシスに採択された研究数

このフローチャートが掲載されているだけで、研究プロセスの透明性が格段に上がります。逆に言えば、このフローチャートなしにメタアナリシスと称している論文は、方法論的な厳密さが不十分である可能性があります。

まとめ

メタアナリシスはエビデンスを集約する強力な手法ですが、「最上位エビデンスだから無条件に信頼する」という姿勢は危険です。

本記事で紹介したように、フォレストプロットを読む目、I²の意味を理解する力、バイアスの有無を問う姿勢、これらがあってこそ、メタアナリシスは臨床の意思決定に活かせるツールになります。

すべてを一度に習得する必要はありません。まずはフォレストプロットのダイヤモンドを見て、「これが統合結果か」と思えるようになるところから始めてみてください。

メタアナリシスを「読める」医療従事者が増えることが、根拠に基づいた医療（EBM）の土台を支えます。

こんどう

【著者について】

理学療法士（回復期リハビリ病棟 12年以上）

統計検定2級・Python 3エンジニア認定（データ分析）取得。
臨床現場でのデータ活用を目的に統計・機械学習を独学。
FIM退院予測モデルを個人で設計・実装（スタッキングアンサンブル＋SHAP）。
強化学習（MuJoCo/Walker2d）や高位頸髄損傷患者向けデバイスの
自作など、臨床課題を技術で解くことに関心を持つ。

医療職向けに統計・データサイエンスをわかりやすく解説するブログ
「Curiosity Creates」を運営中。