システマティックレビューとは？メタアナリシス・スコーピングレビューとの違いやメリット

エビデンスの「集め方」を正しく理解する

論文のタイトルや抄録で、こんな一文を目にすることがあります。

「本研究は、PRISMA声明に基づくシステマティックレビューとして実施された」

エビデンスレベルのピラミッドにおいて、システマティックレビュー（とそれに基づくメタアナリシス）は最上位に位置づけられることが多く、「システマティックレビューで支持されている治療法」という言葉は、臨床判断に強い影響力を持ちます。

しかし、「システマティック」という言葉が具体的に何を保証しているのか、立ち止まって考えたことはあるでしょうか？単一の研究を読むことと、何が違うのでしょうか？「レビュー」と名のつく他の論文――ナラティブレビューやスコーピングレビュー――とは、どこで区別すればよいのでしょうか？

この記事では、システマティックレビューという「研究デザインそのもの」に焦点を当て、医療従事者が論文を読む際に押さえておきたいポイントを整理していきます。

システマティックレビューとは何か
なぜ単一の研究では不十分なのか
「システマティック」とは何を意味するのか – 文献収集の体系性
他のレビュー手法との違い
バイアスリスク評価 – 集めた研究の「質」を見る
PRISMA声明 – 透明性のためのチェックリスト
出版バイアスという落とし穴
システマティックレビューを読むときのチェックリスト
まとめ
システマティックレビューと関連がある記事

システマティックレビューとは何か

システマティックレビューとは、「あらかじめ定めた明確な手順に従って、特定のリサーチクエスチョンに関連する研究を網羅的に検索・選択・評価し、まとめる研究デザイン」のことです。

ポイントは「あらかじめ定めた」「網羅的」「評価する」という3つのキーワードです。著者が「自分の知っている範囲の論文」を都合よく選んで紹介するのではなく、事前に決めたルールに従って文献を収集し、その質を評価したうえで結論を導く――これがシステマティックレビューの本質です。

なお、「システマティックレビュー」と「メタアナリシス」はセットで語られることが多いですが、両者は別の概念です。

用語	意味
システマティックレビュー	事前に定めた方法で文献を体系的に収集・評価する研究デザイン
メタアナリシス	複数研究の結果を統計的に統合する手法（数値的な合算）

システマティックレビューは「研究の集め方・評価の枠組み」であり、メタアナリシスはその中で行われる「統計的な統合処理」です。すべてのシステマティックレビューがメタアナリシスを含むわけではなく、対象研究の異質性（結果のばらつき）が大きすぎる場合などには、数値の統合は行わずナラティブな記述にとどめることもあります。

フォレストプロットの読み方やI²（結果のばらつきの指標）の解釈については、別記事「メタアナリシスの読み方」で詳しく解説していますので、本記事ではシステマティックレビューそのものの「方法論」に焦点を当てていきます。

なぜ単一の研究では不十分なのか

たとえば、「脳卒中後の歩行訓練にロボット支援を用いると、歩行速度が改善するか」という臨床上の疑問があったとします。

研究A（n=28）：ロボット支援群で歩行速度が有意に改善
研究B（n=22）：両群間に有意差なし
研究C（n=35）：ロボット支援群でわずかに改善傾向あり（有意差なし）

3つの研究を個別に読むと、「結局有効なのかどうか分からない」という印象を受けるかもしれません。これは、各研究のサンプルサイズが比較的小さく、個体差や偶然の要素による「ばらつき」の影響を受けやすいためです。

システマティックレビューでは、こうした複数の研究を1つのリサーチクエスチョンのもとに集約します。その結果、

実質的な対象者数が増加し、偶然の影響が相殺されやすくなる
1つの研究の結果に振り回されることなく、全体としての傾向を読み取れる
「研究間で結果が一致しているか／一致していないか」という、単一研究では得られない情報が手に入る

という利点が生まれます。3つ目のポイントは特に重要です。単一研究では「効果あり」か「効果なし」かの二択になりがちですが、システマティックレビューでは「研究間でどの程度一致しているか」そのものが、臨床的に意味のある情報になります。

「システマティック」とは何を意味するのか – 文献収集の体系性

システマティックレビューの「システマティック」は、主に文献を収集・選択するプロセスの透明性と再現可能性を指します。具体的には、次のようなステップが事前に計画されます。

リサーチクエスチョンの明確化（PICO）

P（対象患者）、I（介入）、C（比較対象）、O（アウトカム）を明確に定義します。「脳卒中後の歩行訓練」のような大まかなテーマではなく、「発症後6ヵ月以内の脳卒中片麻痺患者に対し、ロボット支援歩行訓練を通常の理学療法と比較した場合、歩行速度はどう変化するか」というレベルまで具体化します。

プロトコルの事前登録

質の高いシステマティックレビューは、解析を始める前に研究計画（プロトコル）をPROSPEROなどのデータベースに登録します。これにより、「結果を見てから都合よく解析方法を変更する」ことを防ぎます。

文献検索式の設計とデータベースの選定

PubMed、CINAHL、Cochrane Libraryなど、複数のデータベースに対して検索式を設計します。検索式そのものが論文の付録に記載されているかどうかは、再現可能性を判断する重要な手がかりです。

選択基準・除外基準に基づくスクリーニング

通常、2名以上のレビュアーが独立してタイトル・抄録、続いて全文を確認し、選択基準に合致するかを判定します。意見が分かれた場合は第三者を交えて協議します。この「独立した複数人による評価」が、単一著者によるナラティブレビューとの大きな違いです。

論文を読むときは、これらのプロセスが「方法（Methods）」セクションにどの程度具体的に記載されているかを確認してみてください。検索式、データベース名、スクリーニングを行った人数、意見が分かれた際の対処法――これらが明示されているほど、そのレビューの再現可能性は高いと言えます。

他のレビュー手法との違い

「レビュー」と名のつく論文には、システマティックレビュー以外にもいくつかの種類があります。それぞれ目的が異なるため、区別しておくと論文の位置づけを理解しやすくなります。

レビューと名がつく論文には、システマティックレビューのほかにナラティブレビュー・スコーピングレビューがあります。

ナラティブレビュー（Narrative Review）**とは、あるテーマについて著者が過去の研究を幅広く集め、研究の流れや考え方を文章で整理する方法です。システマティックレビューほど厳密な検索・選択基準が求められないことが多く、文献の選択や解釈に著者の専門的判断が反映されやすい特徴があります。

スコーピングレビュー（Scoping Review）**は、特定の研究領域にどのような研究が存在するのかを整理し、研究全体を「地図」のように把握することを目的としたレビューです。

観点	ナラティブレビュー	スコーピングレビュー	システマティックレビュー
主な目的	著者の知見・解釈に基づく概説	領域全体の研究動向の「地図」作成	特定の問いに対する厳密なエビデンス統合
文献の選び方	著者が選択（基準は明示されないことが多い）	比較的広い基準で網羅的に収集	事前に定めた基準に基づき網羅的に収集
リサーチクエスチョン	曖昧でもよい	「この分野にどんな研究があるか」	PICOで明確に定義される
バイアス評価	通常行わない	行わないことが多い	必須
再現可能性	低い（著者が変われば結果も変わりうる）	中程度	高い（同じ手順なら同じ結果に近づく）
数値の統合（メタアナリシス）	行わない	行わない	場合によって行う

ナラティブレビューは、ある分野に精通した専門家が知見を整理する上では有用ですが、「著者の選択バイアス」が入り込む余地が大きく、エビデンスとしての位置づけはシステマティックレビューより低くなります。

スコーピングレビューは、「この領域でどのような研究が、どの程度行われているか」を把握することが目的であり、「効果があるかどうか」を結論づけるためのものではありません。研究の隙間（リサーチギャップ）を見つけるために用いられることが多い手法です。

論文を読むときは、タイトルや方法のセクションで「どの種類のレビューを名乗っているか」を確認し、その論文が「効果の有無」を結論づけるのに適した設計なのかを意識すると、結論の重みを正しく評価できます。

バイアスリスク評価 – 集めた研究の「質」を見る

システマティックレビューでは、選択基準を満たした研究をそのまま統合するわけではありません。各研究について、結果に偏り（バイアス）が生じる可能性を評価します。

代表的なバイアスには次のようなものがあります。

選択バイアス：ランダム化やその隠蔽が適切に行われたか
パフォーマンスバイアス：参加者や治療者が割り付けを知っていたことで、行動に影響が出ていないか
検出バイアス：アウトカムの評価者が割り付けを知っていたことで、評価に偏りが出ていないか
症例減少バイアス：試験からの脱落やデータの欠損が、結果に偏りを与えていないか

これらを評価するためのツールとして、ランダム化比較試験ではCochraneのRisk of Bias 2（RoB2）、観察研究ではNewcastle-Ottawa Scale（NOS）などが広く使われています。

ここで重要なのは、バイアスリスク評価が「研究を落とすため」だけのものではないという点です。バイアスリスクが高い研究を含めたまま結論を出すのか、それらを除外あるいは重みを下げて解析するのか――この判断と、その判断が結果にどう影響したかを示す感度分析が、システマティックレビューの信頼性を支えています。

「バイアスリスクの高い研究の有無で結論が変わらない」のであれば、その結論は頑健であると言えます。逆に、バイアスリスクの高い研究を除くと結論が変わる場合は、その結論を慎重に受け止める必要があります。

PRISMA声明 – 透明性のためのチェックリスト

PRISMA（Preferred Reporting Items for Systematic reviews and Meta-Analyses）は、システマティックレビュー・メタアナリシスの報告の質を担保するための国際的なガイドラインです。以前はPRISMA2009が使われていましたが、現在は刷新されたPRISMA2020が標準となっています。

PRISMA声明に準拠した論文には「PRISMAフローチャート」が掲載されており、そこには次のような情報が含まれます。

データベース検索でヒットした文献数
重複除去後の文献数
タイトル・抄録スクリーニングで除外された文献数
全文精読で除外された文献数とその理由
最終的にレビューに採択された研究数

このフローチャートは、いわば「文献収集プロセスの情報開示」です。何件の文献から始まり、どの段階で何件が除外され、最終的に何件が残ったのかが一目で分かります。

逆に言えば、このフローチャートが掲載されていない、あるいは除外理由が記載されていないシステマティックレビューは、方法論的な厳密さが不十分である可能性があります。論文の「結論」を読む前に、まずこのフローチャートを確認する習慣をつけると、そのレビューの透明性を素早く判断できます。

出版バイアスという落とし穴

システマティックレビューが「網羅的」であることを目指していても、収集できるのはあくまで「公表されている研究」です。ここに、出版バイアスという構造的な問題が存在します。

一般的に、効果が認められた（ポジティブな）研究は出版されやすく、効果が認められなかった（ネガティブな）研究は出版されにくい、あるいは出版までに時間がかかる傾向があります。その結果、システマティックレビューに含まれる研究群は、実際に行われた研究全体よりも「効果あり」に偏っている可能性があります。

この問題に対応するため、質の高いシステマティックレビューでは、学術誌に掲載された論文だけでなく、学会抄録や学位論文といった「グレイリテラチャー」も検索対象に含めることがあります。また、メタアナリシスを行う場合には、ファンネルプロットなどを用いて出版バイアスの可能性を視覚的に検討します（この点については「メタアナリシスの読み方」で詳しく解説しています）。

システマティックレビューを読むときのチェックリスト

実際に論文を読む際には、以下の項目を確認する習慣をつけてみてください。

リサーチクエスチョン（PICO）は明確に定義されているか
プロトコルは事前登録されているか（PROSPERO番号の記載など）
検索したデータベースと検索式は明示されているか
選択基準・除外基準は妥当か
スクリーニングは複数人で独立して行われたか
各研究のバイアスリスク評価は行われているか
PRISMAフローチャートが掲載されているか
出版バイアスへの対応（グレイリテラチャー検索など）が検討されているか

これらすべてを満たしている論文は多くありません。しかし、いくつ満たされているかを意識するだけで、そのシステマティックレビューが導く結論の「強さ」を、より正確に見積もることができるようになります。

まとめ

システマティックレビューは、「エビデンスレベルが高い」という言葉だけで無条件に信頼するものではありません。その「高さ」は、文献収集・選択・評価のプロセスがどれだけ透明で再現可能であるかによって支えられています。

単一の研究が「1つの観測点」であるのに対し、システマティックレビューは「事前に決めたルールに基づいて集めた観測点の集合」です。そのルールが妥当で、透明に示されているかどうかを確認することが、システマティックレビューを正しく読むための第一歩になります。

そして、こうして集めた研究群を統計的にどう統合するか――それが、次のステップであるメタアナリシスのテーマです。フォレストプロットの読み方やI²の解釈について詳しく知りたい方は、「メタアナリシスの読み方」もぜひあわせてご覧ください。

システマティックレビューと関連がある記事

メタアナリシスとは？（フォレストプロットやI²の見方など）
ｐ値とは？
95％信頼区間とは？
効果量とは？
検出力とは？

こんどう

【著者について】

理学療法士（回復期リハビリ病棟 12年以上）

統計検定2級・Python 3エンジニア認定（データ分析）取得。
臨床現場でのデータ活用を目的に統計・機械学習を独学。
FIM退院予測モデルを個人で設計・実装（スタッキングアンサンブル＋SHAP）。
強化学習（MuJoCo/Walker2d）や高位頸髄損傷患者向けデバイスの
自作など、臨床課題を技術で解くことに関心を持つ。

医療職向けに統計・データサイエンスをわかりやすく解説するブログ
「Curiosity Creates」を運営中。