検出力（検定力）とは？「有意差なし＝効果なし」ではない理由をわかりやすく解説

はじめに：「効果がなかった」のか、「見つけられなかった」のか
なぜ「本当の効果」を見逃してしまうのか
第一種の過誤・第二種の過誤・検出力の関係
検出力を決める3つの要素
検出力はどう設計するか：事前検出力分析
サンプルサイズが足りないとき
こんな読み方、していませんか？よくある誤解3つ
まとめ
検出力に関連する記事

はじめに：「効果がなかった」のか、「見つけられなかった」のか

こんな経験、ありませんか。

「先行研究では有意差なし、か……。でも本当にこの介入、効果がないんだろうか？」

論文を読んでいると、「有意差なし（p ≥ 0.05）」という結果をよく目にします。そしてつい、「この介入には効果がなかった」と解釈してしまいがちです。

でも、それは早合点かもしれません。

「差がなかった」のではなく、「差を見つけられなかっただけ」 という可能性があります。
別な言い方をすれば「効果の見逃し」です。

この記事では、その「見逃し」の問題を正面から扱う**検出力（検定力 / Statistical Power）**という概念を解説します。難しい数式は使いません。「なぜ見逃しが起きるのか」「どうすれば防げるか」という点を、臨床のイメージと結びつけながら説明していきます。

まずは下のツールを操作してみてください。サンプルサイズを変えるだけで、「見逃し率」がどう変わるかが体感できます。

数字が変わりましたか？

「介入の効果の大きさは同じ」なのに、サンプルサイズが少ないと見逃し率がぐっと上がります。これが今回のテーマの核心です。では、順を追って説明していきます。

なぜ「本当の効果」を見逃してしまうのか

標本には、必ず”偏り”が生まれる

臨床研究では、対象となる全患者（母集団）を調べることはできません。実際には一部の患者を選んで（標本として抽出して）、そこから「全体ではどうか」を推論します。

このとき避けられないのが、ランダムサンプリングによるばらつきです。

コインを10回投げると、表が7回出ることもあれば3回しか出ないこともあります。本来は50%の確率なのに、です。患者の標本も同じで、無作為に選んでいても「たまたま効果が出にくい患者が多く集まってしまった」ということが起こりえます。

効果があっても、見つけられないことがある

ここが大事なポイントです。

介入が実際に効果を持っていたとしても、標本のばらつきのせいで、その効果が”誤差の範囲内”に埋もれてしまうことがあります。

これが「見逃し」の正体です。介入が悪いわけでも、研究者の腕が悪いわけでもなく、確率の問題として見逃しは起きます。

この見逃しのリスクを数値で表したものが第二種の過誤（βエラー）であり、それと表裏一体の関係にあるのが検出力です。次のセクションで整理します。

第一種の過誤・第二種の過誤・検出力の関係

統計検定の結果と現実の関係を整理すると、次の2×2の表になります。

	実際は差なし	実際は差あり
有意差あり（p < 0.05）	❌ αエラー（偽陽性）	✅ 正しく検出
有意差なし（p ≥ 0.05）	✅ 正しく棄却	❌ βエラー（見逃し）

αエラー（第一種の過誤）とは

「本当は差がないのに、差があると誤判定してしまう」確率です。p < 0.05 という基準は、この誤判定の上限を5%に抑えるための設定です。

臨床のたとえで言えば：効果のない薬を「効く」と判定してしまうミスです。

βエラー（第二種の過誤）とは

「本当は差があるのに、差がないと誤判定してしまう」確率です。βで表します。

臨床のたとえで言えば：本当は効果のある介入を「効果なし」と見逃してしまうミスです。

検出力（Statistical Power）とは

検出力は「本当に差がある場合に、正しく差を検出できる確率」です。βエラーと次の関係があります。

検出力 = 1 – βエラー

たとえばβ = 0.2（20%の見逃しリスク）なら、検出力 = 0.8（80%の確率で差を正しく検出できる）ということになります。

なぜβはαほど意識されないのか

統計の世界では、α（偽陽性のリスク）は p < 0.05 という形で厳しく管理されます。一方でβ（見逃しのリスク）は、意外なほど議論されません。

歴史的な経緯として「偽陽性を犯すより偽陰性を犯すほうがまだまし」という価値観が根強くあります。しかし医療・リハビリの現場では、本当は効果のある介入を「効果なし」と見逃すことにも、患者への影響という意味でリスクがあります。

特に、手術や薬物療法と比べて侵襲の少ないリハビリや看護の介入では、「効果がないかもしれないのでやめておこう」という判断よりも、「試す価値がある」という方向に少し傾けて考えることにも合理性があるように思います（これは私見です）。

検出力を決める3つの要素

では、検出力は何によって決まるのでしょうか。次の3つです。

効果量（Effect Size）：介入の効果がどれくらい大きいか
サンプルサイズ（n）：何人を対象にしたか
有意水準（α）：偽陽性の許容ラインをどこに設定したか

下のツールでスライダーを動かしてみてください。

それぞれのスライダーを操作してなんとなく雰囲気がつかめたと思います。
しかし、実際の臨床研究ではこんなに自由にそれぞれの変数をかえられません。

効果量：研究者にはコントロールできない

効果量は「介入がどれくらいの差をもたらすか」を表す指標です。よく使われる Cohen’s d では、0.2が小・0.5が中・0.8以上が大とされます。

ただし効果量は、対象とする疾患や介入の性質によってある程度決まってしまいます。研究者が「効果量を上げよう」と意図的に操作することは基本的にできません（操作すること自体が研究の歪みになります）。

有意水準α：研究者にはほぼコントロールできない

医学・リハビリ分野では、有意水準は慣習的に 0.05 に設定されます。こちらも研究者が自由に変えられるパラメータではなく、ほぼ固定値と考えてください。

サンプルサイズn：唯一、研究者がコントロールできる

効果量もαも実質固定であれば、検出力を上げるために研究者が操作できるのはサンプルサイズだけということになります。

ここに、次のセクションで説明する「事前検出力分析」の意義があります。

補足として、サンプルサイズが小さいと、効果量が大きくても差を検出できないことが多々あります。たとえば「n = 10、d = 0.8」のような研究でも検出力は50%台にとどまることがあり、コインを投げて表が出るかどうかと大差ない確率でしか差を見つけられません。

検出力はどう設計するか：事前検出力分析

研究を始める前に必要なサンプルサイズを計算することを、**事前検出力分析（a priori power analysis）**と呼びます。多くの研究倫理審査でも求められる標準的な手順です。

「十分な検出力を持つサンプルサイズを事前に設定すること」が国際的なガイドライン（SPIRIT 2025）でも推奨されています。

なぜ事前にサンプルサイズを計算すべきか：国際ガイドラインの記述（クリックで開きます）

RCTの国際標準ガイドラインであるSPIRIT 2025は、試験プロトコルにおけるサンプルサイズ計算の記述について、以下のように定めています。

“A complete description of the sample size calculation in the protocol enables an assessment of whether the trial will be adequately powered to detect a minimal clinically important difference.” — SPIRIT 2025

要約すると、「サンプルサイズ計算をプロトコルに完全に記述することで、その試験が最小臨床重要差を検出するのに十分な検出力を持つかどうかを評価できる」ということです。

具体的には、主要アウトカムの種類や有意水準・目標とする検出力・群ごとのサンプルサイズなどをプロトコルに明記することが求められています。

このガイドラインはRCTのプロトコル作成者向けの記述ですが、論文を読む立場からも、これらの項目が報告されているかを確認する視点として活用できます。

📎 参照：SPIRIT 2025（該当ページ）

設計の流れ

目標とする検出力を決める（通常 0.8）
想定する効果量を決める（先行研究や臨床的な最小差から推定）
有意水準αを決める（通常 0.05）
この3つから、必要なサンプルサイズを逆算する

なぜ検出力0.8（β = 0.2）が基準なのか

「なぜ0.8か」という明確な数学的根拠があるわけではありません。統計学者 Jacob Cohen が提唱した慣習として定着したものです。「α（0.05）のちょうど4倍のβ（0.20）」というバランス感覚が背景にあるとも言われます。

研究の重要性やコストによっては、0.9や0.95を目標にすることもあります。

サンプルサイズが足りないとき

理想はわかった。でも現実は？

リハビリ・医療の臨床研究では、理想的なサンプルサイズを確保することが難しいケースが多くあります。

対象疾患が希少で、そもそも患者数が少ない
単施設での研究で母数が限られる
研究期間・予算・マンパワーの制約がある

これは決して珍しい話ではなく、リハビリ分野の研究では日常的な課題です。

「書かない」より「書く」ほうが誠実な科学

サンプルサイズが不十分な場合は、論文の**「研究の限界（Limitations）」**として明記することが求められます。記載例としては、以下のようなものが挙げられます。

「本研究のサンプルサイズ（各群 n = ○）は、効果量 d = ○ を検出するために必要な n = ○ を下回っており、検出力が不十分であった可能性がある。今後の多施設共同研究による検証が必要である。」

「限界を書く＝研究の質が低い」という誤解がありますが、そうではありません。不十分な点を正直に記述することは科学的誠実さの表れであり、読み手が結果を適切に解釈するための重要な情報です。

こんな読み方、していませんか？よくある誤解3つ

❌ 誤解①「有意差なし＝効果なし」

最も重要なメッセージをもう一度。

p ≥ 0.05 は「差がなかった」を意味しない。「差を検出できなかった」を意味する。

特に検出力の低い研究（サンプルサイズが少ない研究）では、「有意差なし」という結果は「差の不在の証明」ではなく、「情報量が少なすぎて判断できなかった」にすぎません。

論文を読むとき、「有意差なし」の結論を見たら、「この研究の検出力はどの程度か？」 と自問する習慣をつけてみてください。それだけで、論文の読み方がかなり変わります。

❌ 誤解②「結果が出てから検出力を計算すればいい」

有意差が出なかった後から「では検出力を計算しよう」という使い方を、**事後検出力（post-hoc power）**と呼びます。

これは統計的にほとんど意味をなしません。理由は、事後的に計算した検出力はp値と数学的に1対1で対応しているからです。「p値が大きかった＝検出力が低かった」は計算するまでもなくわかることで、新たな情報を何も加えません。

サンプルサイズ計算と検出力分析は、研究の**計画段階（事前）**に行うものです。

❌ 誤解③「有意差が出た＝臨床的に意味のある差がある」

逆のケースも見落とせません。

サンプルサイズが十分に大きければ、臨床的にはほとんど意味のない微小な差でも、統計的に有意になることがあります。「p < 0.05 だから意味のある介入だ」とは言い切れないのです。

この問題を扱う概念が**MCID（Minimum Clinically Important Difference：最小臨床重要差）**です。「統計的有意差」と「臨床的意義」は別物だということを頭に置いておくと、研究をぐっと正確に読めるようになります。

まとめ

ポイント	まとめ
検出力とは	本当の差を正しく見つけられる確率（= 1 − β）
なぜ必要か	効果があっても、必ず検出できるとは限らないから
決まる要素	効果量・サンプルサイズ・α（実質的にはnのみ操作可能）
非有意の読み方	「効果なし」ではなく「検出できなかった可能性がある」

研究論文を読むとき、あるいは自分で研究を行うとき、検出力という視点を持つだけで結果の解釈は大きく変わります。

「有意差なし」の一言で終わらせず、「本当はどうだったのか？」を問い続ける姿勢が、より良い臨床判断につながるはずです。