はじめに
「新しい歩行練習プログラムを導入したけど、本当に効果があるのだろうか?」
臨床現場ではこうした疑問が日常的に生まれます。しかし「なんとなく良さそう」という印象だけでは根拠になりません。こうした問いに、データをもとに答えを出す道具が仮説検定です。
この記事では、仮説検定の手順を具体的な臨床例で追いながら、よくある誤解も整理します。
仮説検定の手順
STEP 1:帰無仮説・対立仮説の設定
仮説検定では、最初に2つの仮説を立てます。
- 帰無仮説(H₀):新しい歩行練習を追加したグループとしないグループで、退院時FIMに差はない
- 対立仮説(H₁):2群の間に差がある
「効果を証明したい」のに、なぜ「差がない」という仮説から始めるのか。これは背理法と似た考え方です。
直接「効果がある」ことを証明するのは難しいため、まず「差がない」と仮定し、データがその仮定と矛盾するかどうかを確認します。
STEP 2:統計処理の計画
仮説を立てたら、検定の設計を事前に決めます。
統計処理を始める前に以下のような項目を決める必要があります。
- 両側検定 or 片側検定:今回は「差がある(方向は問わない)」を調べるため両側検定
- 有意水準(α):一般的にα = 0.05(5%)を事前に設定
- 検定手法の選択:2群の平均値を比較するため、対応がないt検定。データがノンパラメトリックな場合はMann-WhitneyのU検定などを選ぶ
- サンプルサイズ:検出力(検定が効果を見つける能力)に基づいて事前に計算する
この計画をデータを見る前に決めることが重要です。結果を見てから検定方法を選ぶのは、研究の信頼性を損ないます。
近年は研究の透明性を高めるため、解析計画を事前登録(Preregistration)する取り組みも広がっています。
STEP 3:データ収集・クリーニング
データを集めたら、分析の前に整理します。欠損値や外れ値を確認し、必要に応じて対処します。地味な工程ですが、ここを省くと結果の信頼性が揺らぎます。
STEP 4:検定の実行
対応なしt検定を実施すると、p値が算出されます。p値が事前に設定した有意水準α = 0.05を下回った場合、帰無仮説を棄却します。
具体的な例を見ながら考えてみましょう。
一般的な治療のグループAと新しい治療法のグループBで成績をスコア化したところ、以下のようなデータが得られました。黒い丸が取得した患者データを表しています。
グループBのスコアがやや高い傾向が見られました。このデータをどう解釈するかが、仮説検定の核心です。

帰無仮説の世界では、2群は同じ母集団からのサンプルであり、グループBの偏りは偶然と考えます。この仮定のもとで今回のデータが得られる確率がp値です。
帰無仮説の考え方をグラフにすると以下のようなイメージになります。
黒丸が患者データで、水色の山が母集団の分布を表しています。

p値が十分小さければ「同じ母集団からのサンプルとするには無理がある」と判断し、帰無仮説を棄却して対立仮説を採用します。2群の母集団は異なる、つまり差があると結論づけます。
対立仮説の考え方をグラフにすると以下のようなイメージになります。

STEP 5:総合的な判断
上の例ではわかりやすさを優先して、p値のみをとりあげました。
しかし、実際の臨床研究や論文の臨床への適用の際は、p値だけで判断を終わらせないことが重要です。
- p値:帰無仮説のもとでこのデータが得られる確率
- 信頼区間:効果の大きさの推定範囲
- 効果量:差の実質的な大きさ(Cohen’s dなど)
この3つを合わせて、臨床的に意味のある差かどうかを判断します。
よくある誤解FAQ
Q1. 仮説検定って「効果を証明する」ものじゃないの?
違います。仮説検定は「帰無仮説が正しいと仮定したとき、今回のデータはどれくらい珍しいか」を計算するものです。
「FIMに差はない」と仮定した世界で、今回のようなデータが得られる確率を算出しているに過ぎません。効果の存在を直接証明しているわけではありません。
例えば数学の証明は、同じ手順で計算すれば誰がやっても同じ結論に到達します。しかし仮説検定は違います。有意水準という閾値は慣習的に0.05が使われますが、その設定自体に絶対的な根拠はありません。p < 0.05という結果は『帰無仮説を棄却するのに十分なデータが得られた』という判断であり、真実が証明されたわけではありません。同じデータでもα = 0.01を使えば棄却できないこともあります。仮説検定はあくまで、データの重みに基づく統計的な判断の道具です。
Q2. p < 0.05なら「効果が証明された」ってこと?
そうは言えません。p < 0.05は「帰無仮説を棄却した」という意味であり、「対立仮説を積極的に支持した」ではありません。これはあくまでも消極的な選択です。
また「統計的に有意」と「臨床的に意味がある」は別の話です。サンプルサイズが十分大きければ、わずかな差でもp < 0.05になります。効果量(→ 効果量の記事へ)を合わせて確認する必要があります。
Q3. p ≥ 0.05なら「効果がなかった」ってこと?
これは大きな誤解です。p ≥ 0.05は「帰無仮説を棄却できなかった」というだけで、「帰無仮説が正しい」とは言えません。
p ≥ 0.05が出るパターンは大きく2つに分かれます。
パターン①:差があるのに検出できなかった可能性
- 効果量が小さすぎた
- サンプルサイズが不足していた
- サンプルの偶然の偏りがあった
パターン②本当に差がなかった可能性
どちらなのかは、p値だけからは判断できません。
そのため、p>0.05を見てすぐに「差がなかった」と考えるのは早計です。「有意差なし」と「効果なし」は別の結論です。
(→ 検出力の記事へ)。
Q4. p値が小さいほど効果が大きいってこと?
違います。p値は効果の大きさではなく、データの「珍しさ」を示す指標です。
サンプルサイズが大きければ小さな差でもp値は小さくなります。効果の大きさを知りたい場合は効果量を確認してください(→ 効果量の記事へ)。
Q5. 有意差が出たら再現性があるってこと?
保証されません。p < 0.05という基準は、同じ研究を繰り返したとき約5%の確率で偽の有意差が出ることを許容しています。実際、心理学や医学の分野で「有意差あり」の論文を再現しようとしたところ、再現できないケースが多数報告されています(再現性の危機)。
1回の研究で有意差が出たことは出発点であり、結論ではありません。
まとめ
仮説検定は、臨床の問いにデータで答えるための道具です。ただしその論理構造は「効果を直接証明する」ものではなく、「帰無仮説が成り立つ世界でのデータの珍しさ」を評価するものです。
p値はその珍しさの指標に過ぎません。臨床的な判断には、信頼区間と効果量を合わせて読む姿勢が求められます。
関連記事


コメント