Uncategorized

仮説検定とは?帰無仮説・対立仮説からp値の意味までわかりやすく解説

Uncategorized

はじめに

「新しい歩行練習プログラムを導入したけど、本当に効果があるのだろうか?」

臨床現場ではこうした疑問が日常的に生まれます。しかし「なんとなく良さそう」という印象だけでは根拠になりません。こうした問いに、データをもとに答えを出す道具が仮説検定です。

この記事では、仮説検定の手順を具体的な臨床例で追いながら、よくある誤解も整理します。


仮説検定の手順

STEP 1:帰無仮説・対立仮説の設定

仮説検定では、最初に2つの仮説を立てます。

  • 帰無仮説(H₀):新しい歩行練習を追加したグループとしないグループで、退院時FIMに差はない
  • 対立仮説(H₁):2群の間に差がある

「効果を証明したい」のに、なぜ「差がない」という仮説から始めるのか。これは背理法と似た考え方です。
直接「効果がある」ことを証明するのは難しいため、まず「差がない」と仮定し、データがその仮定と矛盾するかどうかを確認します。

STEP 2:統計処理の計画

仮説を立てたら、検定の設計を事前に決めます。

統計処理を始める前に以下のような項目を決める必要があります。

  • 両側検定 or 片側検定:今回は「差がある(方向は問わない)」を調べるため両側検定
  • 有意水準(α):一般的にα = 0.05(5%)を事前に設定
  • 検定手法の選択:2群の平均値を比較するため、対応がないt検定。データがノンパラメトリックな場合はMann-WhitneyのU検定などを選ぶ
  • サンプルサイズ:検出力(検定が効果を見つける能力)に基づいて事前に計算する

この計画をデータを見る前に決めることが重要です。結果を見てから検定方法を選ぶのは、研究の信頼性を損ないます。

近年は研究の透明性を高めるため、解析計画を事前登録(Preregistration)する取り組みも広がっています。

STEP 3:データ収集・クリーニング

データを集めたら、分析の前に整理します。欠損値や外れ値を確認し、必要に応じて対処します。地味な工程ですが、ここを省くと結果の信頼性が揺らぎます。

STEP 4:検定の実行

対応なしt検定を実施すると、p値が算出されます。p値が事前に設定した有意水準α = 0.05を下回った場合、帰無仮説を棄却します。

具体的な例を見ながら考えてみましょう。

一般的な治療のグループAと新しい治療法のグループBで成績をスコア化したところ、以下のようなデータが得られました。黒い丸が取得した患者データを表しています。

グループBのスコアがやや高い傾向が見られました。このデータをどう解釈するかが、仮説検定の核心です。

帰無仮説の世界では、2群は同じ母集団からのサンプルであり、グループBの偏りは偶然と考えます。この仮定のもとで今回のデータが得られる確率がp値です。

帰無仮説の考え方をグラフにすると以下のようなイメージになります。

黒丸が患者データで、水色の山が母集団の分布を表しています。

p値が十分小さければ「同じ母集団からのサンプルとするには無理がある」と判断し、帰無仮説を棄却して対立仮説を採用します。2群の母集団は異なる、つまり差があると結論づけます。

対立仮説の考え方をグラフにすると以下のようなイメージになります。

STEP 5:総合的な判断

上の例ではわかりやすさを優先して、p値のみをとりあげました。

しかし、実際の臨床研究や論文の臨床への適用の際は、p値だけで判断を終わらせないことが重要です。

  • p値:帰無仮説のもとでこのデータが得られる確率
  • 信頼区間:効果の大きさの推定範囲
  • 効果量:差の実質的な大きさ(Cohen’s dなど)

この3つを合わせて、臨床的に意味のある差かどうかを判断します。


よくある誤解FAQ

Q1. 仮説検定って「効果を証明する」ものじゃないの?

違います。仮説検定は「帰無仮説が正しいと仮定したとき、今回のデータはどれくらい珍しいか」を計算するものです。

「FIMに差はない」と仮定した世界で、今回のようなデータが得られる確率を算出しているに過ぎません。効果の存在を直接証明しているわけではありません。

例えば数学の証明は、同じ手順で計算すれば誰がやっても同じ結論に到達します。しかし仮説検定は違います。有意水準という閾値は慣習的に0.05が使われますが、その設定自体に絶対的な根拠はありません。p < 0.05という結果は『帰無仮説を棄却するのに十分なデータが得られた』という判断であり、真実が証明されたわけではありません。同じデータでもα = 0.01を使えば棄却できないこともあります。仮説検定はあくまで、データの重みに基づく統計的な判断の道具です。

Q2. p < 0.05なら「効果が証明された」ってこと?

そうは言えません。p < 0.05は「帰無仮説を棄却した」という意味であり、「対立仮説を積極的に支持した」ではありません。これはあくまでも消極的な選択です。

また「統計的に有意」と「臨床的に意味がある」は別の話です。サンプルサイズが十分大きければ、わずかな差でもp < 0.05になります。効果量(→ 効果量の記事へ)を合わせて確認する必要があります。

Q3. p ≥ 0.05なら「効果がなかった」ってこと?

これは大きな誤解です。p ≥ 0.05は「帰無仮説を棄却できなかった」というだけで、「帰無仮説が正しい」とは言えません。

p ≥ 0.05が出るパターンは大きく2つに分かれます。

パターン①:差があるのに検出できなかった可能性

  • 効果量が小さすぎた
  • サンプルサイズが不足していた
  • サンプルの偶然の偏りがあった

パターン②本当に差がなかった可能性

どちらなのかは、p値だけからは判断できません。

そのため、p>0.05を見てすぐに「差がなかった」と考えるのは早計です。「有意差なし」と「効果なし」は別の結論です。

(→ 検出力の記事へ)。

Q4. p値が小さいほど効果が大きいってこと?

違います。p値は効果の大きさではなく、データの「珍しさ」を示す指標です。

サンプルサイズが大きければ小さな差でもp値は小さくなります。効果の大きさを知りたい場合は効果量を確認してください(→ 効果量の記事へ)。

Q5. 有意差が出たら再現性があるってこと?

保証されません。p < 0.05という基準は、同じ研究を繰り返したとき約5%の確率で偽の有意差が出ることを許容しています。実際、心理学や医学の分野で「有意差あり」の論文を再現しようとしたところ、再現できないケースが多数報告されています(再現性の危機)。

1回の研究で有意差が出たことは出発点であり、結論ではありません。


まとめ

仮説検定は、臨床の問いにデータで答えるための道具です。ただしその論理構造は「効果を直接証明する」ものではなく、「帰無仮説が成り立つ世界でのデータの珍しさ」を評価するものです。

p値はその珍しさの指標に過ぎません。臨床的な判断には、信頼区間と効果量を合わせて読む姿勢が求められます。

関連記事

p値とは?
95%信頼区間とは?
効果量とは?
検出力(検定力)とは?

コメント

タイトルとURLをコピーしました