仮説検定とは？帰無仮説・対立仮説からp値の意味までわかりやすく解説

はじめに
仮説検定の手順
よくある誤解FAQ
まとめ

はじめに

「新しい歩行練習プログラムを導入したけど、本当に効果があるのだろうか？」

臨床現場ではこうした疑問が日常的に生まれます。しかし「なんとなく良さそう」という印象だけでは根拠になりません。こうした問いに、データをもとに答えを出す道具が仮説検定です。

この記事では、仮説検定の手順を具体的な臨床例で追いながら、よくある誤解も整理します。

仮説検定の手順

STEP 1：帰無仮説・対立仮説の設定

仮説検定では、最初に2つの仮説を立てます。

帰無仮説（H₀）：新しい歩行練習を追加したグループとしないグループで、退院時FIMに差はない
対立仮説（H₁）：2群の間に差がある

「効果を証明したい」のに、なぜ「差がない」という仮説から始めるのか。これは背理法と似た考え方です。
直接「効果がある」ことを証明するのは難しいため、まず「差がない」と仮定し、データがその仮定と矛盾するかどうかを確認します。

STEP 2：統計処理の計画

仮説を立てたら、検定の設計を事前に決めます。

統計処理を始める前に以下のような項目を決める必要があります。

両側検定 or 片側検定：今回は「差がある（方向は問わない）」を調べるため両側検定
有意水準（α）：一般的にα = 0.05（5%）を事前に設定
検定手法の選択：2群の平均値を比較するため、対応がないt検定。データがノンパラメトリックな場合はMann-WhitneyのU検定などを選ぶ
サンプルサイズ：検出力（検定が効果を見つける能力）に基づいて事前に計算する

この計画をデータを見る前に決めることが重要です。結果を見てから検定方法を選ぶのは、研究の信頼性を損ないます。

近年は研究の透明性を高めるため、解析計画を事前登録（Preregistration）する取り組みも広がっています。

STEP 3：データ収集・クリーニング

データを集めたら、分析の前に整理します。欠損値や外れ値を確認し、必要に応じて対処します。地味な工程ですが、ここを省くと結果の信頼性が揺らぎます。

STEP 4：検定の実行

対応なしt検定を実施すると、p値が算出されます。p値が事前に設定した有意水準α = 0.05を下回った場合、帰無仮説を棄却します。

具体的な例を見ながら考えてみましょう。

一般的な治療のグループAと新しい治療法のグループBで成績をスコア化したところ、以下のようなデータが得られました。黒い丸が取得した患者データを表しています。

グループBのスコアがやや高い傾向が見られました。このデータをどう解釈するかが、仮説検定の核心です。

帰無仮説の世界では、2群は同じ母集団からのサンプルであり、グループBの偏りは偶然と考えます。この仮定のもとで今回のデータが得られる確率がp値です。

帰無仮説の考え方をグラフにすると以下のようなイメージになります。

黒丸が患者データで、水色の山が母集団の分布を表しています。

p値が十分小さければ「同じ母集団からのサンプルとするには無理がある」と判断し、帰無仮説を棄却して対立仮説を採用します。2群の母集団は異なる、つまり差があると結論づけます。

対立仮説の考え方をグラフにすると以下のようなイメージになります。

STEP 5：総合的な判断

上の例ではわかりやすさを優先して、ｐ値のみをとりあげました。

しかし、実際の臨床研究や論文の臨床への適用の際は、p値だけで判断を終わらせないことが重要です。

p値：帰無仮説のもとでこのデータが得られる確率
信頼区間：効果の大きさの推定範囲
効果量：差の実質的な大きさ（Cohen’s dなど）

この3つを合わせて、臨床的に意味のある差かどうかを判断します。

よくある誤解FAQ

Q1. 仮説検定って「効果を証明する」ものじゃないの？

違います。仮説検定は「帰無仮説が正しいと仮定したとき、今回のデータはどれくらい珍しいか」を計算するものです。

「FIMに差はない」と仮定した世界で、今回のようなデータが得られる確率を算出しているに過ぎません。効果の存在を直接証明しているわけではありません。

例えば数学の証明は、同じ手順で計算すれば誰がやっても同じ結論に到達します。しかし仮説検定は違います。有意水準という閾値は慣習的に0.05が使われますが、その設定自体に絶対的な根拠はありません。p < 0.05という結果は『帰無仮説を棄却するのに十分なデータが得られた』という判断であり、真実が証明されたわけではありません。同じデータでもα = 0.01を使えば棄却できないこともあります。仮説検定はあくまで、データの重みに基づく統計的な判断の道具です。

Q2. p < 0.05なら「効果が証明された」ってこと？

そうは言えません。p < 0.05は「帰無仮説を棄却した」という意味であり、「対立仮説を積極的に支持した」ではありません。これはあくまでも消極的な選択です。

また「統計的に有意」と「臨床的に意味がある」は別の話です。サンプルサイズが十分大きければ、わずかな差でもp < 0.05になります。効果量（→ 効果量の記事へ）を合わせて確認する必要があります。

Q3. p ≥ 0.05なら「効果がなかった」ってこと？

これは大きな誤解です。p ≥ 0.05は「帰無仮説を棄却できなかった」というだけで、「帰無仮説が正しい」とは言えません。

p ≥ 0.05が出るパターンは大きく2つに分かれます。

パターン①：差があるのに検出できなかった可能性

効果量が小さすぎた
サンプルサイズが不足していた
サンプルの偶然の偏りがあった

パターン②本当に差がなかった可能性

どちらなのかは、p値だけからは判断できません。

そのため、ｐ＞0.05を見てすぐに「差がなかった」と考えるのは早計です。「有意差なし」と「効果なし」は別の結論です。

（→ 検出力の記事へ）。

Q4. p値が小さいほど効果が大きいってこと？

違います。p値は効果の大きさではなく、データの「珍しさ」を示す指標です。

サンプルサイズが大きければ小さな差でもp値は小さくなります。効果の大きさを知りたい場合は効果量を確認してください（→ 効果量の記事へ）。

Q5. 有意差が出たら再現性があるってこと？

保証されません。p < 0.05という基準は、同じ研究を繰り返したとき約5%の確率で偽の有意差が出ることを許容しています。実際、心理学や医学の分野で「有意差あり」の論文を再現しようとしたところ、再現できないケースが多数報告されています（再現性の危機）。

1回の研究で有意差が出たことは出発点であり、結論ではありません。

まとめ

仮説検定は、臨床の問いにデータで答えるための道具です。ただしその論理構造は「効果を直接証明する」ものではなく、「帰無仮説が成り立つ世界でのデータの珍しさ」を評価するものです。

p値はその珍しさの指標に過ぎません。臨床的な判断には、信頼区間と効果量を合わせて読む姿勢が求められます。

関連記事

p値とは？
95％信頼区間とは?
効果量とは？
検出力（検定力）とは？

こんどう

【著者について】

理学療法士（回復期リハビリ病棟 12年以上）

統計検定2級・Python 3エンジニア認定（データ分析）取得。
臨床現場でのデータ活用を目的に統計・機械学習を独学。
FIM退院予測モデルを個人で設計・実装（スタッキングアンサンブル＋SHAP）。
強化学習（MuJoCo/Walker2d）や高位頸髄損傷患者向けデバイスの
自作など、臨床課題を技術で解くことに関心を持つ。

医療職向けに統計・データサイエンスをわかりやすく解説するブログ
「Curiosity Creates」を運営中。