【統計相談事例】n=5でt検定は意味がある？検出力14%が示す現実と発表戦略

n=5のデータで学会発表したい──統計相談に持ち込まれた実際のケース

相談内容
1. こんな相談が来ました
2. なぜn=5になったのか
まず確認したこと
t検定をかけることを勧めなかった理由
1. ① サンプル数が5だと、検出力がとても低い
2. ② 仮に有意差が出ても、信頼区間が広すぎて情報として使いにくい
代わりに提案したこと：症例シリーズ報告
統計相談で私が大切にしていること
相談内容に関連する記事

相談内容

こんな相談が来ました

先日、職場の方からこんな相談を受けました。

「あるリハビリ介入を5名の患者さんに実施した。データは介入前、介入期間開始時、介入期間終了時で計測している。その結果をまとめて学会発表したい。統計解析はどうすればいいか？」

臨床現場でよくある相談です。介入の手ごたえを感じて、「ちゃんと数字で示して発表したい」という気持ちはとても自然なことだと思います。

ただ、相談を受けてまず思ったのは「統計解析よりも先に考えることがある」ということでした。

なぜn=5になったのか

「最初からもっと症例を集めればよかったのでは」と思う方もいるかもしれません。

でも臨床現場では、症例を自由に選ぶことはできません。特定の介入や対象が限られている場合、5例を集めること自体がすでに大変なことです。

「数が少ないから発表する価値がない」ということにはならない、というのが私の考えです。問題は数ではなく、その数に合った発表形式を選べているかどうかです。

まず確認したこと

まず確認したこと。それはデータの中身です。

相談を受けたとき、まず確認したのは「予定している統計検定の種類」ではありませんでした。データそのものの中身です。

確認してみると、5名の間で以下の患者属性にかなりのばらつきがありました。

年齢
発症からの経過期間
重症度
介入期間

これだけ属性がバラバラだと、「5名をひとつのグループとして扱う」こと自体に困難さが伴います。統計解析の前に、そもそもこのデータをひとつのモデルにまとめるか？という問いが先に来ます。

一般に患者属性のバリエーションが大きいと、介入に効果があったとしてもそれを統計解析で検出しにくくなります。

t検定をかけることを勧めなかった理由

介入前後の比較であれば、対応のあるt検定が候補になります。ただ今回は、それを勧めませんでした。

理由は大きく2つです。

① サンプル数が5だと、検出力がとても低い

検出力とは「本当に効果があるとき、それをちゃんと検出できる確率」のことです。サンプル数が少ないと、実際には効果があっても統計的に検出できないことが多くなります。

少し具体的な数字を出すと、効果量がCohen’s d = 0.5（中程度の効果）であっても、n=5でt検定をかけた場合の検出力は約14%です。裏を返すと、同じ実験を100回やったら86回は「効果があるのに検出できない」という状態になります。

「有意差が出なかった＝効果がなかった」ではなく、「そもそも検出できる状態ではなかった」という可能性が非常に高いのです。

※検出力について詳しく知りたい方はこちらの記事をご覧ください。
→検出力（検定力）とは？

② 仮に有意差が出ても、信頼区間が広すぎて情報として使いにくい

サンプル数が少ないと、データから読み取れる情報量が少なくなります。「効果あり」とは言えても、「どのくらい効くか」がほとんど分からない状態になります。

学会発表で伝えたいのは「この介入は有望かもしれない」という情報のはずです。信頼区間が広い状態では、その情報がうまく伝わりません。

たとえるなら、こういうことです。

信頼区間が狭い：「この介入の効果は中等度程度と推定されます」
信頼区間が広い：「この介入の効果は、ごくわずかかもしれないし、大きいかもしれません」

後者では、聞き手は「結局どうなの？」となってしまいます。

※信頼区間について詳しく知りたい方はこちらの記事をご覧ください。
→９５％信頼区間とは？

代わりに提案したこと：症例シリーズ報告

統計解析を無理に行わないことは、「負け」ではありません。

私が提案したのは、症例シリーズ報告という形式でした。症例シリーズ報告は、稀少な介入や新規手技の知見を共有する手段として、学術的に確立した発表形式です。「統計解析ができないから仕方なく」ではなく、このデータには症例シリーズ報告のほうが適している、という判断です。

上の図は医療従事者なら一度は見たことがある、エビデンスのピラミッドです。

医療研究では、RCTやメタアナリシスのような研究ほどエビデンスレベルが高いとされます。ただ、それは「常に価値が高い」という意味ではありません。

たとえば、新しい介入や珍しい症例では、まず症例報告や症例シリーズから知見が蓄積されます。そこから「本当に有効そうだ」という仮説が生まれ、後の大規模研究につながっていきます。

つまり、症例シリーズ報告は“大規模研究の下位互換”ではなく、「臨床の気づきを共有する」という別の役割を持った研究形式です。

また、多くの症例で平均化された効果よりも、属性の似たケースでの症例報告のほうが臨床現場で適用性が高いこともあります。

5名それぞれについて、属性・介入内容・結果を丁寧に記述する。そのうえで、

こういった症例には効果が出やすそう
こういった症例には効果が出にくかった

という考察をまとめる形です。

「脳卒中の患者さんにリハビリ介入をした」とひとまとめにしてしまうと、情報が一気に失われてしまいます。症例シリーズ報告は情報の損失が少なく、バリエーション豊かな症例への介入反応を聞き手にうまく伝えることができます。

結果的にこの形式のほうが、発表を聞いた臨床家にとって「明日の臨床で使える情報」になります。統計的有意差よりも、「どんな患者さんに使えそうか」という記述のほうが、現場では実用的なことも多いのです。

統計相談で私が大切にしていること

統計相談というと、「どの検定を使えばいいか」を相談する場、というイメージを持つ方が多いかもしれません。

でも実際には、「統計解析をすべきかどうか」の判断も含めて相談できる場だと思っています。

今回のように「統計よりも症例報告がおすすめ」という結論になることもあります。それは決して相談が無駄だったわけではなく、発表の方向性を整理できた、ということです。

「こんな相談していいのかな」と思うような内容でも、気軽に持ち込んでください。

相談はこちらの統計相談窓口ページから

こんどう

【著者について】

理学療法士（回復期リハビリ病棟 12年以上）

統計検定2級・Python 3エンジニア認定（データ分析）取得。
臨床現場でのデータ活用を目的に統計・機械学習を独学。
FIM退院予測モデルを個人で設計・実装（スタッキングアンサンブル＋SHAP）。
強化学習（MuJoCo/Walker2d）や高位頸髄損傷患者向けデバイスの
自作など、臨床課題を技術で解くことに関心を持つ。

医療職向けに統計・データサイエンスをわかりやすく解説するブログ
「Curiosity Creates」を運営中。