はじめに
論文を読んでいると、必ずと言っていいほど目にする「95%信頼区間」。英語では95% Confidence Interval、略してCI(あるいは95%CI)と表記されることも多いです。
でも、いざ「95%信頼区間って何?」と聞かれると、なんとなくわかる気がするけどうまく説明できない…という方が多いのではないでしょうか。
実は95%信頼区間は、統計の中でも「直感とズレやすい」概念の代表格です。アイビーリーグの統計学の教授でさえ誤解することがある、という話もあるくらいです。
この記事では、計算式の暗記よりも「体験ベースでの理解」を最優先にしながら、95%信頼区間とはどういうものなのかを解説していきます。
まず「よくある誤解」から整理しよう
95%信頼区間を説明するとき、最初に押さえておきたいのが「よくある誤解」です。
❌ 誤解:「95%信頼区間の中に真値(母平均)がある確率が95%」
これ、直感的にはものすごく自然な読み方なんですが、統計学的には正確ではありません。
なぜかというと、母集団の真値(たとえば日本人成人男性の平均身長)は、どこかに「固定された一つの値」として存在しています。確率的に変動するものではないんです。
だから、「その固定値がある区間に含まれる確率が95%」という言い方は成立しません。区間に真値が入っているか入っていないかは、0か1かのどちらかです。
✅ 正しい解釈:「同じ手順で何度も実験・データ収集をしたとき、そうやって計算した信頼区間のうち95%が、真値を含む」
少し回りくどいですよね。「確率」ではなく「割合(頻度)」の話なんです。動いているのは真値ではなく、信頼区間の方です。
…と言葉だけで説明しても分かりにくいので、次の「触れる図」で実際に体験してみましょう。
【ここにインタラクティブ要素を挿入(繰り返しサンプリングのシミュレーション)】
下のグラフエリアをご覧下さい。「サンプリング&記録」ボタンを押すと下のような要素が出てきます。水色のポイントと紫のバーが出てきます。
- 水色の点:もともとの集団からランダムに取り出されたデータ
- 紫のバー:水色の点から推測される平均値の信頼区間。
この図がやろうとしているのは、ランダムに取り出したデータから元の集団の平均値(本当は170)がどのあたりか推測することです。
分布からランダムにデータが抽出されるため、ボタンを押す度に異なる位置や長さの信頼区間が計算されます。ランダムなので信頼区間が本来の平均値を外してしまうこともあります。
一つ一つの信頼区間は当たったり外れたりしますが、全体としては正解率が95%程度に落ち着くようになっています。
※ 数直線の下に並んだ信頼区間のうち、赤で強調されたものが「本当の平均値」を外してしまった信頼区間です。何度も繰り返すと、この割合が5%に収束します。
95%信頼区間って何?
ざっくりいうと「推定値の精度の指標」
点推定(たとえば「この標本の平均値は65kg」)だけでは、その推定がどれくらい信頼できるのか分かりません。
同じ母集団から別の50人を抽出して計算したら、平均値は63kgかもしれないし、67kgかもしれない。こうした「推定値のブレ幅」を伝えるための指標が信頼区間です。
たとえば「平均65kg(95%CI: 62〜68kg)」という表記なら、「62〜68kgの範囲で、母集団の真の平均をとらえている可能性が高い」という情報が加わります。
計算式はシンプル
95%信頼区間は、以下の式で計算できます。
95%CI = 標本平均 ± 1.96 × SE(標準誤差)
標準誤差(SE)は、前回の記事で解説したとおり SD ÷ √n で計算できます(SDは標準偏差、nはサンプルサイズ)。
1.96という数字は、標準正規分布において「中央の95%の面積を含む範囲」に対応するz値です。両端の2.5%ずつを切り捨てた範囲がちょうど±1.96になります。
※ 母分散が未知でサンプルサイズが小さい場合は、1.96の代わりにt分布のt値を使います(その場合はサンプルサイズによってt値が変わります)。
標準誤差について知りたい方はこちらの記事で解説しています。
サンプルサイズが大きいほど信頼区間は狭くなる
標準誤差はサンプルサイズnが大きいほど小さくなります(√nで割るので)。そのため、信頼区間の幅もnが大きいほど狭くなります。
直感的にも「たくさんのデータから計算した推定値のほうが信頼できる=区間が狭い」というのは納得できますよね。
95%信頼区間はなぜ大事?
p値だけでは実態が見えにくい
従来の論文では「p<0.05なら有意差あり」という形でp値だけが報告されることが多くありました。でも、p値には大きな弱点があります。
サンプルサイズをどんどん増やせば、ごくわずかな差でもp<0.05になってしまいます。逆に、サンプルが少ないと、実際には大きな差があってもp≧0.05になることも。
p値は「この結果が偶然起きた確率」を示すものであって、「効果の大きさ」や「推定の不確かさ」を直接示してはいません。
学術報告の標準がp値+信頼区間へ
こうした背景から、近年の学術論文では95%信頼区間(および効果量)の併記が推奨されています。
様々な学会や委員会から同様の声明やガイドラインが出ています。関連の深い団体のスタンスを見てみましょう。
アメリカ統計学会
統計学の権威であるアメリカ統計学会(ASA)は、p値の誤用や誤解が蔓延している状況を受けて声明を出しています。その中で「p値は効果の大きさや結果の重要性を測るものではない 」「p値だけでは、モデルや仮説に関する十分な証拠を示す指標とはならない 」と警鐘を鳴らしました。そして、p値を補完または置き換える手法として、効果の大きさや不確実性を直接評価できる「信頼区間」などの活用を推奨しています 。
A p-value, or statistical significance, does not measure the size of an effect or the importance of a result. Statistical significance is not equivalent to scientific, human, or economic significance. Smaller p-values do not necessarily imply the presence of larger or more important effects, and larger p-values do not imply a lack of importance or even lack of effect. Any effect, no matter how tiny, can produce a small p-value if the sample size or measurement precision is high enough, and large effects may produce unimpressive p-values if the sample size is small or measurements are imprecise. Similarly, identical estimated effects will have different p-values if the precision of the estimates differs. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis. Researchers should recognize that a p-value without context or other evidence provides limited information. For example, a p-value near 0.05 taken by itself offers only weak evidence against the null hypothesis. Likewise, a relatively large p-value does not imply evidence in favor of the null hypothesis; many other hypotheses may be equally or more consistent with the observed data. For these reasons, data analysis should not end with the calculation of a p-value when other approaches are appropriate and feasible.
参考・引用:https://www.tandfonline.com/doi/full/10.1080/00031305.2016.1154108 – d1e949
ICMJE(国際医学雑誌編集者委員会)
医学系ではICMJE(国際医学雑誌編集者委員会)のガイドラインで同様の方針が示されており、医療系論文でも95%信頼区間は標準的な報告項目になっています。
※ICMJEはNEJM・JAMA・Lancetなどの主要な医学雑誌が加盟しているグループで、学術論文の投稿・出版に関する統一規定を策定しています。
Describe statistical methods with enough detail to enable a knowledgeable reader with access to the original data to judge its appropriateness for the study and to verify the reported results. When possible, quantify findings and present them with appropriate indicators of measurement error or uncertainty (such as confidence intervals). Avoid relying solely on statistical hypothesis testing, such as P values, which fail to convey important information about effect size and precision of estimates. References for the design of the study and statistical methods should be to standard works when possible (with pages stated). Define statistical terms, abbreviations, and most symbols. Specify the statistical software package(s) and versions used. Distinguish prespecified from exploratory analyses, including subgroup analyses.
参考・引用:https://www.icmje.org/icmje-recommendations.pdf
アメリカ心理学会(APA)
アメリカ心理学会(APA)の Publication Manual(第7版)でも、統計的有意性の検定結果に加えて可能な限り効果量と信頼区間を報告することが推奨されています。
‒ inferential statistics, including
› results of all inferential tests conducted, including exact p values if null hypothesis significance testing (NHST) methods were used, and reporting the minimally sufficient set of statistics (e.g., dfs, mean square [MS] effect, MS error) needed to construct the tests
› effect-size estimates and confidence intervals on estimates that correspond to each inferential test conducted, when possible
› clear differentiation between primary hypotheses and their tests–estimates, secondary hypotheses and their tests–estimates, and exploratory hypotheses and their test–estimates
参考・引用:https://apastyle.apa.org/jars/quant-table-1.pdf
このように統計学会をはじめ医療系・心理学系などの領域を問わず、信頼区間や効果量についても報告を行うよう強く推奨されています。
論文での読み方:0またぎと1またぎ
実際の文献で95%信頼区間を目にするとき、特に注目したいのが「区間が0(または1)をまたいでいるかどうか」です。
平均値の差の場合:0をまたいでいるかどうか
2群間の平均値差を推定したとき、95%信頼区間が「0をまたぐ」かどうかで有意差の判断と対応しています。
- 95%CI が 0 をまたぐ(例:-2.1〜3.4) → p > 0.05(有意差なし)
- 95%CI が 0 をまたがない(例:0.5〜4.2) → p < 0.05(有意差あり)
これはp値と表裏一体の関係で、「95%信頼区間に0が含まれるかどうか」が「p値が0.05を超えるかどうか」にほぼ対応しています。
オッズ比・リスク比の場合:1をまたいでいるかどうか
オッズ比(OR)やリスク比(RR)は「効果なし」を表す値が0ではなく1です(比の場合、効果なしはOR=1)。
- 95%CI が 1 をまたぐ(例:0.7〜1.4) → p > 0.05(有意差なし)
- 95%CI が 1 をまたがない(例:1.2〜2.8) → p < 0.05(有意差あり)
フォレストプロットで見る95%信頼区間
メタアナリシスの結果を示す「フォレストプロット」では、95%信頼区間が横棒(ひげ)として表示されます。各研究の推定値が点、そこから伸びる横線が95%信頼区間です。一番下にある大きな菱形(ダイヤ)が各研究を統合した全体の推定値と95%信頼区間を示しています。

個々の研究を見るだけでは、効果があるのかはっきり分かりません。
これらの研究をメタアナリシスで統合すると、全体として推定される効果は一番下の青いいひし形となります。ひし形が縦の黒い実線をまたいでおらず、この介入(暴露)には効果がありそうだ、という解釈になります。
似ていて間違えやすい:95%信用区間(ベイズ統計)
「95%信頼区間」とよく似た名前で「95%信用区間(credible interval)」というものがあります。これはベイズ統計における区間推定の概念です。
この2つ、名前は似ていますが意味がまったく異なります。
| 95%信頼区間 | 95%信用区間 | |
| 統計の枠組み | 頻度主義統計 | ベイズ統計 |
| 真値の扱い | 固定値(定数) | 確率変数 |
| 「95%」の意味 | 繰り返し実験したとき95%の区間が真値を含む(割合) | 真値がその区間に存在する確率が95%(確率) |
| 直感との一致 | やや直感に反する | 直感的に理解しやすい |
95%信用区間のほうが、ふつうの言葉の意味に近い読み方ができます。「この区間に真値がある確率は95%」という、多くの人が95%信頼区間に期待している解釈が、実はベイズ統計の信用区間の話だった、というわけです。
頻度主義とベイズ統計のどちらが優れているという話ではなく、「使っている言葉の枠組みが違う」という点を知っておくと、論文や教科書をより正確に読めるようになります。
まとめ
- 95%信頼区間は「推定値の精度の指標」で、式は 標本平均 ± 1.96 × SE で計算できる
- 「95%信頼区間の中に真値がある確率が95%」は誤解。正しくは「繰り返し実験したとき95%の区間が真値を含む(割合の話)」
- p値だけの報告では限界があるため、学術論文では信頼区間・効果量の併記が推奨されている
- 論文では「0をまたぐ/またがない」「1をまたぐ/またがない」が読解の鍵
- ベイズ統計の95%信用区間は「真値がその区間にある確率」を直接示すもので、95%信頼区間とは概念が異なる


コメント