医療・リハビリの現場や論文、研究データを見ていると、
「平均」「標準偏差(SD)」「中央値」「95%信頼区間」などの用語が当たり前のように登場します。
しかし、
- 平均と中央値は何が違うのか
- 標準偏差と標準誤差はどう使い分けるのか
- なぜ論文では「平均±SD」や「95%CI」が併記されるのか
と聞かれると、なんとなく理解しているつもりでも、説明するのは難しいと感じる方も多いのではないでしょうか。
基礎統計量は、データの全体像を把握し、結果を正しく解釈するための「共通言語」です。
統計解析そのものを理解する前に、「まず数字が何を意味しているのか」を押さえておくことが非常に重要になります。
この記事では、
- 代表値(平均・中央値・最頻値)
- ばらつきを表す指標(SD、IQR、MADなど)
- 推論のための指標(標準誤差・信頼区間)
- 分布の形を表す指標(歪度・尖度)
について、医療現場での具体例を交えながら、直感的に理解できるように解説します。
統計が苦手な方でも、「論文の数字の意味が分かる」ことを目標に読み進めてみてください。
データの代表値
●平均値(Mean)
すべての値を足し、データ数で割ったものです。
「全体の傾向を一言で表すとどうなるか?」を知るのに便利です。
特徴:
- 直感的で説明しやすい
- 多くの統計手法で基準として利用される
- 外れ値に弱い(極端な値が1つあるだけで大きく動く)
医療の場面例:
患者の年齢や検査値の平均を示すと、集団の概要を理解しやすいです。
●中央値(Median)
データを小さい順に並べ、真ん中にくる値です。
特徴:
- 外れ値の影響を受けにくい
- “典型的な患者”を示したいときに有用
医療の場面例:
入院日数やリハビリ日数のように、極端に長くなる人が少数混じるデータでは中央値の方が実態をよく表します。
●最頻値(Mode)
最もよく出てくる値です。
データの中で「一番多いカテゴリ・値」を示します。
特徴:
- カテゴリデータでも使える(例:血液型など)
- 分布が複数の山を持つ場合(双峰性など)にも注目できる
医療の場面例:
最も多かった併存症、よく選択された治療方法など。
■ばらつき(データの「広がり」を知る指標)
●標準偏差(SD:Standard Deviation)
平均からのズレがどれくらい大きいかを表す指標です。
意味合いのイメージ:
- SDが小さい → 多くの人が平均付近に集まっている
- SDが大きい → データが広く散らばっている(患者の状態がバラバラ)
計算:
分散の平方根(後述)で求めます。
●分散(Variance)
各値が平均からどれくらい離れているか(偏差)を二乗して平均したもの。
特徴:
- 標準偏差の“元の指標”
- 単位が二乗なので直感的には分かりづらいが、統計計算では最も基本
●中央値絶対偏差(MAD:Median Absolute Deviation)
各値が中央値からどれくらい離れているかの“中央値”。
特徴:
- 外れ値の影響をほとんど受けない
- ロバスト統計でよく使われる
- 標準偏差の“外れ値に強いバージョン”
医療の例:
認知症スコアや検査値で極端に高い/低い患者が混ざるときに有効。
●四分位範囲(IQR:Interquartile Range)
データの 中央50%の広がり を表す指標。
計算式: IQR = Q3 − Q1
特徴:
- 外れ値に強い
- データの「一般的な範囲」を示すのに最適
- 箱ひげ図(Boxplot)でも重要
●最小値(Min)
最も小さい値。外れ値の確認にも使う。
●最大値(Max)
最も大きい値。レンジ(範囲)= Max − Min として使うことも多い。
●四分位数(Q1, Q2, Q3)
データを4等分したときの区切り。
- Q1:下位25%の境界
- Q2:50%の位置(=中央値)
- Q3:上位25%の境界
医療の例:
検査値の“半数が入る範囲”を見ることで、集団の典型的な分布を把握できます。
■推論(母集団の特徴を推測するための指標)
●標準誤差(SE:Standard Error)
「平均値がどれくらい正確に推定できているか」を表す指標です。
標本平均は、母集団の平均値を直接測っているわけではなく、限られた人数のデータから推定した値です。
そのため、選ばれたサンプルによって推定結果には多少の誤差が生じます。
標準誤差は、
同じ母集団から同じ人数のサンプルを何度も抽出して平均値を求めたとき、
その平均値が「どの程度の精度で母集団平均を推定できているか」
を表す数値です。
言い換えると、
- 標準誤差が小さい → 平均値の推定精度が高い(信頼しやすい)
- 標準誤差が大きい → 平均値の推定精度が低い(不確かさが大きい)
という意味になります。
ここで重要なのは、
- **標準偏差(SD)**は「患者さん同士のばらつき」
- **標準誤差(SE)**は「平均値という代表値の推定精度」
を表している、という点です。
計算
SE = SD ÷ √n
特徴
- サンプル数が多いほど小さくなる
→ 人数が増えるほど、平均値は母集団平均をより正確に推定できる - 平均値の信頼区間の計算に使われる
→ 「この平均値がどの範囲まで信頼できるか」を示す基礎指標
医療研究でのイメージ
症例数が多い研究ほど、平均値は母集団の実態を高い精度で推定できます。
標準誤差は、その推定の精度を数値で示したものと考えると理解しやすくなります。
●平均値の信頼区間(Confidence Interval)
これも標準誤差と同じく推定値の精度の指標です。
良く使われるのは95%信頼区間(95%CI)
意味(誤解されがちだが実際はこう):
同じ方法で推定を繰り返したとき、真の平均を約95%の割合で含むように作られた範囲、という考え方。
医療での例:
リハビリ介入後のFIM改善量が「平均+95%CI」で示されることが多い。
■分布(データの形を知る指標)
●歪度(Skewness)
分布が左右どちらに偏っているか。
- 正の歪度(右に長い):高い値の人が少数いる
- 負の歪度(左に長い):低い値の人が少数いる
例:
入院日数は右に長くなりやすい(長期入院が少数いるため)。
●尖度(Kurtosis)
分布の「尖り具合」や「尾の重さ」を示します。
- 尖度が大きい:
- 中央付近にデータが密集
- 外れ値(極端に大きい/小さい値)が出やすい
- 尖度が小さい:
- 平らで広く分布している
例:
検査値の分布で、極端に高い値の人が混じると尖度が高くなる。
基礎統計量は、単なる計算結果ではなく、
「データがどんな集団なのか」「その代表値がどれくらい信頼できるのか」
を伝えるための重要な情報です。
まとめ
この記事で紹介したポイントを整理すると、
- 平均・中央値・最頻値は、それぞれ異なる「代表性」を持つ
→ データの性質によって、適切な指標は変わる - 標準偏差・IQR・MADは、患者間のばらつきを理解するために不可欠
→ 外れ値の影響を受けやすいかどうかが重要な判断材料 - 標準誤差と信頼区間は、「平均値そのもの」ではなく
平均値の推定精度を示している - 歪度・尖度を見ることで、分布のクセや外れ値の存在に気づける
ということになります。
論文や研究報告で数値を見るときは、
「平均はいくつか?」だけでなく、
「ばらつきはどの程度か?」「外れ値に引っ張られていないか?」「この平均はどれくらい信頼できるのか?」
と一歩踏み込んで考えることが大切です。
基礎統計量を正しく理解できるようになると、
- 論文の結果が鵜呑みにされなくなる
- データの“違和感”に気づける
- 統計解析の結果を臨床にどう活かすか考えやすくなる
という大きなメリットがあります。
次のステップとしては、
**「どの統計量を、どのデータで使うべきか」**や、
「t検定・回帰分析・分類モデルで基礎統計量がどう関係するか」
を学ぶと、さらに理解が深まります。
ぜひ、日々目にするデータや論文を、今回の視点で見直してみてください。



コメント