回帰直線とは？数式なしでわかる仕組みと最小二乗法【インタラクティブで理解】

はじめに
回帰直線とは何か
この直線で何がわかる？
まず自分で引いてみよう
残差とは：ズレを数値で表す
なぜ二乗するのか
統計ソフトはどうやって直線を決めているのか
まとめ
回帰直線と関連する記事

はじめに

論文や教科書で散布図を見たとき、点の集まりの中に一本の直線が引かれている事があります。

あの直線、何を意味しているのか、ちゃんと説明できますか？

「なんとなく真ん中を通っている線」ではあるのですが、実はもう少し具体的な意味があります。回帰直線は、「片方の値がわかれば、もう片方をこのくらいと予測できる」という対応関係を一本の線で表したものです。

この記事では、回帰直線が「何を意味するのか」から始めて、「どうやって決まるのか」までを、数式なしで順番に理解していきます。

回帰直線とは何か

リハビリの現場で、こんな疑問を持ったことはないでしょうか。

「訓練時間が長い患者ほど、FIMの改善度が高い傾向があるのだろうか？」

こういった「2つの変数の関係」を調べるとき、まず散布図を描いてみます。横軸に訓練時間、縦軸にFIM改善度をプロットすると、点の集まりがざっくりと右肩上がりになっているかもしれません。

でも、点がバラバラに散らばっているだけでは、関係の「傾向」を人に説明するのは難しい。そこで登場するのが回帰直線です。

回帰直線とは、「片方の値がわかれば、もう片方はこのくらい」という予測の対応関係を、一本の直線で表したものです。

散布図の点ひとつひとつは個々の患者のデータですが、回帰直線はそのデータ全体の「傾向」を要約しています。全員にぴったり当てはまるわけではありませんが、全体としてもっとも外れの少ない予測を与えてくれる線です。

この直線で何がわかる？

回帰直線がわかると、2つのことができるようになります。

予測ができる

直線の上の値を読むだけで、「訓練時間が80時間の患者なら、FIM改善度はだいたい何点くらいか」という予測が立てられます。もちろん個人差はありますが、集団の傾向としての目安になります。

傾きの意味が読める

回帰直線には傾きがあります。この傾きは、「横軸の変数が1単位増えたとき、縦軸の変数がどのくらい変化するか」を表しています。たとえば傾きが0.3なら、「訓練時間が1時間増えるごとに、FIM改善度が平均0.3点上がる傾向がある」※と読めます。

論文で回帰分析の結果が報告されているとき、この傾き（回帰係数）の値と向きを見るだけで、2つの変数の関係の強さと方向が把握できます。

ただし、予測には限界がある

回帰直線はあくまで「傾向」の要約です。個々のデータは直線の上にぴったり乗るわけではなく、必ずズレが生じます。そのズレをどう扱うかが、この先の話につながります。

※これは例えです。実際のリハビリ効果について根拠があるものではありません。

まず自分で引いてみよう

回帰直線が「予測の直線」だとわかったところで、一つ試してみましょう。

下の散布図には、訓練時間とFIM改善度のデータが点で表示されています。この点の集まりに対して、「もっとも予測精度が高そうな直線」を自分の感覚で引いてみてください。

直線の端をドラッグすると傾きが変わり、中央をドラッグすると上下に動きます。

どうでしょうか。なんとなく「これくらいかな」という直線は引けたと思います。

「正解を確認する」ボタンを押すと、数学的に計算された回帰直線が表示されます。自分の直線と比べてみてください。

ぴったり一致した方は少ないのではないでしょうか。見た目では「だいたい合っている」と思っていても、微妙にズレていることが多いはずです。

これは感覚が悪いわけではありません。「全データに対してもっとも外れの少ない直線」を目で判断するのは、そもそも難しいのです。

では、コンピューターはどうやってその直線を決めているのでしょうか。そのカギが「残差」という概念です。

※データは機械的に生成した架空のものです。

残差とは：ズレを数値で表す

直線を引いたとき、各データ点はぴったり直線の上に乗るわけではありません。「直線が予測する値」と「実際の値」の間には、必ずズレが生じます。このズレのことを残差と呼びます。

たとえば、訓練時間が100時間の患者について、直線が「FIM改善度は30点」と予測していたのに、実際には25点だったとします。このとき残差は −5点です。

残差は、直線の「予測の外れ具合」を数値で表したものです。残差が大きいほど、その直線はそのデータ点から遠い、つまり予測が外れているということになります。

グラフにするとこんな感じです。

👇グラフの直線は動かせるようになっています。直線と残差の変化を見てみてください。

では、全データ点の残差をまとめて「全体的な外れ具合」として数値化するにはどうすればよいでしょうか。

単純に合計すればよさそうに思えますが、ここに落とし穴があります。残差にはプラスもマイナスもあります。「予測より高かった点」と「予測より低かった点」の残差が打ち消し合って、合計がゼロに近くなってしまうことがあるのです。当てはまりが悪い直線でも、プラスとマイナスが相殺されると「良い直線」に見えてしまいます。

この問題をどう解決するか、が次の節の話です。

なぜ二乗するのか

残差をそのまま合計するとプラスマイナスが相殺される、という問題を解決する方法はいくつか考えられます。たとえば残差の符号を無視して足す（絶対値の合計）という方法もあります。

しかし統計では、残差を二乗してから合計するという方法が使われています。

二乗することには、二つの嬉しい効果があります。

① プラスマイナスの相殺がなくなる

残差が +5 でも −5 でも、二乗すると両方 25 になります。符号が消えるので、打ち消し合いが起きません。

② 大きなズレが強調される

残差が 2 のときは二乗して 4、残差が 4 のときは二乗して 16 です。ズレが2倍になると、二乗値は4倍になります。つまり、大きく外れたデータ点ほど、全体の評価に強く影響します。

これは直感的にも自然なことです。「少しズレた点がたくさんある直線」より「大きくズレた点が1つある直線」の方が、予測として問題があると考えるわけです。

この「残差を二乗したものの合計」を**残差二乗和（SSE）**と呼びます。SSEが小さいほど、直線はデータ全体に対してよく当てはまっている、つまり予測精度が高いということになります。

統計ソフトはどうやって直線を決めているのか

ここまでの話をまとめると、こうなります。

良い直線　＝　残差が小さい直線　＝　SSEが小さい直線

つまり、SSEを最小にするような直線を選べば、それがもっとも当てはまりの良い直線だということです。この考え方を**最小二乗法（OLS: Ordinary Least Squares）**と呼びます。

ExcelでもRでもSPSSでも、回帰直線を引くときはこの最小二乗法が使われています。ソフトウェアが自動で計算してくれているので普段は意識しませんが、裏側ではSSEを最小にする傾きと切片を数学的に求めています。そして、この条件を満たす直線は必ず一本に決まります。だから誰がやっても同じ結果が得られます。

感覚ではなかなか一致しなかった冒頭のゲームの「正解」は、このSSEを最小にする直線だったわけです。

実際に体感してみましょう。

下のゲームでは、各データ点から直線までの残差の二乗が正方形の面積として表示されています。正方形が小さいほど残差の二乗が小さく、正方形の面積の合計がSSEです。直線を動かしながら、SSEをできるだけ小さくしてみてください。

③のゲームで感覚的に引いた直線と、SSEを意識して動かした直線。結果は近かったでしょうか、それとも意外とズレていたでしょうか。