医療データ分析に使える勾配ブースティングとは？｜決定木やランダムフォレストとの違いをわかりやすく解説

はじめに
少しずつ予測を上手にしていくという考え方
なぜ「勾配」ブースティングと呼ばれるのか？
ランダムフォレストとの違い
医療データとの相性が良い理由
予測の理由を説明できる：SHAP値の活用
まとめ

はじめに

近年、医療の現場でも「AI予測モデル」や「機械学習」という言葉を耳にする機会が増えました。
退院時のADL予測、転倒リスクの評価、再入院の予測など、臨床データを活用して患者さんの将来を見通す取り組みが進んでいます。

こうした予測モデルの中でも、特に高い精度を誇るのが 勾配ブースティング（Gradient Boosting） です。
一見難しそうな名前ですが、考え方はとてもシンプルです。
「一度で完璧な予測を目指す」のではなく、「少しずつ誤りを修正していく」ことで、最終的に精度を高めていく方法です。

この記事ではlightGBMやXGBoostでも使用されている、勾配ブースティングについて解説します。

少しずつ予測を上手にしていくという考え方

勾配ブースティングでは、決定木と呼ばれるシンプルな予測モデルを複数組み合わせて使います。
決定木は、条件分岐を繰り返して結果を導く「トーナメント表」のような構造を持つモデルです。

この手法の基本にあるのは、「最初は大まかな予測しかできない単純なモデルを作り、そこから少しずつ修正していく」という考え方です。

たとえば、ある患者さんの退院時FIMを予測するとします。
最初のモデル（1本目の木）はおおまかな傾向しかつかめず、誤差が多いかもしれません。
しかし、その「外れた部分＝予測の誤差」を次のモデル（2本目の木）が学び、さらに次のモデルが残った誤差を修正していく……。
この流れを繰り返すことで、モデルは少しずつ賢くなり、最終的に非常に高い精度の予測が可能になります。

この「誤差を減らす方向に少しずつ修正していく」仕組みを、機械学習では 勾配（gradient） と呼びます。
つまり勾配ブースティングとは、「誤差を減らす方向を探しながら、少しずつ成長していく予測モデル」のことなのです。

※ちなみに、決定木のように単独ではあまり精度が高くないモデルを「弱学習器」と呼びます。
一方で、ディープラーニングのように1つでも高い精度を出せるモデルを「強学習器」と言います。

なぜ「勾配」ブースティングと呼ばれるのか？

「勾配」という言葉は、モデルがどの方向に修正すれば誤差が小さくなるかを教えてくれる「地図」のようなものです。

誤差（損失関数）を数値化する

モデルを作るとき、まず「どれくらい間違っているか」を数値で表す必要があります。
これを 損失関数（loss function） と呼びます。

たとえば退院時FIMを予測したときに、

実際のFIM：80
予測したFIM：70
であれば、誤差は10です。

この誤差をすべての患者さんで集計したものが損失関数であり、AIはこの損失が最も小さくなるように学習を進めていきます。

「勾配」は誤差を減らす方向を示す

では、損失を減らすにはどちらに動けばよいのでしょうか？
もし「予測値を少し上げたら損失が減った」なら、上げる方向に進むのが正解です。
逆に「下げたら損失が減った」なら、下げる方向に進むべきです。

このように、「誤差をどちらに動かせば小さくできるか」を教えてくれるのが 勾配（gradient） です。
つまり勾配とは、**間違いを直すための“進むべき方向”**を示す矢印のようなものなのです。

次の決定木は勾配をもとに修正する

勾配ブースティングでは、1本目の決定木で予測した結果を見て、
「どこで、どの方向に誤差があるのか」を勾配から判断し、
その修正を次の木（2本目）が学びます。

この繰り返しによって、モデル全体が少しずつ誤差を減らしていくのです。

したがって「勾配ブースティング」という名前は、
**“勾配（誤差を減らす方向）を利用して、モデルをブースト（改良）していく”**という仕組みを表しています。

ランダムフォレストとの違い

勾配ブースティングと混同されやすいのが ランダムフォレスト です。
どちらも「複数の決定木を組み合わせる」方法ですが、その考え方は異なります。

特徴	ランダムフォレスト	勾配ブースティング
木の作り方	すべての木を並列に作成して一斉に学習し、平均を取る	それぞれの木を縦に並べて、まえの木のデータを使いつつ順次学習
学習の目的	予測の安定性（ばらつきを減らす）	予測の精度（誤差を減らす）
計算コスト	比較的軽い	やや重い
精度	良好	さらに高いことが多い