データサイエンス

バイアスとバリアンスの意味が分野で違い戸惑った話【医療・統計・データサイエンス】

データサイエンス

最近、機械学習の勉強をしている中で、「バイアス」「バリアンス」という用語に出会いました。
聞いたことのある言葉だな、と思ったものの、どうも文脈が違います。

医療、統計、機械学習。勉強する分野が広がるにつれて、同じ言葉でも意味が変わることがあるんだなと実感したので記事にしてみました。


医療の中で使われる「バイアス」「バリアンス」

私は本業が理学療法士ということもあり、最初にこれらの言葉に出会ったのは医療分野でした。

バイアス

医療分野でバイアスと言えば、認知バイアスを指すことが多いです。
例えば:

  • 錨下ろしバイアス(anchoring bias):最初に得た情報に引きずられてしまう
  • 早期閉鎖バイアス(Premature Closure):早すぎる判断で検討を打ち切ってしまう
  • 利用可能性バイアス(availability bias):思い出しやすい情報を過大評価してしまう

こういったバイアスは、診断や治療方針の決定に無意識の影響を与える、厄介な存在として知られています。

バリアンス

「バリアンス」と聞くと、クリニカルパスからの逸脱を思い浮かべる方も多いかもしれません。
たとえば、標準的な回復経過から外れたケースを指して、「この患者はバリアンス」と表現されます。

原因はさまざまで:

  • 患者自身の要因(基礎疾患など)
  • 医療提供側の要因(ミス、方針の違いなど)
  • 医療システムの要因(施設の都合や連携の問題)

といった分類で整理することもあります。


統計・医学研究の世界での意味

医療と統計は近い分野ですが、用語の意味は少しずつズレてきます。

バイアス

統計におけるバイアスは、推定や測定に生じる系統的な誤りを指します。

  • 選択バイアス:調査対象の選び方が偏っている
  • 情報バイアス:データの集め方や解釈に誤りがある
  • 交絡バイアス:第三の因子が関係を歪めている

医療の「認知バイアス」が個人の思考の偏りなのに対し、統計のバイアスはより「データや研究設計」寄りの話です。

バリアンス

ここで出てくる「バリアンス」は、**統計量としての「分散」**です。
データが平均からどのくらい散らばっているかを数値で表すもので、標準偏差の平方にあたります。

使う側としては、数式を眺めているとよく登場してくる“計算上便利な存在”ですね。


機械学習・データサイエンスでのバイアス・バリアンス

そして、機械学習。

ここではまた別の意味で「バイアス」「バリアンス」が登場します。
このふたつは、モデルの学習の「適切さ」を語るうえでの重要なキーワードです。

バイアス

モデルが訓練データのパターンをうまく捉えられていない状態。
いわゆるアンダーフィッティングの状態です。

「全体的にズレている」「シンプルすぎて本質を捉えきれていない」という意味でのバイアスです。

バリアンス

モデルが訓練データに過剰に適合してしまっている状態。
これはオーバーフィッティングと呼ばれます。

些細なノイズまで覚えてしまい、汎用性が低くなる危険があります。

U字型のデータをモデル化した時の理想の状態と高バイアス/高バリアンスな状態をグラフにすると以下のような具合です。

U字型のデータにモデルが学習した曲線がうまくフィットしています。

データはU字型なのにモデルが直線を当てはめており、データの特性が反映されていません。

データはU字型ですが、モデルが細かい特徴を拾い過ぎて形が崩れています。


似てるようで違う、でもやっぱり似てる?

こうやって整理してみると、どの業界でも「バイアス」は何らかの偏り、「バリアンス」はばらつきを表すようです。

ここで紛らわしいのが「医療や統計でいうバイアス(関係のない情報を拾ってしまう)」が、機械学習では「バリアンス(余計な特徴を拾いすぎる)」とイメージ的に近く感じられることです。

そのせいで、私はときどき「機械学習のバイアスとバリアンス、どっちがどっちだっけ?」と混乱してしまいます。


まとめ

バイアス(Bias)バリアンス(Variance)
英単語の一般的な意味傾向、先入観、偏見(weblioから)相違、不一致、食い違い、不和、敵対、分散(weblioから)
医療考え方の偏りや偏見。クリニカルパスからの逸脱を指す
医療研究・統計研究結果に影響を与える偏り。分散
(データの散らばり具合の指標)
機械学習 データサイエンスモデルの学習が不十分で、データの特徴をとらえきれていない状態モデルの学習が過剰で、データの些細な変動を拾い過ぎている状態

新しい分野の言葉には注意が必要

新しい分野を学ぶときには、新鮮な刺激と同時に、言葉の定義の違いにも注意が必要です。

元の分野では馴染みのある単語でも、別の分野では全く違う意味を持っているかもしれません。
でも、そんなズレを見つけて「あれ?」と思うこと自体が、学びの面白さでもあるなあと感じます。

コメント

タイトルとURLをコピーしました