医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

標準化とは?~森の統計辞典~

標準化

標準化とは?

標準化とは、データの平均を0、分散を1にすることです。標準化をすることで、スケールの違うデータ同士を比較することができます。

森のうさぎとリスの体重を調べて、箱ひげ図を書きます。森のうさぎ達の体重中央値は2kgぐらい、リスは1kgぐらいです。

箱ひげ図

www.medi-08-data-06.work

うさぎとリスを1羽と1匹連れてきて体重を測ってみました。

  • うさぎ 3kg
  • リス 2kg

どちらの方が体重が重たいかを知りたい時、うさぎとリスでは、平均的な体重が違うので単純に比較はできません。

ここで登場するのが標準化です。

標準化の方法

標準化は次のステップで行います。

  • Step1:各データから、平均値を引く
  • Step2:各データを分散で割る

体重の平均値と分散は次の通りです。

平均値 分散
リス 1.2 0.16
うさぎ 2.3 0.44

www.medi-08-data-06.work

うさぎ体重の標準化を視覚的に表してみます。Step1は、各データから平均値(2.3kg)を引きます。全データから平均値を引いているので、データが下方向にシフトするイメージです。ここでデータの平均値は0になります。

標準化

Step2では、各データを分散で割ります。うさぎ体重の分散は1より小さいので、値は少し膨らみます。ここでデータの分散が1になります。

標準化

標準化を使って、3kgうさぎと2kgリスの体重を比較してみます。

うさぎ
 \dfrac{3-2.3}{0.44}=1.4kg

リス
 \dfrac{2-1.2}{0.16}=5kg

2kgリスの方が値が大きくなりました。

標準化をした値の比較は、それぞれの集団の平均的な値からどれぐらい離れているかを比較しているとも解釈できます。

ちなみに、、

標準化と似ている概念に、正規化偏差値があります。

正規化は、最小値が0、最大値が1になるように値をスケーリングする手法です。

平均が50、分散が10になるよう、標準化した値に50を足して、10をかけた値が偏差値です。

まとめます

標準化とは

  • データの平均を0、分散を1にすること
  • 平均的な値からどれぐらい離れているかを比較することができる

おすすめ参考書など

統計検定2級レベルまでを学ぶためのおすすめ参考書です。

※本記事は筆者が個人的に学んだこと感じたことをまとめた記事になります。所属する組織の意見・見解とは無関係です。