医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

分散、標準偏差とは?~森の統計辞典~

標準偏差とは

分散とは?

分散とはデータのばらつきの(2乗)平均値です。
平均値から離れたデータが多いほど、分散は大きくなります。

www.medi-08-data-06.work

森のうさぎの体重を見てみましょう。
上のグループも、下のグループも平均の体重は3.5kgぐらいですが、下のグループの方が分散は大きくなります。

分散とは

分散の計算方法

例として、上のグループのうさぎ体重の分散は次のステップで計算します。
(簡単にするため小数点以下は切り捨てます。)

  1. 平均値を計算する。
  2. 平均値とそれぞれのうさぎの体重の差を計算する。
  3. ↑を二乗した値の平均値を計算する。

分散計算方法

ちなみに下のうさぎグループの分散は、6.75程度になります。

標準偏差とは?

標準偏差とは、分散の平方根(ルート)のことです。
分散はデータのばらつきを2乗しているので、単位の解釈が難しいです。そこで、分散の平方根をとることで、単位を元に戻します。

標準偏差とは

うさぎ体重のばらつきは1.56kg2乗だと言われてもピンときませんが、うさぎ体重のばらつきは1.2kgだと言われた方がピン来ますよね。

ちなみに、、
平均からの差を偏差と呼びます。
標準的な偏差なので、標準偏差なんですね。

まとめます

分散とは

  • データのばらつきの(2乗)平均値

標準偏差とは

  • 分散の平方根(ルート)
  • データのばらつきの平均値

おすすめ参考書など

統計検定2級レベルまでを学ぶためのおすすめ参考書です。

統計学がわかる ファーストブック

統計学がわかる ファーストブック

統計学が最強の学問である

統計学が最強の学問である

  • 作者:西内 啓
  • 発売日: 2013/01/24
  • メディア: 単行本(ソフトカバー)

また、udemyなどのオンライン講座での学習もおすすめです。

↓↓↓

※本記事は筆者が個人的に学んだこと感じたことをまとめた記事になります。所属する組織の意見・見解とは無関係です。