医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

箱ひげ図と外れ値~森の統計辞典~

箱ひげ図と外れ値

外れ値とは?

外れ値とは、他のデータよりも明らかに外れた値を持つデータのことを指します。
外れ値を判断するための基準はいくつかありますが、四分位数と箱ひげ図を使う方法があります。

箱ひげ図と外れ値

四分位数を使った外れ値の判断方法は、次のようになります。

  • 第一四分位数- 箱の長さ \times1.5より小さい
  • 第三四分位数+ 箱の長さ \times1.5より大きい

森からうさぎを20羽連れてきて、箱ひげ図を書いてみます。 www.medi-08-data-06.work

通常であれば、上ひげ、下ひげは最大値、最小値になるのですが、
今回は、外れ値を判断するため、第一、第三四分位から箱の長さ \times1.5 cm離れたところにひげをかきます。

箱ひげ図と外れ値

今回は、第一四分位が30cm、第三四分位が40cmで箱の長さが10cmなので、上下15cmのところが上ひげ、下ひげになります。
上ひげ、下ひげから外れる値は点で表し、外れ値とします。

ちなみに、、
箱の長さのことをIQR(interquartile range)
または四分位範囲と呼びます。

まとめます

外れ値とは?

  • 他のデータよりも明らかに外れた値を持つデータ

箱ひげ図と外れ値

  • 第一四分位数- 箱の長さ \times1.5より小さい
  • 第三四分位数+ 箱の長さ \times1.5より大きい
  • 第一四分位数から第三四分位数までの箱の長さをIQR(四分位範囲)と呼ぶ

おすすめ参考書など

統計検定2級レベルまでを学ぶためのおすすめ参考書です。

統計学がわかる ファーストブック

統計学がわかる ファーストブック

統計学が最強の学問である

統計学が最強の学問である

  • 作者:西内 啓
  • 発売日: 2013/01/24
  • メディア: 単行本(ソフトカバー)

また、udemyなどのオンライン講座での学習もおすすめです。
↓↓↓

※本記事は筆者が個人的に学んだこと感じたことをまとめた記事になります。所属する組織の意見・見解とは無関係です。