医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

ローレンツ曲線、ジニ係数の見方・求め方~森の統計辞典~

ローレンツ曲線、ジニ係数

ローレンツ曲線とは?

ローレンツ曲線とは、何割のサンプルが、何割の量を保持しているのかを可視化した曲線です。少しわかりにくいですね。

ある森で、100匹のリスが1日あたりに食べるどんぐりの数を調査します。

次の表は食べたどんぐりの数を階級リスの数を度数とした度数分布表です。各階級に属するリスが食べた合計のどんぐり数も加えてあります。

www.medi-08-data-06.work

ローレンツ曲線

1日あたりに0~15個どんぐりを食べるリスは76匹で、そのリス達が食べたどんぐりの合計は504個です。

ここにさらに一列、合計どんぐり数を度数とした累積相対度数を加えます。

ローレンツ曲線

リスの累積相対度数をx軸に、合計どんぐりの累積相対度数をy軸にプロットしたものが、ローレンツ曲線です。

ローレンツ曲線

ローレンツ曲線を見ることで、何割のリスが何割のどんぐりを食べることができるかを見ることができます。

今回の調査から、階級0~15と16~30に属する76+16=112匹(92%)のリスが食べた合計どんぐり数は、全体の70%を占めるということがわかります。

逆にいうと、残り8%のリスが、全体の30%のどんぐりを食べていることになります。これは不平等ですね。

ローレンツ曲線は不平等さを表す曲線として、よく使われ、45度の青いラインから、下に歪むほど不平等であることを表します。

ジニ係数とは?

ジニ係数とは、ローレンツ曲線と45度ラインの間の面積を2倍した値のことです。(茶色のどんぐり部分)

ジニ係数

ジニ係数は0~1の間になり、1に近づくほど不平等を表すことになります。
ジニ係数は、茶色の三角形の面積(0.5)から、下の三角形と台形の面積を引くことで求めることができます。

ジニ係数の計算方法

実際に求めてみるとジニ係数は、約0.3になります。

ちなみに、、
台形の面積は
(上辺+下辺)\times高さ\times0.5
で求めることができるので、
緑の台形の面積は、次のようになります。

\boldsymbol{(0.41+0.7)\times0.16\times0.5\simeq0.9}

また、ジニ係数は単体ではなく、他のジニ係数との比較を通して不平等さをはかります。
他の森のジニ係数を調査して、どちらの森がどんぐりが均等に配分されるかなどに使えますね。

まとめます

ローレンツ曲線とは

  • 何割のサンプルが、何割の量を保持しているのかを可視化した曲線

ジニ係数とは

  • ローレンツ曲線と45度ラインの間の面積を2倍した値
  • 0~1の間の値で、1に近づくほど不平等を表す

おすすめ参考書など

統計検定2級レベルまでを学ぶためのおすすめ参考書です。

※本記事は筆者が個人的に学んだこと感じたことをまとめた記事になります。所属する組織の意見・見解とは無関係です。