医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

2021-05-01から1ヶ月間の記事一覧

標準化とは?~森の統計辞典~

標準化とは? 標準化の方法 まとめます 標準化とは おすすめ参考書など 標準化とは? 標準化とは、データの平均を0、分散を1にすることです。標準化をすることで、スケールの違うデータ同士を比較することができます。 森のうさぎとリスの体重を調べて、箱ひ…

ローレンツ曲線、ジニ係数の見方・求め方~森の統計辞典~

ローレンツ曲線とは? ジニ係数とは? まとめます ローレンツ曲線とは ジニ係数とは おすすめ参考書など ローレンツ曲線とは? ローレンツ曲線とは、何割のサンプルが、何割の量を保持しているのかを可視化した曲線です。少しわかりにくいですね。 ある森で、1…

相対度数、累積度数とは?~森の統計辞典~

相対度数とは? 累積度数とは? まとめます 相対度数とは 累積度数とは おすすめ参考書など 相対度数とは? 相対度数とは、全体に対する各度数の割合です。 www.medi-08-data-06.work 森からうさぎ100羽連れてきて、度数を求めます。相対度数は、各度数を全…

度数と階級とは?~森の統計辞典~

度数と階級とは? まとめます 度数とは? 階級とは? 次に読む おすすめ参考書など 度数と階級とは? 度数とは、データを区切ったグループの中にいるデータ数のことです。また、そのグループのことを階級と呼びます。 森のうさぎを100羽連れてきて、体の大き…

箱ひげ図と外れ値~森の統計辞典~

外れ値とは? 箱ひげ図と外れ値 まとめます 外れ値とは? 箱ひげ図と外れ値 おすすめ参考書など 外れ値とは? 外れ値とは、他のデータよりも明らかに外れた値を持つデータのことを指します。 外れ値を判断するための基準はいくつかありますが、四分位数と箱…

箱ひげ図とは?~森の統計辞典~

箱ひげ図とは? 箱ひげ図の見方 まとめます 箱ひげ図とは? 次に読む おすすめ参考書など 箱ひげ図とは? 四分位数を見やすくグラフにしたものです。 www.medi-08-data-06.work 森からうさぎを40羽連れてきて、次のステップで箱ひげ図を作成します。 うさぎ…

四分位数(quantile)とは?~森の統計辞典~

四分位数(quantile)とは? 四分位数の呼び名 まとめます 四分位数とは? 次に読む おすすめ参考書など 四分位数(quantile)とは? 四分位数とは、データを大きさの順に並べて、個数を4等分できる値のことです。 森からうさぎを40羽連れてきて、体の大きさ順…

分散、標準偏差とは?~森の統計辞典~

分散とは? 分散の計算方法 標準偏差とは? まとめます 分散とは 標準偏差とは おすすめ参考書など 分散とは? 分散とはデータのばらつきの(2乗)平均値です。平均値から離れたデータが多いほど、分散は大きくなります。 www.medi-08-data-06.work 森のうさ…

平均値(mean)、中央値(median)、最頻値(mode)とは~森の統計辞典~

平均値とは 中央値とは 最頻値とは まとめます 平均(mean)とは 中央値(median)とは 最頻値(mode)とは 次に読む おすすめ参考書など 平均値とは 全てのデータの値を足して、データの数で割った値のことです。 森に住む10匹のうさぎの体重を測定したとします。…