医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

統計学

確率分布と確率変数ってなに?~森の統計辞典~

確率分布とは? 確率変数とは? 確率分布の特徴 まとめます 確率分布とは 確率変数とは おすすめ参考書など 確率分布とは? 確率分布とは、相対的な物事の起こりやすさを表したものになります。 森にはいろいろな大きさのうさぎがいます。その中で、うさぎの…

帰無仮説と有意水準ってなに?~森の統計辞典~

帰無仮説とは? 有意水準とは? まとめます 帰無仮説とは? 有意水準とは? おすすめ参考書など 帰無仮説とは? 帰無仮説とは、調べたいことと反対の仮説のことです。 ”森のうさぎの耳はリスより長い”ことを証明します。この仮説を証明するには、森の全てのう…

標準化とは?~森の統計辞典~

標準化とは? 標準化の方法 まとめます 標準化とは おすすめ参考書など 標準化とは? 標準化とは、データの平均を0、分散を1にすることです。標準化をすることで、スケールの違うデータ同士を比較することができます。 森のうさぎとリスの体重を調べて、箱ひ…

ローレンツ曲線、ジニ係数の見方・求め方~森の統計辞典~

ローレンツ曲線とは? ジニ係数とは? まとめます ローレンツ曲線とは ジニ係数とは おすすめ参考書など ローレンツ曲線とは? ローレンツ曲線とは、何割のサンプルが、何割の量を保持しているのかを可視化した曲線です。少しわかりにくいですね。 ある森で、1…

相対度数、累積度数とは?~森の統計辞典~

相対度数とは? 累積度数とは? まとめます 相対度数とは 累積度数とは おすすめ参考書など 相対度数とは? 相対度数とは、全体に対する各度数の割合です。 www.medi-08-data-06.work 森からうさぎ100羽連れてきて、度数を求めます。相対度数は、各度数を全…

度数と階級とは?~森の統計辞典~

度数と階級とは? まとめます 度数とは? 階級とは? 次に読む おすすめ参考書など 度数と階級とは? 度数とは、データを区切ったグループの中にいるデータ数のことです。また、そのグループのことを階級と呼びます。 森のうさぎを100羽連れてきて、体の大き…

箱ひげ図と外れ値~森の統計辞典~

外れ値とは? 箱ひげ図と外れ値 まとめます 外れ値とは? 箱ひげ図と外れ値 おすすめ参考書など 外れ値とは? 外れ値とは、他のデータよりも明らかに外れた値を持つデータのことを指します。 外れ値を判断するための基準はいくつかありますが、四分位数と箱…

箱ひげ図とは?~森の統計辞典~

箱ひげ図とは? 箱ひげ図の見方 まとめます 箱ひげ図とは? 次に読む おすすめ参考書など 箱ひげ図とは? 四分位数を見やすくグラフにしたものです。 www.medi-08-data-06.work 森からうさぎを40羽連れてきて、次のステップで箱ひげ図を作成します。 うさぎ…

四分位数(quantile)とは?~森の統計辞典~

四分位数(quantile)とは? 四分位数の呼び名 まとめます 四分位数とは? 次に読む おすすめ参考書など 四分位数(quantile)とは? 四分位数とは、データを大きさの順に並べて、個数を4等分できる値のことです。 森からうさぎを40羽連れてきて、体の大きさ順…

分散、標準偏差とは?~森の統計辞典~

分散とは? 分散の計算方法 標準偏差とは? まとめます 分散とは 標準偏差とは おすすめ参考書など 分散とは? 分散とはデータのばらつきの(2乗)平均値です。平均値から離れたデータが多いほど、分散は大きくなります。 www.medi-08-data-06.work 森のうさ…

平均値(mean)、中央値(median)、最頻値(mode)とは~森の統計辞典~

平均値とは 中央値とは 最頻値とは まとめます 平均(mean)とは 中央値(median)とは 最頻値(mode)とは 次に読む おすすめ参考書など 平均値とは 全てのデータの値を足して、データの数で割った値のことです。 森に住む10匹のうさぎの体重を測定したとします。…

中心極限定理って結局何なのさ

中心極限定理とは、統計学を学び始めると必ずお目にかかる定理なのですが、安直に理解していると大変な勘違いをしてしまう定理です。しかし、いざ理解しようとしても、解説には難解なものも多くイメージしにくいのもまた現状です。今回はそんな中心極限定理…

R vs Python:統計するならどっちいいの?

データ解析をする上で、Rを使うべきかPythonを使うべきか、この議論は多くの人が色々な意見を持っています。最近はPythonユーザーが増えていますが、Rをメインで使う人が少なからずいるのもまた事実です。 今回は統計解析をするならどっち?という観点からR…

ビジネスで統計を使うことになったら読むべき統計本のすすめ

最近のビックデータ流行により、データサイエンスを専門としない人でも、統計リテラシーが必要とされるようになりました。しかし、いざビジネスで統計を使うために学ぼうと思っても、小難しい理論が書かれたハードルの高い参考書や、逆に抽象的すぎて実務で…

RとPythonによる主成分分析〜忙しい人のための完全食を探す〜

主成分分析は、データの変数が多い時に、出来るだけ情報を減らさずに、次元を圧縮するテクニックとして用いられます。マーケティングにおいても、何かの商品に対する評価項目が複数ある場合に、それを少数の評価項目に圧縮し、総合力のような観点で評価する…

AICとは?その正体に迫る

複数のモデル候補があった場合、AIC(赤池情報量基準)を使ってモデル選択をすることがあります。しかし、このAICをなんとなく使ってしまっている人、そのモデル本当に目的としたモデルですか? 今回は、AICについてその直感的な理解とAICの意味を追っていき…

一般化線形モデル・階層ベイズ・マルチレベル分析を実践的に学びたい人へのオススメ書籍5選

最近ではt検定、分散分析、線形回帰分析などを一般化線形モデルという 一つの概念で捉えられるようになってきました。 一般化線形モデルのメリットは現実の仮定を反映させながら自由な統計解析ができ、非線形データや複雑な階層性のあるデータなどにも柔軟に…

以外に奥深いR,Pythonでの相関行列の計算方法

RやPythonで変数間の相関を見るために、何気なく使う相関行列 実はとても奥深いことを知りました。 今回はRとPythonの算出方法の違いについても触れていきます。(pythonを使ったのはいつぶりだろうか...) データセットの作成 まずはデータセットを作成しま…

脱統計初学者!確率分布まとめ~正規分布・t分布とは~

前回の続きで、今回は主に連続型確率分布である正規分布、t分布を扱っていきます。ここまで理解できれば、統計が楽しくなるはずです!正規分布からt分布の導出までを出来るだけ式を使わずにまとめていきます! 正規分布 z値 t分布 まとめ 正規分布 Z値 t分布…

有意水準と検出力をグラフィカルにシミュレーションで理解する

統計検定をする上でよく用いられるのは有意水準ですが、同時に検出力も考慮しなければなりません。 今回は有意水準と検出力についてまとめてみます。 有意水準、検出力とは? 第一種過誤(αエラー)、第二種過誤(βエラー)などとも呼ばれますが、簡単に言っ…

脱統計初学者!確率分布まとめ~ベルヌーイ分布・二項分布・ポワソン分布・指数分布~

確率分布は統計学を学び始めると必ず出てくるワードなんですが、初めて聞いたときは、なんじゃそりゃ〜〜って感じで全然理解できませんでした。 正直SPSSやSASS、EZRなどの統計ソフトは値を入れれば、それっぽい結果が返ってくるので、学ぶ必要性を感じない…

ベイズの定理で二項分布の推定~最尤法との比較まで~

前回は、Rにstanを導入して、実際に動かすところまで行いました。今回は、ベイズ推定で二項分布のパラメーターを求めてみます! medi-data.hatenablog.com 二項分布とは ベイズの定理を使う前に、さらっと二項分布を復習しておきます。 二項分布とは、確率で…

カーネル密度推定~グラフィカルにまとめてみる~

前回はR関数を実行して、抽出されたサンプルから母集団の確率密度を推定しました。今回は、Rの関数を使わずにカーネル密度推定を行いたいと思います。 medi-data.hatenablog.com 出来るだけグラフィカルにまとめてみます。 ヒストグラム密度推定 カーネル密…

回帰直線の求め方~最尤法、最小二乗法、期待損失~

今回は回帰分析で用いられる回帰直線について、よく知られている最小二乗法、最尤法に加えて、最近学んだ期待損失なるものを使って、求めていきたいと思います! 今回のお題 今回は以下のようなデータセットを使って、回帰直線を求めていきます。 y1 <- roun…

リンゴで理解する 尤度 とは~離散確率から正規分布まで~

統計学を学んでいておそらくつまずくであろう尤度。こいつの正体をリンゴを使ってまとめていきます。 尤度とは? 尤度の何が難しいかと言うとまずはこの漢字。そもそも何と読むかと言うと"ゆうど"と読みます。”尤”なんて日常生活でまず使うことはありません…