医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

初歩からの機械学習:ロジスティック回帰~PythonとRでスクラッチから~

前回は機械学習において最も基本的なアルゴリズムである最急降下法を使って、重回帰モデルを作成しました。 www.medi-08-data-06.work 今回は、最急降下法とロジスティック回帰モデルを使って機械学習の醍醐味である分類問題を扱っていきたいを思います。 前…

初歩からの機械学習:最急降下法による重回帰モデル~PythonとRでスクラッチから~

機械学習の教師あり学習の中でも、重回帰モデルはとても有名です。統計学でも有名なこのモデルですが、機械学習では、最急降下法というもっとも基本的かつ、重要なアルゴリズムを使ってパラメーターを求めることができます。 今回は、最急降下法を使って重回…

初歩からの機械学習〜ベイズ識別規則と混同行列〜

ベイズとは条件付き確率を表すのにとても有用な概念で、統計学だけでなく機械学習にも応用されています。特にクラス分類では、ある変数の情報が入ってきたときに、それがあるクラスに属する確率としてベイズの考えが利用され、迷惑メールフィルターの基礎的…

ビジネスで統計を使うことになったら読むべき統計本のすすめ

最近のビックデータ流行により、データサイエンスを専門としない人でも、統計リテラシーが必要とされるようになりました。しかし、いざビジネスで統計を使うために学ぼうと思っても、小難しい理論が書かれたハードルの高い参考書や、逆に抽象的すぎて実務で…

RとPythonによる主成分分析〜忙しい人のための完全食を探す〜

主成分分析は、データの変数が多い時に、出来るだけ情報を減らさずに、次元を圧縮するテクニックとして用いられます。マーケティングにおいても、何かの商品に対する評価項目が複数ある場合に、それを少数の評価項目に圧縮し、総合力のような観点で評価する…

生存解析のすヽめ:カプランマイヤー法とコックス比例ハザードモデル

生存解析は医療の現場で用いられている手法で、ある薬を飲む群と飲まない群で死亡率が異なるのかなどといったアウトカムが生きるor死ぬなどの二値で、アウトカム発生までの時間の流れも考慮しなければならない場合に使用されます。 つまり、ビジネスの世界で…

集団全体への介入効果を推定するStandardizationとIPWの実力〜RとPythonにて〜

前回は因果推論の王道テクニックである傾向スコアを使った回帰分析とマッチングについて紹介しました。今回も傾向スコアを使った解析手法の一つであるIPWと、傾向スコアは使いませんが理論的には同じになるStandardzationの紹介をしていきます。 www.medi-08…

状態空間モデルを最短で学ぶためのおすすめ参考書

状態空間モデルは、非線形な時系列データを含む幅広いタイプの時系列データを、統一的に扱えるとても便利な解析手法です。 しかし、いざ学び始めると状態やシステム、カルマンフィルター、MCMC....などと言った初学者にはとっつきにくい用語が並び、実務応用…

因果推論の王道テクニック”傾向スコア”を丁寧に考えてみる~RとPythonにて~

世の中の事象における真の因果関係は神のみぞが知り、それに抗うために多くの因果推論テクニックが作られてきました。その中でも傾向スコアというのは、ランダム化検証ができない事象でも、データをゴニョゴニョすることで、理論上ランダム化に等しいことが…

ベイズで考える状態空間モデル

古典的な時系列解析のモデルでは、時系列データが定常過程に従うことを前提としていました。しかし、世の中の多くの事象は定常過程に従うことはあまりなく、よりうまく現実を反映させることができるモデルが必要になります。 それが状態空間モデルです。状態…