医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

集団全体への介入効果を推定するStandardizationとIPWの実力〜RとPythonにて〜

前回は因果推論の王道テクニックである傾向スコアを使った回帰分析とマッチングについて紹介しました。今回も傾向スコアを使った解析手法の一つであるIPWと、傾向スコアは使いませんが理論的には同じになるStandardzationの紹介をしていきます。 www.medi-08…

状態空間モデルを最短で学ぶためのおすすめ参考書

状態空間モデルは、非線形な時系列データを含む幅広いタイプの時系列データを、統一的に扱えるとても便利な解析手法です。 しかし、いざ学び始めると状態やシステム、カルマンフィルター、MCMC....などと言った初学者にはとっつきにくい用語が並び、実務応用…

因果推論の王道テクニック”傾向スコア”を丁寧に考えてみる~RとPythonにて~

世の中の事象における真の因果関係は神のみぞが知り、それに抗うために多くの因果推論テクニックが作られてきました。その中でも傾向スコアというのは、ランダム化検証ができない事象でも、データをゴニョゴニョすることで、理論上ランダム化に等しいことが…

ベイズで考える状態空間モデル

古典的な時系列解析のモデルでは、時系列データが定常過程に従うことを前提としていました。しかし、世の中の多くの事象は定常過程に従うことはあまりなく、よりうまく現実を反映させることができるモデルが必要になります。 それが状態空間モデルです。状態…

因果推論の基本テクニック、回帰分析は何を意味するのか

因果推論のもっとも基本的なテクニックである回帰分析はよく知られていますが、モデルで仮定している前提や、変数の入れ方によって、結果の解釈が大きく違います。今回は、回帰分析の種類やモデルが意味することを書いてみたいと思います。 何気なく使われる…

タバコを吸うほど健康になる?必ず確認すべきデータのバイアス

事象の因果関係を見抜くためには、無作為介入が理想的ですが、世の中の多くはすでに存在するデータから因果関係が推論されます。 そんな既に観察されたデータ(観察データ)は、集計してみると関連性が見えてくることがありますが、短絡的に結果を解釈すると…

因果推論の基本事項〜広告をみたから商品を買ったのか?それとも....〜

ビジネスの世界で、ある事象に関する原因と結果の因果関係を推論することはとても重要な要素です。最近では機械学習手法に多くの注目が集まっており、予測さえできればそれで良いと思うかもしれません。 しかし! 原因と結果の関係性を正しく推定し仮説を導…

時系列解析の基礎をさっくりorがっつり学びたい人へオススメする書籍5冊+α

時系列データとは、ある一時点ではなく、時間軸に沿ってデータが収集され、変数の並び方にも意味があるデータのことを指します。 時系列データ解析の手法を知っていると解析の幅が大きく広がることは間違い無いでスガ、書籍の中には難解なものも多く、最初の…

じっくり学ぶ時系列解析~見せかけにだまされない編~

時系列モデルを作るときは、データが定常過程に従っていることを前提とするモデルが多いです。しかし、現実には定常過程に従うデータはあまり多くありません。そんな非定常過程のデータを何となく多変量モデルで解析すると一見ものすごく当てはまりの良いモ…

じっくり学ぶ時系列解析~多変量時系列解析VAR編~

一変量時系列の代表格であるARIMAモデルは、過去の自分が現在へ影響していることを前提としていました。しかし、時系列データではその他の変数から影響を受けることは往々にしてあります。 例えば、あるお店の売り上げは、そのお店の過去の売り上げだけでな…