医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

じっくり学ぶ時系列解析~見せかけにだまされない編~

時系列モデルを作るときは、データが定常過程に従っていることを前提とするモデルが多いです。しかし、現実には定常過程に従うデータはあまり多くありません。そんな非定常過程のデータを何となく多変量モデルで解析すると一見ものすごく当てはまりの良いモ…

じっくり学ぶ時系列解析~多変量時系列解析VAR編~

一変量時系列の代表格であるARIMAモデルは、過去の自分が現在へ影響していることを前提としていました。しかし、時系列データではその他の変数から影響を受けることは往々にしてあります。 例えば、あるお店の売り上げは、そのお店の過去の売り上げだけでな…

じっくり学ぶ時系列解析~ARIMAの予測と季節調整SARIMA編~

前回は時系列解析の流れ、そしてARIMAモデルをデータから同定する方法について書きました。 www.medi-08-data-06.work 今回は、ARIMAモデルの予測について、そして単純なARIMAモデルでは説明できない周期性を、季節調整を使ってモデリングする方法について書…

じっくり学ぶ時系列解析~基礎編~

前回は時系列解析の考え方や基本用語についてまとめました。今回はもう一歩進んで、実践に近づいた内容にしていきます。 www.medi-08-data-06.work 今回扱う範囲は、時系列データの前処理方法、AR、MA、ARMA、ARIMAです。それではいきましょう。 時系列解析…

じっくり学ぶ時系列解析~準備編~

時系列データとは、ある一時点ではなく、時間軸に沿ってデータが収集され、変数の並び方にも意味があるデータのことを指します。商品の売り上げを月ごとに集積したデータや、企業の株価データ、気温データ、電車の乗客数などが時系列データの例としてあげら…

さて、そろそろ正規表現を始めようか

R

正規表現の存在を知り、いつかは使えるようになりたいと思ったあの日から早2年、そろそろ正規表現を使えるようになります。 ということで、今回は正規表現をレベルごとにスッテプバイステップでまとめていきます。 正規表現とは? Step1:何でも良い一文字. …

データの読み込みは{readr}にお任せを

Rでデータファイルを読み込むとき、{base}パッケージにはread.XXXという関数が備わっています。 私もcsvファイルを読み込むときは、ずっとread.csvを使用していましたが、{readr}を使うともっと高速に、そして処理のしやすい形でデータを読みこむことができ…

AICとは?その正体に迫る

複数のモデル候補があった場合、AIC(赤池情報量基準)を使ってモデル選択をすることがあります。しかし、このAICをなんとなく使ってしまっている人、そのモデル本当に目的としたモデルですか? 今回は、AICについてその直感的な理解とAICの意味を追っていき…

R使いのための文字列処理stringrの使い方

Rで文字列処理をすることって地味によくありますよね。 そんな突如として必要性が湧いてくる文字列処理、Rには文字列を扱うパッケージがいくつかありますが、その中でも抜群に使いやすいのが{stringr}の特徴です。 文字列処理を統一的な方法で行えるため、直…

一般化線形モデル・階層ベイズ・マルチレベル分析を実践的に学びたい人へのオススメ書籍5選

最近ではt検定、分散分析、線形回帰分析などを一般化線形モデルという 一つの概念で捉えられるようになってきました。 一般化線形モデルのメリットは現実の仮定を反映させながら自由な統計解析ができ、非線形データや複雑な階層性のあるデータなどにも柔軟に…