医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

tidyverse

データの読み込みは{readr}にお任せを

Rでデータファイルを読み込むとき、{base}パッケージにはread.XXXという関数が備わっています。 私もcsvファイルを読み込むときは、ずっとread.csvを使用していましたが、{readr}を使うともっと高速に、そして処理のしやすい形でデータを読みこむことができ…

R使いのための文字列処理stringrの使い方

Rで文字列処理をすることって地味によくありますよね。 そんな突如として必要性が湧いてくる文字列処理、Rには文字列を扱うパッケージがいくつかありますが、その中でも抜群に使いやすいのが{stringr}の特徴です。 文字列処理を統一的な方法で行えるため、直…

日付・時刻処理の決定版!lubridateの使い方

Rで時系列データなどを集計、処理したい場合どうしてますか? Rの基本パッケージにも時系列データを扱うための関数は用意されています。 しかし、これがまたわかりにくい.... POSIXctだの、POSIXltだの、私はなんども調べては忘れ、また調べ、また忘れを繰り…

モダンな繰り返し処理purrrの使い方

データの繰り返し処理やapply族を使ったデータフレームの処理などはデータ解析をする上では欠かせませんよね。 そんな時に役に立つのが{purrr}パッケージです。このパッケージは、今までfor-loopさせていた処理や、apply族を使っていた処理をスマートに処理…

もっと早く知りたかった高速データフレーム処理~dplyrの使い方~

Rで扱うことの多いデータフレームですが、みなさんはどのように処理をしているでしょうか? 私は既存の{base}パッケージで処理を行なっていましたが、{dplyr}パッケージを知ってからというもの手放せなくなりました。 この{dplyr}を使うと驚くほど簡単に、そ…

これは便利! R パイプ %>% の使い方

データフレームを扱う時にとても便利なのがパイプ! ggplotでしか使ったことがなかったけれど、調べてみるととても便利そうなので使い方をまとめます! medi-data.hatenablog.com パイプとは? パイプとは、途中経過を変数に代入せずそのまま次の処理へ渡せ…