医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

時系列予測パッケージ{prophet}を使って、ブログアクセス数を予測する。~時刻周期の解析編~

前回は、prophetを使って、2ヶ月先のブログアクセス数を予測しました。 www.medi-08-data-06.work 今回はその答え合わせと、前回は触れなかった時刻周期の扱い方について書いていきます。 予測結果と実測値の比較 前回の予測結果はこのようになっていました…

はてなブログでTex記法を使って行列を書く時の注意点

はてなブログのmarkdown記法でTex記法を書く時、いくつか注意点があります。 多くの場合は、こちらのサイト様で解決するかと思います。 はてなブログのTeX記法で数式を書く時用のチートシートと注意点 - ぴよぴよ.py しかし、以前Tex記法を使って以下を参考…

中心極限定理って結局何なのさ

中心極限定理とは、統計学を学び始めると必ずお目にかかる定理なのですが、安直に理解していると大変な勘違いをしてしまう定理です。しかし、いざ理解しようとしても、解説には難解なものも多くイメージしにくいのもまた現状です。今回はそんな中心極限定理…

SHAPを使って機械学習モデルと対話する

機械学習モデルは、統計モデルよりも予測に長けた手法であり、皆様もご存知の通り様々な場面で用いられています。一方で、結果の解釈の面ではブラックボックスになりやすいため、モデルの作成時のみならず、機械学習に覚えのない方々とコミュニュケーション…

Pythonによるデータ前処理手法の網羅的まとめ

データ解析をする上で、もっとも重要な工程であるデータの前処理、今回はそんな前処理をPythonで行うための様々な方法をまとめました。もし、こんな処理も追加してほしいというご要望があれば、お気軽にコメントください(^^) Rユーザの方にはこちらを www.me…

Rでtweetをテキストマイニング:ワードクラウドと共起ネットワーク

テキストマイニング は文字列を対象したデータマイニング手法で、単語の出現頻度、出現タイミングなどを集計する簡単なものから、機械学習を用いてクラス分類する高度なものまで様々な解析手法があります。 今回はそんなテキストマイニング の中でも、単語の…

facebookの時系列予測パッケージ{prophet}を使って、ブログアクセス数を予測する。

prophetはfacebookが無料で提供している時系列予測パッケージです。RでもPythonでも使うことができます。本家様サイトによると Prophet is a procedure for forecasting time series data based on an additive model where non-linear trends are fit with …

k-meansとk-means++を視覚的に理解する~Pythonにてスクラッチから~

k-means(k平均法)は教師なし学習の中でもとても有名なアルゴリズムの一つです。例えば、顧客のデータから顧客を購買傾向によってグループ分けしたり、商品の特性からいくつかのグループに分けたりと使用法は様々です。 そんなk-measですが、実は中学生でも知…

R vs Python:統計するならどっちいいの?

データ解析をする上で、Rを使うべきかPythonを使うべきか、この議論は多くの人が色々な意見を持っています。最近はPythonユーザーが増えていますが、Rをメインで使う人が少なからずいるのもまた事実です。 今回は統計解析をするならどっち?という観点からR…

PythonとRで学ぶ一番シンプルなディープラーニング

ディープラーニングは言わずもがな、機械学習の世界では名実ともにエースと呼んでいいほど有名なアルゴリズムです。人間の脳を模倣していると聞くと、なんだかSFの世界を想像しますが、実は案外簡単なアルゴリズムで成り立っています。 今回は、そんなディー…