医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

分散、標準偏差とは?~森の統計辞典~

分散とは? 分散の計算方法 標準偏差とは? まとめます 分散とは 標準偏差とは おすすめ参考書など 分散とは? 分散とはデータのばらつきの(2乗)平均値です。平均値から離れたデータが多いほど、分散は大きくなります。 www.medi-08-data-06.work 森のうさ…

平均値(mean)、中央値(median)、最頻値(mode)とは~森の統計辞典~

平均値とは 中央値とは 最頻値とは まとめます 平均(mean)とは 中央値(median)とは 最頻値(mode)とは 次に読む おすすめ参考書など 平均値とは 全てのデータの値を足して、データの数で割った値のことです。 森に住む10匹のうさぎの体重を測定したとします。…

pythonで層別、グループ別グラフを作成する

データの可視化をする上で、性別ごとのヒストグラムや、年代ごとの折れ線グラフなど、ある特定の層やグループごとに色分けをしてグラフをかくことがあります。今回は、簡単にグループごとの色分けグラフを書くための、2つの方法をご紹介します。 積み上げ棒…

そろそろ覚えるRで縦持ち横持ち変換〜pivlot_loger、pivot_wider〜

R

Rでテーブルを縦持ち、横持ちに変換したい時、以前は、spreadやgatherという関数がありました。(今もあるのですが、)上記2つに代わって新たに上位互換の関数として登場したのがpivot_longer、pivot_widerです。単純に縦持ち、横持ち変換するだけでなく、…

”pd.mearge”はもう遅い、Python"join"で高速データ結合

Pythonである値をkeyにデータを結合をしたいとき、pandasのmergeが使えますが、データの行数が膨大だと実行に時間がかかります。 www.medi-08-data-06.work そんなときには、joinを使うことで、データ結合の処理速度を上げることができます。 joinを使って …

kaggle-apiの使い方〜コンペのデータセットダウンロードから提出まで〜

通常kaggleコンペでは、データセットのダウンロードから、結果の提出までを、kaggleサイト上で行います。しかし、kaggle-apiを使うことで、データセットのダウンロード、コンペ一覧表示、submission、leaderboardの確認など、ほとんど全ての作業をコマンドラ…

新時代の新卒データサイエンティスト研修の全貌

ブレインパッドという受託分析企業に入社してから、気づけば5ヶ月が経ちました。優秀な同期や、聡明な先輩などに恵まれ、日々多くのことを学びながら毎日を過ごしています。 そんな中で今回は、ブレインパッドの新卒研修の全貌を振り返りとともに書いていき…

Pythonで割合棒グラフ、積み上げ棒グラフを一瞬で作成する。

縦軸が割合になっている棒グラフを作成したい!という方、今回は一瞬で割合棒グラフ作成する方法をご紹介します。これより簡単にかけるぜ!って方がいらっしゃったら是非コメントいただけると幸いです。 A,B,Cの数を割合で表したい。 今回は、A、B、 Cの文字…

Rでwebアプリを作る~初めてのshinyとshinydashbord~

R

Rでの実行結果や分析結果をインタラクティブなwebアプリにできたら、、そんな風に思ったことはありませんか?今回は、そんな願いを叶えるべくshiniyとshinydashbordを使って簡単にwebアプリを作ってみたいと思います。なお、今回の内容は入門編ですので、よ…

Rmecabに最新辞書(NEologd) を設定する

以前の記事で、Rmecabを用いたテキストマイニング をご紹介しました。 www.medi-08-data-06.work Rmecabの内部で動くmecabですが、web上の最新のキーワードなどにも対応したNEologdを辞書に使用することができます。ちなみに毎週更新されているようです(す…