医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

新時代の新卒データサイエンティスト研修の全貌

ブレインパッドという受託分析企業に入社してから、気づけば5ヶ月が経ちました。優秀な同期や、聡明な先輩などに恵まれ、日々多くのことを学びながら毎日を過ごしています。 そんな中で今回は、ブレインパッドの新卒研修の全貌を振り返りとともに書いていき…

Pythonで割合棒グラフ、積み上げ棒グラフを一瞬で作成する。

縦軸が割合になっている棒グラフを作成したい!という方、今回は一瞬で割合棒グラフ作成する方法をご紹介します。これより簡単にかけるぜ!って方がいらっしゃったら是非コメントいただけると幸いです。 A,B,Cの数を割合で表したい。 今回は、A、B、 Cの文字…

Rでwebアプリを作る~初めてのshinyとshinydashbord~

R

Rでの実行結果や分析結果をインタラクティブなwebアプリにできたら、、そんな風に思ったことはありませんか?今回は、そんな願いを叶えるべくshiniyとshinydashbordを使って簡単にwebアプリを作ってみたいと思います。なお、今回の内容は入門編ですので、よ…

Rmecabに最新辞書(NEologd) を設定する

以前の記事で、Rmecabを用いたテキストマイニング をご紹介しました。 www.medi-08-data-06.work Rmecabの内部で動くmecabですが、web上の最新のキーワードなどにも対応したNEologdを辞書に使用することができます。ちなみに毎週更新されているようです(す…

Pythonで前処理〜Pandasによる文字列処理まとめ〜

Pandasで前処理を行う際に、文字列の処理に戸惑うことがよくあります。今回は、よく使いそうな文字列処理の方法をまとめていきます。ちなみに前処理全般については過去にまとめましたので、よろしければご覧ください。 Pythonのデータ前処理手法をまとめてみ…

Pythonが遅いと感じたら!見直すべき高速化のポイント

Pythonはrに比べると処理速度が速いと言われています。しかし、Julia、C/C++などに比べると”うわ、私の処理、遅すぎ、、?”と感じるかもしれません。今回は、Pyhonで処理速度が遅いと感じたら見直すべきいくつかのポイントをご紹介します。 Point1:if xx in…

ニューラルネットワークによる手書き文字画像の異常検知~CNNとCAEの比較~

機械学習を用いた画像データの異常検知は、様々な分野で用いられ始めています。例えば、工場現場であれば、流れてくる製品から自動的に不良品をはじくといったことにもできますし、医療現場であれば、画像診断にも応用できるでしょう。異常検知の課題は、そ…

第6回:RとPythonで学ぶデータサイエンス数学~ベクトル、行列の微分~

前回までで、微分、偏微分、最小二乗法、ベクトル、行列までを書いてきました。 www.medi-08-data-06.work www.medi-08-data-06.work www.medi-08-data-06.work www.medi-08-data-06.work 今回は、今までの知識を総動員し、ベクトルと行列による微分について…

初心者のPython環境構築とバージョン管理~pyenvとpyenv-virtualenvを使って~

Pythonの環境構築を行うには、様々なツールがあり、用途、好み、思想、宗教によってベストなものが異なるようです。 pythonの環境構築戦争にイラストで終止符をどうやら打てない - Qiita そして、この多様性が私のような環境構築弱者にとってのハードルとな…

第7回:RとPythonで1から学ぶデータサイエンス数学~確率分布・確率変数と積分~

確率分布と積分は、統計学を知る上では欠かせない数学知識です。今回は確率分布と確率変数の基本と、積分の関係性についてご説明していきます。 今回の目的は以下になります。 確率分布、確率変数とは何かを理解する。 確率質量関数、確率密度関数の違いを理…

第5回:RとPythonで学ぶデータサイエンス数学~行列基礎~

前回はベクトルの基礎を扱いました。今回は、ベクトルの進化系である行列について書いていきます。行列までを学んでしまえば、数学嫌いな方でも、データサイエンスの様々な参考書を読み進めることができるでしょう! 今回の目的は以下になります。 行列の性…

第4回:RとPythonで学ぶデータサイエンス数学~ベクトル基礎~

ベクトルと行列は、データサイエンスの中でも頻出であり、とてもとても便利な概念です。今回からは、今まで学んだ平均や分散、微分、最小二乗法などを使って、ベクトルや行列の概念にふれていきます。 www.medi-08-data-06.work www.medi-08-data-06.work ww…

第3回:RとPythonで学ぶデータサイエンス数学~線形回帰と最小二乗法~

前回までで、平均や分散、微分、偏微分の基本的なところを扱ってきました。 www.medi-08-data-06.work www.medi-08-data-06.work 第3回となる今回は、今までの知識を使って統計、機械学習で最も基本的で、最も頻出の線形回帰と最小二乗法についてご紹介しま…

第2回:RとPythonで学ぶデータサイエンス数学~関数と微分・偏微分~

RとPythonで学ぶデータサイエンス数学の第2回となる今回は、関数と微分を扱っていきます。 www.medi-08-data-06.work この2つは統計学、機械学習の学習には欠かせない知識となりますが、概念自体は難しく無いので、しっかりと理解したいところです。目的は以…

第1回:RとPythonで学ぶデータサイエンス数学~平均・分散を文字で表す~

統計学や機械学習を知る上で必ず必要になるのが算数・数学の知識です。しかし、中学や高校で数学を習ってはいるものの、いざ学び始めてみると数式や記号に圧倒されてしまう人も多いのではないでしょうか?? 今回から複数記事にまたがり、統計学や機械学習を…

時系列予測パッケージ{prophet}を使って、ブログアクセス数を予測する。~時刻周期の解析編~

前回は、prophetを使って、2ヶ月先のブログアクセス数を予測しました。 www.medi-08-data-06.work 今回はその答え合わせと、前回は触れなかった時刻周期の扱い方について書いていきます。 予測結果と実測値の比較 前回の予測結果はこのようになっていました…

はてなブログでTex記法を使って行列を書く時の注意点

はてなブログのmarkdown記法でTex記法を書く時、いくつか注意点があります。 多くの場合は、こちらのサイト様で解決するかと思います。 はてなブログのTeX記法で数式を書く時用のチートシートと注意点 - ぴよぴよ.py しかし、以前Tex記法を使って以下を参考…

中心極限定理って結局何なのさ

中心極限定理とは、統計学を学び始めると必ずお目にかかる定理なのですが、安直に理解していると大変な勘違いをしてしまう定理です。しかし、いざ理解しようとしても、解説には難解なものも多くイメージしにくいのもまた現状です。今回はそんな中心極限定理…

SHAPを使って機械学習モデルと対話する

機械学習モデルは、統計モデルよりも予測に長けた手法であり、皆様もご存知の通り様々な場面で用いられています。一方で、結果の解釈の面ではブラックボックスになりやすいため、モデルの作成時のみならず、機械学習に覚えのない方々とコミュニュケーション…

Pythonによるデータ前処理手法の網羅的まとめ

データ解析をする上で、もっとも重要な工程であるデータの前処理、今回はそんな前処理をPythonで行うための様々な方法をまとめました。もし、こんな処理も追加してほしいというご要望があれば、お気軽にコメントください(^^) Rユーザの方にはこちらを www.me…

Rでtweetをテキストマイニング:ワードクラウドと共起ネットワーク

テキストマイニング は文字列を対象したデータマイニング手法で、単語の出現頻度、出現タイミングなどを集計する簡単なものから、機械学習を用いてクラス分類する高度なものまで様々な解析手法があります。 今回はそんなテキストマイニング の中でも、単語の…

facebookの時系列予測パッケージ{prophet}を使って、ブログアクセス数を予測する。

prophetはfacebookが無料で提供している時系列予測パッケージです。RでもPythonでも使うことができます。本家様サイトによると Prophet is a procedure for forecasting time series data based on an additive model where non-linear trends are fit with …

k-meansとk-means++を視覚的に理解する~Pythonにてスクラッチから~

k-means(k平均法)は教師なし学習の中でもとても有名なアルゴリズムの一つです。例えば、顧客のデータから顧客を購買傾向によってグループ分けしたり、商品の特性からいくつかのグループに分けたりと使用法は様々です。 そんなk-measですが、実は中学生でも知…

R vs Python:統計するならどっちいいの?

データ解析をする上で、Rを使うべきかPythonを使うべきか、この議論は多くの人が色々な意見を持っています。最近はPythonユーザーが増えていますが、Rをメインで使う人が少なからずいるのもまた事実です。 今回は統計解析をするならどっち?という観点からR…

PythonとRで学ぶ一番シンプルなディープラーニング

ディープラーニングは言わずもがな、機械学習の世界では名実ともにエースと呼んでいいほど有名なアルゴリズムです。人間の脳を模倣していると聞くと、なんだかSFの世界を想像しますが、実は案外簡単なアルゴリズムで成り立っています。 今回は、そんなディー…

初歩からの機械学習:ロジスティック回帰~PythonとRでスクラッチから~

前回は機械学習において最も基本的なアルゴリズムである最急降下法を使って、重回帰モデルを作成しました。 www.medi-08-data-06.work 今回は、最急降下法とロジスティック回帰モデルを使って機械学習の醍醐味である分類問題を扱っていきたいを思います。 前…

初歩からの機械学習:最急降下法による重回帰モデル~PythonとRでスクラッチから~

機械学習の教師あり学習の中でも、重回帰モデルはとても有名です。統計学でも有名なこのモデルですが、機械学習では、最急降下法というもっとも基本的かつ、重要なアルゴリズムを使ってパラメーターを求めることができます。 今回は、最急降下法を使って重回…

初歩からの機械学習〜ベイズ識別規則と混同行列〜

ベイズとは条件付き確率を表すのにとても有用な概念で、統計学だけでなく機械学習にも応用されています。特にクラス分類では、ある変数の情報が入ってきたときに、それがあるクラスに属する確率としてベイズの考えが利用され、迷惑メールフィルターの基礎的…

ビジネスで統計を使うことになったら読むべき統計本のすすめ

最近のビックデータ流行により、データサイエンスを専門としない人でも、統計リテラシーが必要とされるようになりました。しかし、いざビジネスで統計を使うために学ぼうと思っても、小難しい理論が書かれたハードルの高い参考書や、逆に抽象的すぎて実務で…

RとPythonによる主成分分析〜忙しい人のための完全食を探す〜

主成分分析は、データの変数が多い時に、出来るだけ情報を減らさずに、次元を圧縮するテクニックとして用いられます。マーケティングにおいても、何かの商品に対する評価項目が複数ある場合に、それを少数の評価項目に圧縮し、総合力のような観点で評価する…