医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

機械学習

k-meansとk-means++を視覚的に理解する~Pythonにてスクラッチから~

k-means(k平均法)は教師なし学習の中でもとても有名なアルゴリズムの一つです。例えば、顧客のデータから顧客を購買傾向によってグループ分けしたり、商品の特性からいくつかのグループに分けたりと使用法は様々です。 そんなk-measですが、実は中学生でも知…

PythonとRで学ぶ一番シンプルなディープラーニング

ディープラーニングは言わずもがな、機械学習の世界では名実ともにエースと呼んでいいほど有名なアルゴリズムです。人間の脳を模倣していると聞くと、なんだかSFの世界を想像しますが、実は案外簡単なアルゴリズムで成り立っています。 今回は、そんなディー…

初歩からの機械学習:ロジスティック回帰~PythonとRでスクラッチから~

前回は機械学習において最も基本的なアルゴリズムである最急降下法を使って、重回帰モデルを作成しました。 www.medi-08-data-06.work 今回は、最急降下法とロジスティック回帰モデルを使って機械学習の醍醐味である分類問題を扱っていきたいを思います。 前…

初歩からの機械学習:最急降下法による重回帰モデル~PythonとRでスクラッチから~

機械学習の教師あり学習の中でも、重回帰モデルはとても有名です。統計学でも有名なこのモデルですが、機械学習では、最急降下法というもっとも基本的かつ、重要なアルゴリズムを使ってパラメーターを求めることができます。 今回は、最急降下法を使って重回…

初歩からの機械学習〜ベイズ識別規則と混同行列〜

ベイズとは条件付き確率を表すのにとても有用な概念で、統計学だけでなく機械学習にも応用されています。特にクラス分類では、ある変数の情報が入ってきたときに、それがあるクラスに属する確率としてベイズの考えが利用され、迷惑メールフィルターの基礎的…

RとPythonによる主成分分析〜忙しい人のための完全食を探す〜

主成分分析は、データの変数が多い時に、出来るだけ情報を減らさずに、次元を圧縮するテクニックとして用いられます。マーケティングにおいても、何かの商品に対する評価項目が複数ある場合に、それを少数の評価項目に圧縮し、総合力のような観点で評価する…

カーネル密度推定~グラフィカルにまとめてみる~

前回はR関数を実行して、抽出されたサンプルから母集団の確率密度を推定しました。今回は、Rの関数を使わずにカーネル密度推定を行いたいと思います。 medi-data.hatenablog.com 出来るだけグラフィカルにまとめてみます。 ヒストグラム密度推定 カーネル密…

Rでカーネル密度推定

ヒストグラムから確率密度分布を知りたいと思い、調べているとカーネル密度推定なるものがあるようです。色々調べてみたのですが....よく分からん。 Rで実行しながら、学んでいきます。 今回のお題 今回は正規分布から発生させた50個の乱数を使って、正規分…

回帰直線の求め方~最尤法、最小二乗法、期待損失~

今回は回帰分析で用いられる回帰直線について、よく知られている最小二乗法、最尤法に加えて、最近学んだ期待損失なるものを使って、求めていきたいと思います! 今回のお題 今回は以下のようなデータセットを使って、回帰直線を求めていきます。 y1 <- roun…

リンゴで理解する分類問題~生成モデル、識別モデル、識別関数って何ですか?~

今回は、分類問題を学んでいてどうやら大きく分けて三つのアプローチがあるらしいと言うことで、その特徴を具体例を混じえてまとめてみます。 分類問題とは? そもそも分類問題とは、例えば身長データから男女を分類するであったり、メールに書いてある単語…

リンゴで理解する条件付き期待値とは~パターン認識と機械学習~

パターン認識と機械学習第1章条件付き期待値についてまとめます。 条件付き期待値とは? 条件付き期待値とは、ある条件のもとで期待される値のことを指します(そのままですね...)。例えば、雨が降った時に傘を持っている人の数であったり、おしゃれをした時…

多項式曲線フィッティング~パターン認識と機械学習~

パターン認識と機械学習の第1章多項式曲線フィッティングについてまとめます。 多項式曲線フィッティング 多項式曲線フィッティングは、目的変数にうまくフィットするような線形モデルを作成します。今回はsin関数を多項式フィッティングしていきます。 > x …