医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

dbtとBigQueryで東京犯罪ダッシュボードを作った

本記事は、dbt advent calendarの内容です。 qiita.com オープンデータ+BiqQuery+dbt+Streamlitという構成で、東京都における犯罪ダッシュボードを作ってみました。 完成品とコードはこちら 東京犯罪ダッシュボード データ処理&アプリコード dbtプロジェクト…

BigQueryとdbtを接続!最強のデータ基盤

近年話題のdbtは、データエンジニアリングの分野で使われるオープンソースのコマンドラインツールです。特に、データウェアハウス内でのデータ変換(ETL:Extract, Transform, Loadの「Transform」部分)作業を効率化するために設計されていて、以下の点が特…

CodepipeLineとgithubを使って、lambdaの更新を自動化

以前にFastAPI+lambdaで機械学習推論APIを作成しました。 www.medi-08-data-06.work ここでは、中身の修正があると、毎回手作業でECRへのpush、およびlambda関数の更新を行う必要があり手間でした。 今回は、AWSのcodepiplineとgithubを使用し、最小限のCI/C…

FastAPI+AWSlambdaでサーバレスな機械学習推論APIを作成する

機械学習モデルの予測結果を返す簡単なAPIサーバーを作成する機会があったので、勉強も兼ねてPythonのFastAPIと、AWSのlambdaを使ってサーバレスな推論APIを作成してみました。 今回のコードはこちらになります。 GitHub - kojiro0208/ml-api-lambda ディレ…

確率分布と確率変数ってなに?~森の統計辞典~

確率分布とは? 確率変数とは? 確率分布の特徴 まとめます 確率分布とは 確率変数とは おすすめ参考書など 確率分布とは? 確率分布とは、相対的な物事の起こりやすさを表したものになります。 森にはいろいろな大きさのうさぎがいます。その中で、うさぎの…

機械学習モデルを使って反実仮想を生成する

引用元https://github.com/interpretml/DiCE 近年では、ブラックボックスと呼ばれる機械学習の解釈性に注目が集まっており、予測の結果について説明するための手法がいくつか考案されてます。代表的なものとしては、LIME(Local Surrogate)やSHAP(SHapley Add…

帰無仮説と有意水準ってなに?~森の統計辞典~

帰無仮説とは? 有意水準とは? まとめます 帰無仮説とは? 有意水準とは? おすすめ参考書など 帰無仮説とは? 帰無仮説とは、調べたいことと反対の仮説のことです。 ”森のうさぎの耳はリスより長い”ことを証明します。この仮説を証明するには、森の全てのう…

標準化とは?~森の統計辞典~

標準化とは? 標準化の方法 まとめます 標準化とは おすすめ参考書など 標準化とは? 標準化とは、データの平均を0、分散を1にすることです。標準化をすることで、スケールの違うデータ同士を比較することができます。 森のうさぎとリスの体重を調べて、箱ひ…

ローレンツ曲線、ジニ係数の見方・求め方~森の統計辞典~

ローレンツ曲線とは? ジニ係数とは? まとめます ローレンツ曲線とは ジニ係数とは おすすめ参考書など ローレンツ曲線とは? ローレンツ曲線とは、何割のサンプルが、何割の量を保持しているのかを可視化した曲線です。少しわかりにくいですね。 ある森で、1…

相対度数、累積度数とは?~森の統計辞典~

相対度数とは? 累積度数とは? まとめます 相対度数とは 累積度数とは おすすめ参考書など 相対度数とは? 相対度数とは、全体に対する各度数の割合です。 www.medi-08-data-06.work 森からうさぎ100羽連れてきて、度数を求めます。相対度数は、各度数を全…