医療職からデータサイエンティストへ

統計学、機械学習に関する記事をまとめています。

Kimbalのディメンショナルモデリング入門~dbtをつかって~

Kimbalのディメンショナルモデリングは、データウェハウスのデータモデリングの中でも、広く採用されている手法で、近年のData Vault 2.0の基本となる考え方となっています。 こちらは、ディメンショナルモデリングのバイブルです↓ The Data Warehouse Toolk…

データサイエンティストが、1ヶ月で基本情報技術者資格を取得した~難易度や勉強法について~

私は、データを扱う仕事について5年目になります。 普段は、ビジネス寄りのデータアナリストのポジションに近いのですが、データ基盤周りのエンジニアリング業務も増えてたので、いったんの基礎固めとして、基本情報技術者試験を受けることにしました。 「1…

dbtとBigQueryで東京犯罪ダッシュボードを作った

本記事は、dbt advent calendarの内容です。 qiita.com オープンデータ+BiqQuery+dbt+Streamlitという構成で、東京都における犯罪ダッシュボードを作ってみました。 完成品とコードはこちら 東京犯罪ダッシュボード データ処理&アプリコード dbtプロジェクト…

BigQueryとdbtを接続!最強のデータ基盤

近年話題のdbtは、データエンジニアリングの分野で使われるオープンソースのコマンドラインツールです。特に、データウェアハウス内でのデータ変換(ETL:Extract, Transform, Loadの「Transform」部分)作業を効率化するために設計されていて、以下の点が特…

CodepipeLineとgithubを使って、lambdaの更新を自動化

以前にFastAPI+lambdaで機械学習推論APIを作成しました。 www.medi-08-data-06.work ここでは、中身の修正があると、毎回手作業でECRへのpush、およびlambda関数の更新を行う必要があり手間でした。 今回は、AWSのcodepiplineとgithubを使用し、最小限のCI/C…

FastAPI+AWSlambdaでサーバレスな機械学習推論APIを作成する

機械学習モデルの予測結果を返す簡単なAPIサーバーを作成する機会があったので、勉強も兼ねてPythonのFastAPIと、AWSのlambdaを使ってサーバレスな推論APIを作成してみました。 今回のコードはこちらになります。 GitHub - kojiro0208/ml-api-lambda ディレ…

確率分布と確率変数ってなに?~森の統計辞典~

確率分布とは? 確率変数とは? 確率分布の特徴 まとめます 確率分布とは 確率変数とは おすすめ参考書など 確率分布とは? 確率分布とは、相対的な物事の起こりやすさを表したものになります。 森にはいろいろな大きさのうさぎがいます。その中で、うさぎの…

機械学習モデルを使って反実仮想を生成する

引用元https://github.com/interpretml/DiCE 近年では、ブラックボックスと呼ばれる機械学習の解釈性に注目が集まっており、予測の結果について説明するための手法がいくつか考案されてます。代表的なものとしては、LIME(Local Surrogate)やSHAP(SHapley Add…

帰無仮説と有意水準ってなに?~森の統計辞典~

帰無仮説とは? 有意水準とは? まとめます 帰無仮説とは? 有意水準とは? おすすめ参考書など 帰無仮説とは? 帰無仮説とは、調べたいことと反対の仮説のことです。 ”森のうさぎの耳はリスより長い”ことを証明します。この仮説を証明するには、森の全てのう…

標準化とは?~森の統計辞典~

標準化とは? 標準化の方法 まとめます 標準化とは おすすめ参考書など 標準化とは? 標準化とは、データの平均を0、分散を1にすることです。標準化をすることで、スケールの違うデータ同士を比較することができます。 森のうさぎとリスの体重を調べて、箱ひ…