本記事は、dbt advent calendarの内容です。 qiita.com dbtは、データ基盤の開発に採用される事が多いと思いますが、 jinjaを使うことによって複雑な処理も実行が可能なため、データ解析系のプロダクトとも相性がよいです。 今回は、dbtを導入して、自社プロ…
データエンジニア、アナリティクスエンジニアが整備するデータ基盤は、ビジネスメンバー、サイエンティスト、アナリストのデータ利活用をスムーズにすることが、 ざっくりとした役割です。 一方で、その役割はビジネスのオペレーションをサポートする側面が…
このブログはじめて5年が経ちます。 先日より、「医療職からデータサイエンティスト」改め、「データの裏側を歩く」へブログタイトルを変更しました。 個人ブログのタイトル変更など、あまり興味がないと思いますが、 わたしの今のキャリアは、このブログと…
はじめに 自分でかいたコードや、他の人のコードレビューをするとき、「なんとなくみにくいコードだけど、どこまでリファクタリングすべき?」という疑問がよくでてきます。 仮に、コードのみにくさ、つまり複雑性を定量化できれば、「このコードの複雑性がx…
Kimbalのディメンショナルモデリングは、データウェハウスのデータモデリングの中でも、広く採用されている手法で、近年のData Vault 2.0の基本となる考え方となっています。 こちらは、ディメンショナルモデリングのバイブルです↓ The Data Warehouse Toolk…
私は、データを扱う仕事について5年目になります。 普段は、ビジネス寄りのデータアナリストのポジションに近いのですが、データ基盤周りのエンジニアリング業務も増えてたので、いったんの基礎固めとして、基本情報技術者試験を受けることにしました。 「1…
本記事は、dbt advent calendarの内容です。 qiita.com オープンデータ+BiqQuery+dbt+Streamlitという構成で、東京都における犯罪ダッシュボードを作ってみました。 完成品とコードはこちら 東京犯罪ダッシュボード データ処理&アプリコード dbtプロジェクト…
近年話題のdbtは、データエンジニアリングの分野で使われるオープンソースのコマンドラインツールです。特に、データウェアハウス内でのデータ変換(ETL:Extract, Transform, Loadの「Transform」部分)作業を効率化するために設計されていて、以下の点が特…
以前にFastAPI+lambdaで機械学習推論APIを作成しました。 www.medi-08-data-06.work ここでは、中身の修正があると、毎回手作業でECRへのpush、およびlambda関数の更新を行う必要があり手間でした。 今回は、AWSのcodepiplineとgithubを使用し、最小限のCI/C…
機械学習モデルの予測結果を返す簡単なAPIサーバーを作成する機会があったので、勉強も兼ねてPythonのFastAPIと、AWSのlambdaを使ってサーバレスな推論APIを作成してみました。 今回のコードはこちらになります。 GitHub - kojiro0208/ml-api-lambda ディレ…