dbtを導入して、解析プロダクトのpythonコードを撲滅した(い)

本記事は、dbt advent calendarの内容です。 qiita.com dbtは、データ基盤の開発に採用される事が多いと思いますが、 jinjaを使うことによって複雑な処理も実行が可能なため、データ解析系のプロダクトとも相性がよいです。 今回は、dbtを導入して、自社プロ…

組織の収益成長に貢献するデータ基盤とは?:RevOpsの視点より

データエンジニア、アナリティクスエンジニアが整備するデータ基盤は、ビジネスメンバー、サイエンティスト、アナリストのデータ利活用をスムーズにすることが、 ざっくりとした役割です。 一方で、その役割はビジネスのオペレーションをサポートする側面が…

5年続けたはてなブログのタイトルを変更した

このブログはじめて5年が経ちます。 先日より、「医療職からデータサイエンティスト」改め、「データの裏側を歩く」へブログタイトルを変更しました。 個人ブログのタイトル変更など、あまり興味がないと思いますが、 わたしの今のキャリアは、このブログと…

サイクロマチック数を活用してPythonコードを評価する

はじめに 自分でかいたコードや、他の人のコードレビューをするとき、「なんとなくみにくいコードだけど、どこまでリファクタリングすべき?」という疑問がよくでてきます。 仮に、コードのみにくさ、つまり複雑性を定量化できれば、「このコードの複雑性がx…

Kimbalのディメンショナルモデリング入門~dbtをつかって~

Kimbalのディメンショナルモデリングは、データウェハウスのデータモデリングの中でも、広く採用されている手法で、近年のData Vault 2.0の基本となる考え方となっています。 こちらは、ディメンショナルモデリングのバイブルです↓ The Data Warehouse Toolk…

データサイエンティストが、1ヶ月で基本情報技術者資格を取得した~難易度や勉強法について~

私は、データを扱う仕事について5年目になります。 普段は、ビジネス寄りのデータアナリストのポジションに近いのですが、データ基盤周りのエンジニアリング業務も増えてたので、いったんの基礎固めとして、基本情報技術者試験を受けることにしました。 「1…

dbtとBigQueryで東京犯罪ダッシュボードを作った

本記事は、dbt advent calendarの内容です。 qiita.com オープンデータ+BiqQuery+dbt+Streamlitという構成で、東京都における犯罪ダッシュボードを作ってみました。 完成品とコードはこちら 東京犯罪ダッシュボード データ処理&アプリコード dbtプロジェクト…

BigQueryとdbtを接続!最強のデータ基盤

近年話題のdbtは、データエンジニアリングの分野で使われるオープンソースのコマンドラインツールです。特に、データウェアハウス内でのデータ変換(ETL:Extract, Transform, Loadの「Transform」部分)作業を効率化するために設計されていて、以下の点が特…

CodepipeLineとgithubを使って、lambdaの更新を自動化

以前にFastAPI+lambdaで機械学習推論APIを作成しました。 www.medi-08-data-06.work ここでは、中身の修正があると、毎回手作業でECRへのpush、およびlambda関数の更新を行う必要があり手間でした。 今回は、AWSのcodepiplineとgithubを使用し、最小限のCI/C…

FastAPI+AWSlambdaでサーバレスな機械学習推論APIを作成する

機械学習モデルの予測結果を返す簡単なAPIサーバーを作成する機会があったので、勉強も兼ねてPythonのFastAPIと、AWSのlambdaを使ってサーバレスな推論APIを作成してみました。 今回のコードはこちらになります。 GitHub - kojiro0208/ml-api-lambda ディレ…