このような一般社団法人を立ち上げて政治関連のデータ製造業を始めました(Xなど見てね)
この立ち上げを通して、データエンジニアの個人開発テーマとして、データ製造業はとても良いんじゃないかなと思っているのでその理由などを書きます。
いいポイント①:求められる提供方法や品質の勘所がわかる
データ分析・利用のユースケースを起点に考えることで、履歴的に持つべき項目やスキーマなどの設計ができる
ソースシステムの責務とデータ基盤の責務を切り分けてデザインできる
どの品質保証をどのレイヤーで担保するか判断できる
など、データエンジニアが得意とする領域のスキルを生かした開発が求められます。今回僕が作ったものだと
フィードバック反映やデータ品質改善をユーザーが監査可能にするために、DataVault層を作成することで紐付けと属性の履歴を残せるようにする
みたいな構成を取ったのですが、これはデータエンジニア経験が無いとなかなか出ない発想かもなと思っています。
いいポイント②:支出がコントローラブル
クラウドインフラコストはデータストレージ費用だけで済みます。
BigQueryだとBigQuery Sharing(旧: Analytics Hub)
SnowflakeだとSnowflake Marketplace
こうした仕組みが用意されており、提供されたデータに対するクエリコストはコンシューマー側が負担するモデルになっているからです。つまりユーザーが増えても、利用クエリ数が増えても、こちら側のインフラコストはほぼ変動しません。
会社紹介やデータ利用ガイドのサイトも、Hugoで静的サイトを作ってCloudflare Pagesにデプロイする形にしているので意図しない課金は発生しません。(Cloudflare Pagesは帯域幅が無制限なのが素晴らしい。)
心穏やかにマイペースに運用できます。
いいポイント③:ソースシステム開発〜データ提供まで、データのフルサイクルを経験できる
データエンジニアをしているとデータ基盤サイドの開発に集中することが多く、データ自体を生成するアプリケーションの開発にはあまり携わらなくなっていくことが多いのかなと思います。
アプリケーション開発の経験が薄れていくと、「そもそもソースシステムのこのモデルがイミュータブルになっていたら全てが解決するな」みたいな発想も出づらくなっていくのかなと思っています。
sage-base.com のアプリケーションだと、LLMによるデータ生成と人力によるデータ入力を両立するような作業UIや、生成結果を確認&承認できるUIなどを作っており、データのCRUDを意識したものづくりを久しぶりにできている感覚があります。
いいポイント④:信頼できるデータソースを提供する価値が上がっている気がする
これはデータエンジニアとか関係ないのですが、アプリケーションを構築するコストが相対的に落ちていくのに従って、信頼できる使いやすいデータソースの価値は上がっているように思います。
「データソース」はたくさんの人の助けになれるアウトプット形式になりうるかなと思います。
まとめ
普段の設計スキルが直接活きる
ランニングコストが読めるので長く続けられる
データのフルサイクルを自分の手で回せる
アウトプットの社会的価値がこれから伸びる領域にある(気がする)
もし sage-base.com の開発一緒にやっていきたいぞって人いたらお話ししましょう