· FinDocGen · 4 min read
個人開発者向け:Azure Databricksの低コスト構築ガイド
固定費がかかるNAT Gatewayを使わずにコストを抑え、かつサーバーレス機能で開発効率を向上させる構成を紹介します。
はじめに
この記事では、Azure上にDatabricks環境を構築する手順を解説します。 Databricksは大規模データ処理や機械学習に適したプラットフォームであり、データxAI分野での開発に非常に有用です。
今回紹介する構成は、個人利用なのでなるべくコストがかからないような構成で構築します。
構築ポイント
NAT Gateway を利用しない
NAT Gateway(月額約 4,000 円〜)を利用しない構成にすることで、コストを抑えます。 「セキュア・クラスター接続を使用しますか (No Public IP): いいえ」を選択することで、クラスタの各ノードにパブリック IP が割り当てられ、外部と直接通信するため NAT Gateway 代がかかりません。
DBU単価高め(1.4倍)だがPremiumでサーバーレスを有効に
ワークスペースの種類は、StandardとPremiumがあります。PremiumはDBU単価が1.4倍ほど高くなりますが、サーバーレス機能を有効にできるため、開発効率が大幅に向上します。個人利用であればコスト増は許容範囲内と考えられます。
また、Microsoftより、Azure DatabricksのStandardティアは2026年10月に廃止されることが発表されています。2026年10月: すべてPremiumへ強制移行(または廃止)されるので、サーバーレスが最初からPremiumを選択しておきましょう。
構築手順
- ポータル上部の検索バーに「Databricks」と入力し、サービスを選択します。
- 「作成」をクリックします。
- 基本設定タブ:
- サブスクリプション: 自身のものを選択。
- リソースグループ: 新規作成(例: rg-findocgen)。
- ワークスペース名: 任意の名前。(例:ws-findocgen)
- リージョン: Japan East(または安い米国リージョンなど)。
- 価格レベル: Premium(理由:サーバーレス)
- ワークスペースの種類: サーバーレス
- ネットワークタブ:
- 公衆ネットワーク アクセスを許可する: 有効
- 残りはデフォルトのままで「作成」をクリックし、デプロイが完了するまで待ちます。
Databricksワークスペースへのアクセス
- デプロイが完了したら、リソースに移動し、作成したワークスペース(例:ws-findocgen)をクリックします。
- URLがリンクされているので、クリックしてDatabricksワークスペースにアクセスします。
- 初回アクセス時は、Azure AD認証が求められるので、指示に従ってログインします。
まとめ
この記事では、Azure上にDatabricks環境を構築する手順を解説しました。 FinDocGenプロジェクトのデータ分析基盤として、効率的に大規模データ処理を行うための環境が整いました。今後は、この環境を活用して、財務データの分析や機械学習モデルの開発を進めていきます。