This page contains information related to upcoming products, features, and functionality. It is important to note that the information presented is for informational purposes only. Please do not rely on this information for purchasing or planning purposes. As with all projects, the items mentioned on this page are subject to change or delay. The development, release, and timing of any products, features, or functionality remain at the sole discretion of GitLab Inc.
StatusAuthorsCoachDRIsOwning StageCreated
proposed -

このドキュメントは作業中のものであり、セルズの設計のごく初期の状態を表しています。重要な点は文書化されていませんが、将来的には追加される予定です。これはCellsの可能性のあるアーキテクチャの一つであり、どのアプローチを実装するか決める前に、代替案と比較検討するつもりです。この文書化は、このアプローチを選ばなかった理由を文書化できるよう、これを実装しないと決めた場合でも残しておきます。

セルズデータパイプラインの取り込み

Cells アーキテクチャは、データ分析のために Postgres から Snowflake にデータをエクスポートする現在のデータパイプラインに大きな影響を与えます。このデータパイプラインは、多くのユースケース(SAAS サービスの ping、Gainsight のメトリクス、SAAS プラットフォームのレポートと分析など)を満たします。

1.定義

2.データフロー

現在のデータパイプラインは、CDCメカニズム(データ品質のイシューにつながる)を介してデータを取得する可能性がないため制限されており、Postgresデータベースをポーリングして新規レコードや更新レコードを探したり、特定のテーブルのデータを完全に抽出したりすることで動作しますが、これは多くのオーバーヘッドを引き起こします。現在、データパイプラインは、mainci データベースのスナップショットから作成された2つのインスタンスに対して実行されています。これは、本番データベースに負荷がかからないようにするためです。CellsアーキテクチャではPostgresインスタンスが増えるため、現在のパイプラインではすべてのPostgresインスタンスからデータを取得することができません。今後のデータパイプラインに関する要件は以下のとおりです:

  • 全てのCellsから全てのCDC(挿入、更新、削除)を取り込み、Cellsの数に応じて自動的にスケールするプロセスが必要です。
  • データベースインスタンスに(直接または間接的に)アクセスでき、重大な障害が発生した場合のデータのキャッチアップや、データ異常の根本原因分析ができる必要があります。
  • データの取り込みを遅らせるようなインシデントが発生した場合に警告を発するためのモニタリングが必要です。

3.提案

4.評価

4.1.長所

4.2.コンサ