機械学習モデル実験

note
モデル実験のトラッキングは実験的な機能です。フィードバックや機能リクエストはhttps://gitlab.com/gitlab-org/gitlab/-/issues/381660 を参照してください。

アクセスレベルモデル実験の可視レベルは、公開、非公開、または無効に設定することができます。このオプションはSettings > General > Visibility, project features, permissions > Model experimentsで設定できます。実験や候補データを修正・削除するためには、ユーザーは少なくともレポーターロールを持っていなければなりません。

機械学習モデルを作成する際、データサイエンティストはモデルのパフォーマンスを向上させるために、様々なパラメータ、設定、フィーチャーエンジニアリングを試すことがよくあります。このようなメタデータと関連するアーティファクトをすべて追跡し、データサイエンティストが後で実験を再現できるようにすることは容易ではありません。機械学習実験のトラッキングは、パラメータ、メトリクス、アーティファクトを GitLab に直接記録し、後で簡単にアクセスできるようにします。

このような機能が提案されています:

  • 検索実験。
  • 候補の視覚的比較
  • GitLab UIによる候補の作成、削除、更新。

機能要望については、エピック 9341 をご覧ください。

実験とは何ですか?

プロジェクトにおいて、実験とは比較可能なモデル候補の集まりです。実験は、(ユースケースを表す場合など)長期にわたることもあれば、(マージリクエストをトリガーとしたハイパーパラメータチューニングの結果など)短期間のこともありますが、通常は、同じメトリクスで測定された同様のパラメータセットを持つモデル候補を保持します。

List of Experiments

モデル候補

モデル候補とは、機械学習モデルのトレーニングのバリエーションで、最終的にモデルのバージョンに昇格させることができます。

Experiment Candidates

データサイエンティストの目標は、与えられたメトリクスによって示されるように、パラメータ値が最高のモデル性能につながるモデル候補を見つけることです。

Candidate Detail

パラメータの例

  • アルゴリズム(線形回帰や決定木など)。
  • アルゴリズムのハイパーパラメータ(学習率,木の深さ,エポック数).
  • 含まれる機能。

新しい実験と候補の追跡

実験とトライアルは、MLflowクライアントとの互換性によってのみ追跡できます。MLflowクライアントのバックエンドとしてGitLabを使用する方法の詳細については、MLflowクライアントの互換性を参照してください。

モデル候補の探索

現在アクティビティ中の実験をリストアップするには、https/-/ml/experiments または:

  1. 左のサイドバーで「検索」または「移動」を選択してあなたのプロジェクトを検索します。
  2. Analyze > Model experimentsを選択します。
  3. ログに記録されたすべての候補とそのメトリクス、パラメータ、メタデータを表示するには、実験を選択します。
  4. 候補の詳細を表示するには、Details を選択します。

ログのアーティファクトの表示

トライアルのアーティファクトは汎用パッケージとして保存され、すべての制限に従います。候補に対してアーティファクトがログに記録されると、その候補に対してログに記録されたすべてのアーティファクトがパッケージ レジストリにリストされます。候補のパッケージ名はml_experiment_<experiment_id>で、バージョンは候補の IID です。アーティファクトへのリンクは、Experiment CandidatesリストまたはCandidate detailからアクセスすることもできます。

CI情報の表示

16.1で導入

候補を作成した CI ジョブに関連付けることができ、マージリクエスト、パイプライン、パイプラインをトリガーしたユーザーへのクイックリンクが可能になります:

CI information in candidate detail