Story page
Genieコードにおける従来の機械学習の評価を改善するためのMemAlignの使用 - Databricks
要約
Databricksは、Genie Codeの機械学習ノートブック評価でLLM判断者と人間専門家のズレをMemAlignで補正し、主要評価項目の誤差を大幅に下げた。
注目ポイント
- Genie Codeはデータ作業向けの自律AIパートナーとして紹介された
- MLノートブック評価では9つの観点でLLM判断者を使った
- 人間評価とのズレはモデル訓練やデータ補完で大きかった
- MemAlignにより一部項目のMAEが74〜89%削減された
- 意味記憶とエピソード記憶の両方が有効性に重要だった
背景知識
LLM-as-a-judge
LLMに出力物の品質を採点させる評価手法。人手評価を補うが、専門家判断とのズレが課題になる。
データリーク
学習時に本来使えない将来情報やテスト情報が混入する問題。モデル性能を実際より高く見せる。
K分割交差検証
データをK個に分け、学習と評価を入れ替えて性能を測る方法。評価の偏りを抑える目的で使われる。
MAE
平均絶対誤差の略。予測値や採点と正解との差の絶対値を平均し、ズレの大きさを示す。
- Source
- "LLM" - Google ニュース
- Fetched
- 2026-05-10T20:00:16.709Z
- First Seen
- 2026-05-10T20:00:16.709Z
- Extraction
- ok