Story page

"LLM" - Google ニュース / 2026-05-08

Genieコードにおける従来の機械学習の評価を改善するためのMemAlignの使用 - Databricks

初登場日のバックナンバーを見る

要約

Databricksは、Genie Codeの機械学習ノートブック評価でLLM判断者と人間専門家のズレをMemAlignで補正し、主要評価項目の誤差を大幅に下げた。

注目ポイント

Genie Codeはデータ作業向けの自律AIパートナーとして紹介された
MLノートブック評価では9つの観点でLLM判断者を使った
人間評価とのズレはモデル訓練やデータ補完で大きかった
MemAlignにより一部項目のMAEが74〜89％削減された
意味記憶とエピソード記憶の両方が有効性に重要だった

背景知識

LLM-as-a-judge

LLMに出力物の品質を採点させる評価手法。人手評価を補うが、専門家判断とのズレが課題になる。

データリーク

学習時に本来使えない将来情報やテスト情報が混入する問題。モデル性能を実際より高く見せる。

K分割交差検証

データをK個に分け、学習と評価を入れ替えて性能を測る方法。評価の偏りを抑える目的で使われる。

MAE

平均絶対誤差の略。予測値や採点と正解との差の絶対値を平均し、ズレの大きさを示す。

Source: "LLM" - Google ニュース
Canonical: https://news.google.com/rss/articles/CBMirAFBVV95cUxOWWFWN3JfNzk1ZmJKcEhoZU1fdlpwU1VpWVhCbkxEMUZrNnBrcFFIZkxUbE9UNTUtR282cXhiV2llRU9BRENkY3FneF83bks2ZG5TMVFCdUI3ZlBrQ1JRSmdfSlBjaGhFSlBXQnVMemwyY2ZYdUwtQ0IzbzZDSTZVS3A1Q1RNNTJVWVdUdGsxZW5TV2hDQVBmVW5uS1p0aF9NNWQxMlI5cnR1Umd5?oc=5
Fetched: 2026-05-10T20:00:16.709Z
First Seen: 2026-05-10T20:00:16.709Z
Extraction: ok