GitHub - microsoft/waza: CLI / Framework for Agent Skills - create, test, measure and improve skill quality and effectiveness

要約

Microsoftのwazaは、AIエージェント向けスキルを作成・評価・改善するためのGo製CLI。評価スイートの生成、ベンチマーク実行、モデル間比較、CI連携に対応する。

注目ポイント

背景知識

AIエージェントのスキル品質を作成、テスト、測定、改善するためのCLIフレームワーク。

スキルの動作を検証する評価仕様やタスク、フィクスチャをまとめたテスト構成。

評価ベンチマークを実行し、結果出力、並列実行、タグ絞り込み、モデル指定などを行うコマンド。

複数の評価結果を比較し、タスク別の差分や合格率、集計統計を確認するコマンド。