Story page
GitHub - microsoft/waza: CLI / Framework for Agent Skills - create, test, measure and improve skill quality and effectiveness
要約
Microsoftのwazaは、AIエージェント向けスキルを作成・評価・改善するためのGo製CLI。評価スイートの生成、ベンチマーク実行、モデル間比較、CI連携に対応する。
注目ポイント
- Go製CLIでAIエージェントスキルを評価
- スキルや評価スイートのひな形を生成可能
- 複数モデルの結果比較やカバレッジ確認に対応
- キャッシュ、JUnit出力、GitHubコメント形式などCI向け機能を備える
- azd拡張としても利用できる
背景知識
waza
AIエージェントのスキル品質を作成、テスト、測定、改善するためのCLIフレームワーク。
eval suite
スキルの動作を検証する評価仕様やタスク、フィクスチャをまとめたテスト構成。
waza run
評価ベンチマークを実行し、結果出力、並列実行、タグ絞り込み、モデル指定などを行うコマンド。
waza compare
複数の評価結果を比較し、タスク別の差分や合格率、集計統計を確認するコマンド。
- Source
- はてなブックマーク - 人気エントリー - 総合
- Canonical
- https://github.com/microsoft/waza
- Fetched
- 2026-05-09T03:48:29.607Z
- First Seen
- 2026-05-09T03:48:29.607Z
- Extraction
- ok