OpenAI、AIエージェントのパフォーマンス測定ベンチマーク「MLE-bench」を発表　AIの性能をどう測定？

MLE-benchは、AIエージェント向けのオフラインKaggleコンペティション環境だ。各コンペティションには、説明、データセット、採点基準が関連付けられている。回答はCSV形式で提出され、ローカルで採点され、コンペティションのリーダーボードを通じて、現実世界での人間の試行と比較される（提供：OpenAI）

記事に戻る