OpenAI、AIエージェントのパフォーマンス測定ベンチマーク「MLE-bench」を発表 AIの性能をどう測定?

MLE-benchは、AIエージェント向けのオフラインKaggleコンペティション環境だ。各コンペティションには、説明、データセット、採点基準が関連付けられている。回答はCSV形式で提出され、ローカルで採点され、コンペティションのリーダーボードを通じて、現実世界での人間の試行と比較される(提供:OpenAI)