科技媒体 The Decoder 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习解决方案方面的能力。
该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。
MLE-bench 专注于两个关键领域:
选择具有挑战性的任务:这些任务代表了当前机器学习的发展水平。
比较 AI 与人类的表现:通过对比,评估 AI 在特定任务中的能力。
OpenAI 在 MLE-bench 上测试了多个 AI 模型和智能体框架,使用 AIDE 框架的 o1-preview 模型表现最佳,在 16.9% 的比赛中至少获得了一枚铜牌,该结果超越了 Anthropic 的 Claude 3.5 Sonnet。
获得 5 金即可评上 "Grandmaster" 特级大师,而 o1-preview 模型在 MLE-bench 测试中获得了 7 枚金牌。
---------------------------------------------------------------------------------
免魔法,国内直接用的chatgpt,月卡仅48元,系统稳定,
售后群售后 WWW。QRMS。COM 直接访问就能用
支持4.0/4o/o1-preview等全部plus模型
该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。
MLE-bench 专注于两个关键领域:
选择具有挑战性的任务:这些任务代表了当前机器学习的发展水平。
比较 AI 与人类的表现:通过对比,评估 AI 在特定任务中的能力。
OpenAI 在 MLE-bench 上测试了多个 AI 模型和智能体框架,使用 AIDE 框架的 o1-preview 模型表现最佳,在 16.9% 的比赛中至少获得了一枚铜牌,该结果超越了 Anthropic 的 Claude 3.5 Sonnet。
获得 5 金即可评上 "Grandmaster" 特级大师,而 o1-preview 模型在 MLE-bench 测试中获得了 7 枚金牌。
---------------------------------------------------------------------------------
免魔法,国内直接用的chatgpt,月卡仅48元,系统稳定,
售后群售后 WWW。QRMS。COM 直接访问就能用
支持4.0/4o/o1-preview等全部plus模型