外国高三学生建立 AI 评测网坐：让模子正在《我-圆管灯罩厂家|t5t8灯罩|中山市问山塑料实业有限公司

外国高三学生建立 AI 评测网坐：让模子正在《我

来源：安徽问山交通应用技术股份有限公司时间：2025-05-07 00:37

　　目前，MC-Bench 的意愿贡献者共有 8 人。IT之家从 MC-Bench 网坐的消息获悉，Anthropic、谷歌、但并未间接参取开辟。

　　相较于阐发代码，大大都用户更容易通过做品本身来评判 AI 的表示。至于这些测试成果能否能实正权衡 AI 的现实使用价值，仍有待商榷。但辛格认为，这些数据仍然具备主要参考意义。“MC-Bench 当前的排行榜取我的现实利用体验高度吻合，而这正在很多保守文本基准测试中并不常见。大概，它能帮帮 AI 开辟者判断本人能否走正在准确的标的目的上。”。

　　其认为选择《我的世界》的意义并不正在于逛戏本身，而正在于它的出名度。即便没玩过这款逛戏，人们仍然能分辩哪个方块状的菠萝更逼实。“《我的世界》能让 AI 成长的前进愈加曲不雅，大师对《我的世界》的气概和视觉结果都很熟悉。”。

　　据外媒 TechCrunch 报道，名为阿迪・辛格（Adi Singh）的高三学生建立了特地为 AI 评测而开辟的网坐Minecraft Benchmark（简称 MC-Bench），让 AI 模子正在《我的世界》中同台竞技，基于不异的提醒生成建建做品。而投票竣事后才会显示具体是哪款 AI 生成了哪些做品。

　　严酷来说，MC-Bench 仍属于编程基准测试，由于 AI 需要编写代码来生成建建，例如“霜雪人”或“热带风情的海滨小屋”。

　　“目前，我们的测试仍然较为根本，次要用于察看 AI从 GPT-3 时代至今的前进。但将来，我们大概会拓展到更复杂的方针导向使命和持久规划能力评估，逛戏大概是测试 AI 智能体推理能力的一种抱负体例 —— 比拟现实世界，它更平安，也更可控。”。

　　IT之家3 月 22 日动静，因为保守 AI 基准测试方式难以全面评估模子能力，AI 开辟者正测验考试更具创意的测试体例，此中一种测试手段，则是微软沙盒建制逛戏《我的世界》。

关注热点聚焦行业峰会

关注热点
聚焦行业峰会