当地时间周四(9月25日) ,人工智能(AI)研究公司OpenAI发布了一项新的基准测试,用于比较其AI模型与各行业专业人士的工作表现。
这项测试名为GDPval,是一次初步尝试 ,旨在评估OpenAI的系统距离在经济价值工作上超越人类有多近 。而经济价值工作是OpenAI开发通用人工智能(AGI)的关键环节。
OpenAI周四表示,其GPT-5模型以及竞争对手Anthropic公司的Claude Opus 4.1“已经接近行业专家的工作质量”。
这并不意味着OpenAI的模型会立刻取代人类工作 。尽管一些CEO预测AI在几年内就会取代人类,但OpenAI承认GDPval目前只涵盖人们实际工作中有限的一部分任务。不过 ,这是该公司用来衡量AI向这一里程碑迈进的最新方式之一。
GDPval基于美国GDP贡献最大的九个行业,包括医疗、金融 、制造业和政府等领域 。测试覆盖了44种职业,从软件工程师到护士再到记者。
在首个版本GDPval-v0中,OpenAI邀请资深专业人士对比AI生成的报告与其他专业人士的成果 ,并挑选出更优者。
例如,某项任务要求投行人员为“最后一公里配送行业 ”制作竞争格局分析,并与AI生成的报告进行对比。OpenAI随后将AI模型在全部44个职业中对抗人类报告的“胜率”进行平均计算 。
结果显示 ,GPT-5-high(高算力版本GPT-5)在40.6%的情况下被评为优于或与行业专家持平。
而Anthropic的Claude Opus 4.1模型则在49%的任务中被评为不输于行业专家,这一表现超过了OpenAI的模型。
OpenAI对此解释称,之所以Claude得分更高 ,部分原因是其倾向于生成更美观的图表,而非纯粹性能更优 。
需要说明的是,大多数职业的工作远不止提交研究报告 ,而这却是GDPval-v0所测试的全部内容。OpenAI承认这一点,并计划在未来开发更全面的测试,涵盖更多行业和交互式工作流程。
尽管如此 ,OpenAI仍认为GDPval的进展具有重要意义 。
OpenAI首席经济学家Aaron Chatterji在接受采访时表示,GDPval的测试结果表明,这些岗位上的人们可以利用AI模型节省时间,从而专注于更有意义的工作。
“因为模型在某些事情上已经变得很擅长 ,随着能力的提升,人们可以越来越多地把部分工作交给模型,去做潜在更有价值的事情 ,”Chatterji说。
OpenAI评估负责人Tejal Patwardhan表示,她对GDPval的进步速度感到鼓舞 。
Patwardhan指出,约15个月前发布的GPT-4o模型得分仅为13.7%(胜出或持平人类) ,而GPT-5的成绩几乎提高了三倍。她预计这一趋势还会继续。
股票杠杆交易app:湘潭配资炒股-押中OpenAI后 黄仁勋等待中国具身智能的“GPT时刻”
配资股票配资按月配资:炒股+杠杆-汇丰最新调查!内地投资者增加投资的意愿逐步增强
炒股可以多少倍杠杆:新手买股票哪里开户-业绩暴增+股价创历史新高的优质股 21股上榜
股市里杠杆:可以挑选股票的炒股软件-甘肃通报:褐石培心幼儿园餐食铅含量严重超标 6人被批捕 17人被立案审查调查
在线炒股配资门户网:买股票可以杠杆的app-6月16日国内四大证券报纸、重要财经媒体头版头条内容精华摘要
手机买股票开户软件:什么是炒股加杠杆融资-详解服务消费最新政策措施!多部门发声
那些股票可以融资:借钱杠杆炒股-9月12日港股收盘:恒指涨1.16% 百度集团领涨成分股
股票配资一览表最新:炒股配资杠杆亻中承配资-8月多地银行业协会继续发声“反内卷” 有地区已启动专项整治 业内称关键仍在利率
股票专业在线配资_股票专业配资杠杆提示:文章来自网络,不代表本站观点。
股票专业在线配资_股票专业配资杠杆⑯我们致力于成为您最可信赖的配资伙伴,与您携手共进,共创美好未来。
在投资圈里,常有“高盛反买,别墅靠海”的调侃。虽然在许多时候,这只是一句玩笑话。不过本周,纽约期铜市场遭遇的历史性暴...
截至2025年4月11日 10:03,中证机器人指数(H30590)上涨0.23%,成分股中大力德(002896)上涨6...
“目前,我行没有发行3年期和5年期的大额存单,大额存单最长期限为2年期,且2年期的存单利率和1年期的一样,都是1.4...
7月7日起,《程序化交易管理实施细则》(以下简称《细则》或“新规”)正式实施。 从2024年6月7日,新规向市场公...
在乡村振兴的时代浪潮中,棕榈生态城镇发展股份有限公司(简称 “棕榈股份”)积极响应国家号召,不断探索创新发展路径。4月1...