OpenAI于9月12日在官网宣布推出代号Strawberry的新一代AI模型系列,正式名称为OpenAI o1。其为一组强化推理能力的生成式AI,具备科学、数学和编程等领域的复杂任务处理能力。
首批发布的模型包括o1-preview,以及针对代码生成的o1-mini,现已于ChatGPT及API平台上推出,企业版和教育版用户下周可获得存取权限。
ChatGPT Plus 和 Team 用户已可在ChatGPT中访问o1模型,但o1-preview每周可发送30条消息,而o1-mini则为50条,使用上仍有一定限制。
推理能力碾压GPT-4o,擅长数学与编码
OpenAI指出,o1系列模型的核心特点是推理能力显著增强,o1能在回答前花更多时间进行推理,不但能考虑问题的各个部分,更能「思考」并自我检查,以达到更准确的答案。
在技术测试中,o1在国际数学奥林匹克资格赛的正确解题率高达83%,前代模型GPT-4o仅为13%。此外,o1在编程竞赛平台Codeforces中的表现达到了89百分位,超越了多数参赛者。
据OpenAI测试,o1的数理能力远超o1 preview跟4o(左);o1编码能力同样超群(中);博士等级科学测试甚至更胜人类专家(右)。 图/ OpenAI
安全性方面,OpenAI衡量安全性的方法是测试使用者试图越狱(绕过安全规则)时,模型将如何继续遵循安全规则。在最严格的越狱测试之一中,GPT-4o得分为22(满分100),而o1-preview模型得分为84分。
至于适用对象,若使用者欲解决科学、编码、数学和类似领域的复杂问题,o1的推理能力可能特别有用。例如,医疗研究人员可使用o1来注释细胞定序数据,物理学家可使用o1来产生量子光学所需的复杂数学公式等等。
推理超群,收费也超群
尽管推理能力大升级,但o1的收费也随之增加。据OpenAI定价,o1-preview在API中的使用费用为每百万个输入token 15美元,输出token则高达60美元,输入成本是GPT-4o的3倍(每百万个输入 token 5美元),输出成本则是4倍(每百万个输出token 15 美元)。
o1-mini 作为一款速度更快、价格更低的推理模型,相较o1-preview便宜 80%,特别适合需要推理但不需广泛世界知识的应用场景。OpenAI 表示,o1-mini在准确生成和调试复杂代码方面表现出色,可与o1-preview 相媲美。
由于目前版本仍在测试阶段,o1在ChatGPT中的使用也受到限制,o1-preview每周限30条消息,o1-mini则限50条。模型的部分功能,如浏览网页和文件分析,暂时未开放使用,而其图像分析功能也因需进一步测试而未开放。
尽管在特定应用中具有优势,o1仍有局限性。据《Tech Church》报导,模型有时需要超过10秒的时间才能回答问题,且仍可能产生幻觉。OpenAI也指出,o1在部分游戏如圈圈叉叉(井字棋)中表现不稳定,并且经常不愿承认自己无法回答的情况。
走词作者:走新闻,如若转载,请注明出处:https://zouci.cc/693996/