3月14日,ChatGPT的开发机构OpenAI正式发布其里程碑之作GPT-4。GPT-4是一个多模态大模型(接受图像和文本输入,生成文本)。GPT-4的高级推理能力更是超越了ChatGPT。
OpenAI在官网发布公告,宣布推出GPT-4,其比GPT-3.5更可靠,更有创造力。公告称,OpenAI 已正式推出GPT-4,这也是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是大型多模态模型,尽管在许多现实世界的场景中能力不如人类,但它可以在各种专业和学术基准上,表现出近似人类水平的性能。
至于收费方面,大约 750 个单词的提示收取约 3 美分的费用,约 750 个单词的响应则收取 6 美分(问和答的区别)。
OpenAI花6个月时间完善GPT-4 支持处理超过25000个单词
OpenAI花了6个月时间使GPT-4更安全、更具一致性。在内部评估中,与GPT-3.5相比,GPT-4对不允许内容做出回应的可能性降低82%,给出事实性回应的可能性高40%。GPT-4更是引入更多人类反馈数据进行训练,不断吸取现实世界使用的经验教训进行改进。
就任务而言,GPT-4 的表现比上一代的GPT-3更好,它可以遵循自然语言的复杂指令并生成技术或创意内容,而且它可以还更深入地做到这一点:它支持生成和处理超过25000个单词的文本,从而实现比前辈更长的内容创建或文本分析。「在简单闲聊时,也许不太好发现GPT-3.5和GPT-4之间的区别。但是,当任务的复杂性达到足够的阈值时,它们的区别就出来了。具体来说,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。」
例如,GPT-4 在模拟律师考试的成绩在考生中排名前 10% 左右,在 SAT 阅读考试中排名前 7% 左右,在 SAT 数学考试中排名前 11% 左右。相比之下,GPT-3.5 在律师考试中的得分一般都是倒数 10% 左右。当然,它们考个研究生还是没问题的。
考试项目 | GPT-4 |
GPT-4(非视角类) |
GPT-3.5 |
统一律师考试 (MBE + MEE + MPT) |
298 / 400 |
298 / 400 |
213 / 400 |
LSAT | 163 |
161 |
149 |
SAT 基于证据的阅读和写作 | 710 / 800 |
710 / 800 |
670 / 800 |
SAT 数学 | 700 / 800 |
690 / 800 |
590 / 800 |
研究生记录考试(GRE) 定量 |
163 / 170 |
157 / 170 |
147 / 170 |
研究生成绩考试(GRE) 口头 |
169 / 170 |
165 / 170 |
154 / 170 |
研究生记录考试(GRE) 写作 |
4 / 6 |
4 / 6 |
4 / 6 |
2020 年美国保半决赛考试 | 87 / 150 |
87 / 150 |
43 / 150 |
USNCO 地方分部考试 2022 | 36 / 60 | 38 / 60 | 24 / 60 |
医学知识自我评估计划 | 75% | 75% | 53% |
Codeforces 评级 | 392 |
392 |
260 |
美联社艺术史 | 5 |
5 |
5 |
AP生物学 | 5 |
5 |
4 |
AP 微积分 BC | 4 |
4 |
1 |
AP 化学 | 4 |
4 |
2 |
AP 英语语言和作文 | 2 |
2 |
2 |
AP 英语文学和作文 | 2 |
2 |
2 |
AP 环境科学 | 5 |
5 |
5 |
AP 巨集观经济学 | 5 |
5 |
2 |
美联社微观经济学 | 5 |
4 |
4 |
AP 物理 2 | 4 |
4 |
3 |
AP 心理学 | 5 |
5 |
5 |
美联社统计 | 5 |
5 |
3 |
美联社美国政府 | 5 |
5 |
4 |
美联社美国历史 | 5 |
4 |
4 |
美联社世界历史 | 4 |
4 |
4 |
AMC 10 | 30 / 150 |
36 / 150 |
36 / 150 |
AMC 12 | 60 / 150 |
48 / 150 |
30 / 150 |
入门侍酒师(理论知识) | 92% | 92% | 80% |
认证侍酒师(理论知识) | 86% | 86% | 58% |
高阶侍酒师(理论知识) | 77 % | 77 % | 46% |
Leetcode(简单) | 31 / 41 | 31 / 41 | 12 / 41 |
Leetcode(中) | 21 / 80 | 21 / 80 | 8 / 80 |
Leetcode(硬) | 3 / 45 | 3 / 45 | 0 / 45 |
OpenAI 表示,GPT-4 错误答案更少,而且也会减少偏离话题的可能,也尽可能不会再谈论禁忌话题,甚至在许多标准化测试中比人类表现得都要更好一些。此外,GPT-4的高级推理能力更是超越了ChatGPT。在SAT等绝大多数专业测试以及相关学术基准评测中,GPT-4的分数高于ChatGPT。
多模态功能有多强大?
GPT-4可以接受文本和图像的提示语。比如,可以让用户指定任何视觉或语言任务,它可以生成文本输出(自然语言、代码等),给定的输入包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。不过,目前图像输入仍然属于研究预览,然而不针对普通用户开放。
OpenAI表示,他们一直在努力实现AI的可控制性。与经典ChatGPT的固定语气和风格不同,开发者现在可以通过在系统消息中描述这些方向,来规定自己的AI的风格和任务。系统消息允许API用户在一定范围内大幅对用户体验进行定制。
或出现推理错误 应十分谨慎
不过,GPT-4仍然存在与早期GPT模型类似的限制。它仍然不是完全可靠的,比如会对事实产生「幻觉」,并出现推理错误。OpenAI提醒,在使用语言模型的输出时,特别是在高风险的情况下,应该非常小心谨慎。
但相较于以前的模型,GPT-4大大减少了网络错觉。在公告中提到,「该模型在其输出中会有各种偏差,我们在这些方面已经取得了进展,但仍有更多工作要做。根据我们最近的博文,我们的目标是使我们建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内被定制,并获得公众对这些范围的意见。」
付费版ChatGPT Plus提供GPT-4
OpenAI接着表示,GPT-4有许多正在解决的局限性,例如社会偏见、幻觉和对抗性提示。而目前,ChatGPT Plus用户将获得有使用上限的GPT-4权限。OpenAI将根据实际需求和系统性能调整确切的使用上限,但预计容量将受到严重限制,并为开发人员提供API(应用程序编程接口)以构建应用和服务。值得一提的是,微软的新必应(New Bing)早就用上了GPT-4。
OpenAI还开源了OpenAI Evals框架,以自动评估AI模型性能,允许用户报告模型中的缺点,帮助其改进。OpenAI工程师在介绍视频中讲到,「GPT-4是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人。」
OpenAI还可能为更高的GPT-4使用量引入一个新的订阅级别,也希望在某个时候提供一定数量的免费GPT-4查询,使没有订阅的用户也可以尝试。
要获得GPT-4的API,需要到OpenAI的官方等待名单上注册。获得访问权限后,用户目前可以向GPT-4模型发出纯文本请求(图像输入仍处于有限的测试阶段)。定价为每1k个prompt token 0.03美元,每1k个completion token 0.06美元。
相关新闻:
Love Hate Inu
FightOut - 下一个100倍边运动边赚的加密货币
- 由LBank实验室、Transak支持
- 通过锻炼获得奖励
- 升级并在元宇宙中竞争
- 预售现已启动-筹集100万美元以上
- 现实世界社区,健身连锁店