3月14日,ChatGPT的开发机构OpenAI正式发布其里程碑之作GPT-4。GPT-4是一个多模态大模型(接受图像和文本输入,生成文本)。GPT-4的高级推理能力更是超越了ChatGPT

OpenAI发布多模态大模型GPT-4

OpenAI在官网发布公告,宣布推出GPT-4,其比GPT-3.5更可靠,更有创造力。公告称,OpenAI 已正式推出GPT-4,这也是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是大型多模态模型,尽管在许多现实世界的场景中能力不如人类,但它可以在各种专业和学术基准上,表现出近似人类水平的性能。

至于收费方面,大约 750 个单词的提示收取约 3 美分的费用,约 750 个单词的响应则收取 6 美分(问和答的区别)。

OpenAI花6个月时间完善GPT-4 支持处理超过25000个单词

OpenAI花了6个月时间使GPT-4更安全、更具一致性。在内部评估中,与GPT-3.5相比,GPT-4对不允许内容做出回应的可能性降低82%,给出事实性回应的可能性高40%。GPT-4更是引入更多人类反馈数据进行训练,不断吸取现实世界使用的经验教训进行改进。

就任务而言,GPT-4 的表现比上一代的GPT-3更好,它可以遵循自然语言的复杂指令并生成技术或创意内容,而且它可以还更深入地做到这一点:它支持生成和处理超过25000个单词的文本,从而实现比前辈更长的内容创建或文本分析。「在简单闲聊时,也许不太好发现GPT-3.5和GPT-4之间的区别。但是,当任务的复杂性达到足够的阈值时,它们的区别就出来了。具体来说,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。」

例如,GPT-4 在模拟律师考试的成绩在考生中排名前 10% 左右,在 SAT 阅读考试中排名前 7% 左右,在 SAT 数学考试中排名前 11% 左右。相比之下,GPT-3.5 在律师考试中的得分一般都是倒数 10% 左右。当然,它们考个研究生还是没问题的。

考试项目 GPT-4
估计百分位数
GPT-4(非视角类)
估计百分位数
GPT-3.5
估计百分位数
统一律师考试
(MBE + MEE + MPT)
298 / 400
~第90
298 / 400
~第90
213 / 400
~10
LSAT 163
~第88
161
~第83
149
~第40
SAT 基于证据的阅读和写作 710 / 800
~第93
710 / 800
~第93
670 / 800
~第87
SAT 数学 700 / 800
~第89
690 / 800
~第89
590 / 800
~第70
研究生记录考试(GRE)
定量
163 / 170
~80号
157 / 170
~第62
147 / 170
~25号
研究生成绩考试(GRE)
口头
169 / 170
~第99
165 / 170
~第96
154 / 170
~第63
研究生记录考试(GRE)
写作
4 / 6
~第54
4 / 6
~第54
4 / 6
~第54
2020 年美国保半决赛考试 87 / 150
第99 – 第100
87 / 150
第99 – 第100
43 / 150
第31 – 第33
USNCO 地方分部考试 2022 36 / 60 38 / 60 24 / 60
医学知识自我评估计划 75% 75% 53%
Codeforces 评级 392
低於5
392
低於5
260
低於5
美联社艺术史 5
第86 – 第100
5
第86 – 第100
5
第86 – 第100
AP生物学 5
第85 – 第100
5
第85 – 第100
4
第62 – 第85
AP 微积分 BC 4
第43 – 第59
4
第43 – 第59
1
第0 – 第7
AP 化学 4
第71 – 第88
4
第71 – 第88
2
第22 – 第46
AP 英语语言和作文 2
第14 – 第44
2
第14 – 第44
2
第14 – 第44
AP 英语文学和作文 2
第8 – 第22
2
第8 – 第22
2
第8 – 第22
AP 环境科学 5
第91 – 第100
5
第91 – 第100
5
第91 – 第100
AP 巨集观经济学 5
第84 – 第100
5
第84 – 第100
2
第33 – 第48
美联社微观经济学 5
第82 – 第100
4
第60 – 第82
4
第60 – 第82
AP 物理 2 4
第66 – 第84
4
第66 – 第84
3
第30 – 第66
AP 心理学 5
第83 – 第100
5
第83 – 第100
5
第83 – 第100
美联社统计 5
第85 – 第100
5
第85 – 第100
3
第40 – 第63
美联社美国政府 5
第88 – 第100
5
第88 – 第100
4
第77 – 第88
美联社美国历史 5
第89 – 第100
4
第74 – 第89
4
第74 – 第89
美联社世界历史 4
第65 – 第87
4
第65 – 第87
4
第65 – 第87
AMC 10 30 / 150
第6 – 第12
36 / 150
第10 – 第19
36 / 150
第10 – 第19
AMC 12 60 / 150
第45 – 第66
48 / 150
第19 – 第40
30 / 150
第4 – 第8
入门侍酒师(理论知识) 92% 92% 80%
认证侍酒师(理论知识) 86% 86% 58%
高阶侍酒师(理论知识) 77 % 77 % 46%
Leetcode(简单) 31 / 41 31 / 41 12 / 41
Leetcode(中) 21 / 80 21 / 80 8 / 80
Leetcode(硬) 3 / 45 3 / 45 0 / 45

OpenAI 表示,GPT-4 错误答案更少,而且也会减少偏离话题的可能,也尽可能不会再谈论禁忌话题,甚至在许多标准化测试中比人类表现得都要更好一些。此外,GPT-4的高级推理能力更是超越了ChatGPT。在SAT等绝大多数专业测试以及相关学术基准评测中,GPT-4的分数高于ChatGPT。

多模态功能有多强大?

GPT-4可以接受文本和图像的提示语。比如,可以让用户指定任何视觉或语言任务,它可以生成文本输出(自然语言、代码等),给定的输入包括带有文字和照片的文件、图表或屏幕截图,GPT-4表现出与纯文本输入类似的能力。不过,目前图像输入仍然属于研究预览,然而不针对普通用户开放。

OpenAI 模型GPT-4 能发现图片的可笑之处。
能发现图片的可笑之处。
OpenAI 模型GPT-4 能发现图片的不寻常之处。
能发现图片中的不寻常之处。
OpenAI 模型GPT-4 能读懂图表并进行分析。
能读懂图表并进行分析。
OpenAI 模型GPT-4 能阅读文件并总结概要。
能阅读文件并总结概要。

 

OpenAI表示,他们一直在努力实现AI的可控制性。与经典ChatGPT的固定语气和风格不同,开发者现在可以通过在系统消息中描述这些方向,来规定自己的AI的风格和任务。系统消息允许API用户在一定范围内大幅对用户体验进行定制。

或出现推理错误 应十分谨慎

不过,GPT-4仍然存在与早期GPT模型类似的限制。它仍然不是完全可靠的,比如会对事实产生「幻觉」,并出现推理错误。OpenAI提醒,在使用语言模型的输出时,特别是在高风险的情况下,应该非常小心谨慎。

但相较于以前的模型,GPT-4大大减少了网络错觉。在公告中提到,「该模型在其输出中会有各种偏差,我们在这些方面已经取得了进展,但仍有更多工作要做。根据我们最近的博文,我们的目标是使我们建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观,允许这些系统在广泛的范围内被定制,并获得公众对这些范围的意见。

付费版ChatGPT Plus提供GPT-4

OpenAI接着表示,GPT-4有许多正在解决的局限性,例如社会偏见、幻觉和对抗性提示。而目前,ChatGPT Plus用户将获得有使用上限的GPT-4权限。OpenAI将根据实际需求和系统性能调整确切的使用上限,但预计容量将受到严重限制,并为开发人员提供API(应用程序编程接口)以构建应用和服务。值得一提的是,微软的新必应(New Bing)早就用上了GPT-4。

OpenAI还开源了OpenAI Evals框架,以自动评估AI模型性能,允许用户报告模型中的缺点,帮助其改进。OpenAI工程师在介绍视频中讲到,「GPT-4是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人。」

OpenAI还可能为更高的GPT-4使用量引入一个新的订阅级别,也希望在某个时候提供一定数量的免费GPT-4查询,使没有订阅的用户也可以尝试。

要获得GPT-4的API,需要到OpenAI的官方等待名单上注册。获得访问权限后,用户目前可以向GPT-4模型发出纯文本请求(图像输入仍处于有限的测试阶段)。定价为每1k个prompt token 0.03美元,每1k个completion token 0.06美元。

相关新闻:

Love Hate Inu

我们的评分

  • Love Hate Inu- 第一个 Web3 投票赚取 Meme币
  • 对当前话题进行投票,并赚取 $LHINU 代币
  • 第一个 Web3 边投边赚平台
  • 安全、可靠且匿名的投票
  • 防拉盘 - 90%的代币在预售中可用
  • 通过抵押 $LHINU 代币积累投票权

FightOut - 下一个100倍边运动边赚的加密货币

我们的评分

  • 由LBank实验室、Transak支持
  • 通过锻炼获得奖励
  • 升级并在元宇宙中竞争
  • 预售现已启动-筹集100万美元以上
  • 现实世界社区,健身连锁店