OpenAI发布多模态大模型GPT-4 　高级推理能力超越ChatGPT

3月14日，ChatGPT的开发机构OpenAI正式发布其里程碑之作GPT-4。GPT-4是一个多模态大模型（接受图像和文本输入，生成文本）。GPT-4的高级推理能力更是超越了ChatGPT。

OpenAI发布多模态大模型GPT-4

OpenAI在官网发布公告，宣布推出GPT-4，其比GPT-3.5更可靠，更有创造力。公告称，OpenAI 已正式推出GPT-4，这也是OpenAI在扩大深度学习方面的最新里程碑。GPT-4是大型多模态模型，尽管在许多现实世界的场景中能力不如人类，但它可以在各种专业和学术基准上，表现出近似人类水平的性能。

至于收费方面，大约 750 个单词的提示收取约 3 美分的费用，约 750 个单词的响应则收取 6 美分（问和答的区别）。

OpenAI花6个月时间完善GPT-4 支持处理超过25000个单词

OpenAI花了6个月时间使GPT-4更安全、更具一致性。在内部评估中，与GPT-3.5相比，GPT-4对不允许内容做出回应的可能性降低82%，给出事实性回应的可能性高40%。GPT-4更是引入更多人类反馈数据进行训练，不断吸取现实世界使用的经验教训进行改进。

就任务而言，GPT-4 的表现比上一代的GPT-3更好，它可以遵循自然语言的复杂指令并生成技术或创意内容，而且它可以还更深入地做到这一点：它支持生成和处理超过25000个单词的文本，从而实现比前辈更长的内容创建或文本分析。「在简单闲聊时，也许不太好发现GPT-3.5和GPT-4之间的区别。但是，当任务的复杂性达到足够的阈值时，它们的区别就出来了。具体来说，GPT-4比GPT-3.5更可靠，更有创造力，能够处理更细微的指令。」

例如，GPT-4 在模拟律师考试的成绩在考生中排名前 10% 左右，在 SAT 阅读考试中排名前 7% 左右，在 SAT 数学考试中排名前 11% 左右。相比之下，GPT-3.5 在律师考试中的得分一般都是倒数 10% 左右。当然，它们考个研究生还是没问题的。

考试项目	GPT-4 估计百分位数	GPT-4（非视角类）估计百分位数	GPT-3.5 估计百分位数
统一律师考试（MBE + MEE + MPT）	298 / 400 ~第90	298 / 400 ~第90	213 / 400 ~10
LSAT	163 ~第88	161 ~第83	149 ~第40
SAT 基于证据的阅读和写作	710 / 800 ~第93	710 / 800 ~第93	670 / 800 ~第87
SAT 数学	700 / 800 ~第89	690 / 800 ~第89	590 / 800 ~第70
研究生记录考试（GRE）定量	163 / 170 ~80号	157 / 170 ~第62	147 / 170 ~25号
研究生成绩考试（GRE）口头	169 / 170 ~第99	165 / 170 ~第96	154 / 170 ~第63
研究生记录考试（GRE）写作	4 / 6 ~第54	4 / 6 ~第54	4 / 6 ~第54
2020 年美国保半决赛考试	87 / 150 第99 – 第100	87 / 150 第99 – 第100	43 / 150 第31 – 第33
USNCO 地方分部考试 2022	36 / 60	38 / 60	24 / 60
医学知识自我评估计划	75%	75%	53%
Codeforces 评级	392 低於5	392 低於5	260 低於5
美联社艺术史	5 第86 – 第100	5 第86 – 第100	5 第86 – 第100
AP生物学	5 第85 – 第100	5 第85 – 第100	4 第62 – 第85
AP 微积分 BC	4 第43 – 第59	4 第43 – 第59	1 第0 – 第7
AP 化学	4 第71 – 第88	4 第71 – 第88	2 第22 – 第46
AP 英语语言和作文	2 第14 – 第44	2 第14 – 第44	2 第14 – 第44
AP 英语文学和作文	2 第8 – 第22	2 第8 – 第22	2 第8 – 第22
AP 环境科学	5 第91 – 第100	5 第91 – 第100	5 第91 – 第100
AP 巨集观经济学	5 第84 – 第100	5 第84 – 第100	2 第33 – 第48
美联社微观经济学	5 第82 – 第100	4 第60 – 第82	4 第60 – 第82
AP 物理 2	4 第66 – 第84	4 第66 – 第84	3 第30 – 第66
AP 心理学	5 第83 – 第100	5 第83 – 第100	5 第83 – 第100
美联社统计	5 第85 – 第100	5 第85 – 第100	3 第40 – 第63
美联社美国政府	5 第88 – 第100	5 第88 – 第100	4 第77 – 第88
美联社美国历史	5 第89 – 第100	4 第74 – 第89	4 第74 – 第89
美联社世界历史	4 第65 – 第87	4 第65 – 第87	4 第65 – 第87
AMC 10	30 / 150 第6 – 第12	36 / 150 第10 – 第19	36 / 150 第10 – 第19
AMC 12	60 / 150 第45 – 第66	48 / 150 第19 – 第40	30 / 150 第4 – 第8
入门侍酒师（理论知识）	92%	92%	80%
认证侍酒师（理论知识）	86%	86%	58%
高阶侍酒师（理论知识）	77 %	77 %	46%
Leetcode（简单）	31 / 41	31 / 41	12 / 41
Leetcode（中）	21 / 80	21 / 80	8 / 80
Leetcode（硬）	3 / 45	3 / 45	0 / 45

OpenAI 表示，GPT-4 错误答案更少，而且也会减少偏离话题的可能，也尽可能不会再谈论禁忌话题，甚至在许多标准化测试中比人类表现得都要更好一些。此外，GPT-4的高级推理能力更是超越了ChatGPT。在SAT等绝大多数专业测试以及相关学术基准评测中，GPT-4的分数高于ChatGPT。

多模态功能有多强大？

GPT-4可以接受文本和图像的提示语。比如，可以让用户指定任何视觉或语言任务，它可以生成文本输出（自然语言、代码等），给定的输入包括带有文字和照片的文件、图表或屏幕截图，GPT-4表现出与纯文本输入类似的能力。不过，目前图像输入仍然属于研究预览，然而不针对普通用户开放。

OpenAI 模型GPT-4 能发现图片的可笑之处。 — 能发现图片的可笑之处。

OpenAI 模型GPT-4 能发现图片的不寻常之处。 — 能发现图片中的不寻常之处。

OpenAI 模型GPT-4 能读懂图表并进行分析。 — 能读懂图表并进行分析。

OpenAI 模型GPT-4 能阅读文件并总结概要。 — 能阅读文件并总结概要。

OpenAI表示，他们一直在努力实现AI的可控制性。与经典ChatGPT的固定语气和风格不同，开发者现在可以通过在系统消息中描述这些方向，来规定自己的AI的风格和任务。系统消息允许API用户在一定范围内大幅对用户体验进行定制。

或出现推理错误应十分谨慎

不过，GPT-4仍然存在与早期GPT模型类似的限制。它仍然不是完全可靠的，比如会对事实产生「幻觉」，并出现推理错误。OpenAI提醒，在使用语言模型的输出时，特别是在高风险的情况下，应该非常小心谨慎。

但相较于以前的模型，GPT-4大大减少了网络错觉。在公告中提到，「该模型在其输出中会有各种偏差，我们在这些方面已经取得了进展，但仍有更多工作要做。根据我们最近的博文，我们的目标是使我们建立的人工智能系统具有合理的默认行为，以反映广泛的用户价值观，允许这些系统在广泛的范围内被定制，并获得公众对这些范围的意见。」

付费版ChatGPT Plus提供GPT-4

OpenAI接着表示，GPT-4有许多正在解决的局限性，例如社会偏见、幻觉和对抗性提示。而目前，ChatGPT Plus用户将获得有使用上限的GPT-4权限。OpenAI将根据实际需求和系统性能调整确切的使用上限，但预计容量将受到严重限制，并为开发人员提供API（应用程序编程接口）以构建应用和服务。值得一提的是，微软的新必应（New Bing）早就用上了GPT-4。

OpenAI还开源了OpenAI Evals框架，以自动评估AI模型性能，允许用户报告模型中的缺点，帮助其改进。OpenAI工程师在介绍视频中讲到，「GPT-4是世界第一款高体验，强能力的先进AI系统，我们希望很快把它推向所有人。」

OpenAI还可能为更高的GPT-4使用量引入一个新的订阅级别，也希望在某个时候提供一定数量的免费GPT-4查询，使没有订阅的用户也可以尝试。

要获得GPT-4的API，需要到OpenAI的官方等待名单上注册。获得访问权限后，用户目前可以向GPT-4模型发出纯文本请求（图像输入仍处于有限的测试阶段）。定价为每1k个prompt token 0.03美元，每1k个completion token 0.06美元。

OpenAI发布多模态大模型GPT-4 　高级推理能力超越ChatGPT　准确度更高能辨识图像