OpenAI推出GPT-4！可以解析文本和图像输入，但不包括视频

2023-03-15 09:03:05 来源 : 金融界

(资料图片)

金融界3月15日消息当地时间周二，在经过多次预告之后，OpenAI宣布了GPT-4。据悉，这是其AI语言模型系列中的最新产品，可为ChatGPT和新Bing等应用程序提供支持。

OpenAI声称该模型“比以往任何时候都更具创造性和协作性”，“可以更准确地解决难题”。它可以解析文本和图像输入，尽管它只能通过文本响应。OpenAI还警告说，这些系统保留了许多与早期语言模型相同的问题，包括编造信息（或“幻觉”）的倾向以及生成暴力和有害文本的能力。

OpenAI表示，它已经与许多公司合作，将GPT-4集成到他们的产品中，包括Duolingo，Stripe和KhanAcademy。最新的GPT-4对月订阅费20美元的ChatGPT Plus的用户开放使用，并为微软的Bing聊天机器人提供支持。它也可以作为API供开发人员访问。

在一篇研究博客文章中，OpenAI表示，GPT-4与其前身GPT-3.5之间的区别在随意交谈中是“微妙的”（GPT-3.5是支持ChatGPT的模型）。OpenAI首席执行官Sam Altman在推特上表示，GPT-4“仍然存在缺陷，仍然有限”，但它也“在第一次使用时似乎比你花更多时间后更令人印象深刻”。

OpenAI表示，GPT-4的改进在系统在许多测试和基准测试中的表现中显而易见，包括统一律师考试，LSAT，SAT数学和SAT循证阅读和写作考试。在提到的考试中，GPT-4的分数在第88个百分位及以上。

在过去的一年里，关于GPT-4及其功能的猜测一直很普遍，许多人认为这将是对以前系统的巨大飞跃。然而，从OpenAI的公告来看，正如该公司此前警告的那样，改进更具迭代性。

“人们乞求失望，他们会失望的，”奥特曼在一月份接受关于GPT-4的采访时说。“炒作就像...我们没有实际的AGI，这是对我们的期望。”

上周，在微软高管在接受德国媒体采访时透露该系统将于本周推出后，谣言进一步活跃起来。这位高管还建议该系统将是多模式的，也就是说不仅能够生成文本，还能够生成其他媒体。许多人工智能研究人员认为，集成文本、音频和视频的多模态系统为构建更强大的人工智能系统提供了最佳途径。

GPT-4确实是多模态的，但介质比一些人预测的要少。OpenAI表示，该系统可以接受文本和图像输入，并发出文本输出。该公司表示，该模型同时解析文本和图像的能力使其能够解释更复杂的输入。在下面的示例中，您可以看到系统解释模因和不寻常的图像：

进入GPT-4是一段漫长的旅程，OpenAI，以及一般的AI语言模型，在最近几个月迅速成为主流之前，几年来缓慢建立势头。

描述GPT的原始研究论文于2018年发表，GPT-2于2019年宣布，GPT-3于2020年宣布。这些模型是在庞大的文本数据集上训练的，其中大部分是从互联网上抓取的，这些数据集是为统计模式而挖掘的。然后，这些模式用于预测哪个单词紧随另一个单词。这是一种相对简单的描述机制，但最终结果是灵活的系统，可以生成、总结和改写写作，以及执行其他基于文本的任务，如翻译或生成代码。

OpenAI最初推迟了其GPT模型的发布，因为担心它们会被用于恶意目的，如生成垃圾邮件和错误信息。但在2022年底，该公司推出了ChatGPT——一种基于GPT-3.5的对话聊天机器人，任何人都可以访问。ChatGPT的推出引发了科技界的狂热，微软很快推出了自己的AI聊天机器人Bing（Bing搜索引擎的一部分），谷歌争先恐后地追赶。

正如预测的那样，这些人工智能语言模型的广泛可用性带来了问题和挑战。教育系统仍在适应写出受人尊敬的大学论文的软件的存在；由于人工智能生成内容的涌入，StackOverflow和科幻杂志Clarkesworld等在线网站不得不关闭提交；人工智能写作工具在新闻业的早期使用充其量是坎坷的。但是，一些专家认为，有害影响仍然低于预期。

在宣布GPT-4时，OpenAI强调该系统已经过六个月的安全培训，在内部测试中，“响应不允许内容请求的可能性降低了82％，产生事实响应的可能性比GPT-40.3高出5％。

但是，这并不意味着系统不会犯错误或输出有害内容。例如，微软透露，其Bing聊天机器人一直由GPT-4提供支持，许多用户能够以各种创造性的方式打破Bing的护栏，让机器人提供危险的建议，威胁用户并编造信息。GPT-4也仍然缺乏对2021年9月“绝大部分数据切断后发生的事件”的了解.

本文源自：金融界

关键词：