ChatGPT 是 OpenAI 训练的对话式大规模语言模型,以对话的方式进行交互。它和之前的另一款模型 InstructGPT 属于同级模型,代表“GPT 3.5”代。之前微软和 OpenAI 签订了战略合作计划,所以 GPT 3.5 代的所有模型,包括 ChatGPT,都是在 Azure AI 超级计算集群上训练的。
OpenAI 使用前面提到的 RLHF 技术对 ChatGPT 进行了训练:简单来说,在训练原始模型的时候,OpenAI 让人类训练师扮演对话的双方(用户 vs 聊天机器人),提供对话作为学习资料。而在人类扮演聊天机器人的时候,OpenAI 也会让模型生成一些建议来帮助训练师撰写自己的回复。
这些机器生成的回答,再经过训练师的打分排名,将更好的结果输入回到模型中,实现强化学习训练的奖励机制。作为一个聊天机器人,ChatGPT 具有当代同类产品具备的一些主流特性,特别是多轮对话能力,能够在同一个会话期间内回答上下文相关的后续问题。
计算大模型 GPT-3.5 支持的通用聊天机器人原型 ChatGPT,能回答一连串的问题、承认自己的错误、质疑不正确的假设,甚至是拒绝不合理的需求。
就在人们翘首期盼 GPT-4 亮相时,OpenAI 先低调推出了个 GPT-3.5。有了 GPT-3.5 的加持,ChatGPT 经训练后提升了对答如流的能力。GPT-3 只预测任何给定的单词串之后的文本,而 ChatGPT 则试图以一种更像人类的方式与用户发生互动。ChatGPT 的互动通常是非常流畅的,并且有能力参与各种主题,与几年前才面世的聊天机器人相比,显示出了巨大的改进。
OpenAI 官方称,ChatGPT 是在人类的帮助下创建并训练的,人类训练师对该 AI 早期版本回答查询的方式进行排名和评级。然后,这些信息被反馈到系统中,系统会根据训练师的偏好来调整答案——这是一种训练人工智能的标准方法,被称为强化学习。
ChatGPT 还有一种奇妙的能力:回答基本的、甚至于有些无聊的琐碎问题。这使得许多人认为,像这样的人工智能系统有一天会取代搜索引擎。聊天机器人是根据从网上收集到的信息进行训练的。因此,如果能准确地呈现这些信息,并以更流畅和对话的语调来进行反馈,这将代表着传统搜索的巨大进步。