深度对话GPT-4提示工程实战

978-7-115-64317-9
作者: 仇华
译者:
编辑: 胡俊英

图书目录:

详情

人工智能技术的发展日新月异,提示工程不仅极大地提高了人工智能在各个领域的应用效率和准确性,还为人类打开了一扇通往智能化世界的大门。大语言模型如同一位博学多才的智者,拥有处理和理解自然语言的超凡能力。提示工程可以看作与这位智者沟通的桥梁和工具,其关键在于如何提出精准而富有启发性的问题,激发大语言模型的创造力和解决问题的能力。 本书作者通过与GPT-4的深度对话,精心梳理了一系列重要的提示工程实践秘诀。全书共7章,从了解大语言模型的进化之路开始,循序渐进地介绍了提示词及提示工程的知识和实践技巧,并结合GPT-4在各领域的应用案例展现了大语言模型的强大魅力。此外,本书还基于Azure OpenAI Studio平台讲解了具体的应用开发实践。 本书适合对大语言模型及提示工程感兴趣的读者阅读,书中丰富的案例能帮助读者全面了解和掌握提示工程及其应用。

图书摘要

版权信息

书名:深度对话GPT-4:提示工程实战

ISBN:978-7-115-64317-9

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


版  权

著    仇 华

责任编辑 胡俊英

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

人工智能技术的发展日新月异,提示工程不仅极大地提高了人工智能在各个领域的应用效率和准确性,还为人类打开了一扇通往智能化世界的大门。大语言模型如同一位博学多才的智者,拥有处理和理解自然语言的超凡能力。提示工程可以看作与这位智者沟通的桥梁和工具,其关键在于如何提出精准而富有启发性的问题,激发大语言模型的创造力和解决问题的能力。

本书作者通过与GPT-4的深度对话,精心梳理了一系列重要的提示工程实践秘诀。全书共7章,从了解大语言模型的进化之路开始,循序渐进地介绍了提示词及提示工程的知识和实践技巧,并结合GPT-4在各领域的应用案例展现了大语言模型的强大魅力。此外,本书还基于Azure OpenAI Studio平台讲解了具体的应用开发实践。

本书适合对大语言模型及提示工程感兴趣的读者阅读,书中丰富的案例能帮助读者全面了解和掌握提示工程及其应用。

推 荐 序

在现代社会中,人工智能不仅是一种先进的技术,而且正在渗透我们生活和工作的每一个角落。其中,与对话技术关联紧密的“提示工程”(Prompt Engineering)在很短的时间内得到了广泛的应用和关注。无论是客户咨询、艺术创作、会议记录、撰写文章还是数据分析,我们都能觉察到它的踪迹,见证它带来的巨大价值。

ChatGPT作为其中的代表性工具,是这一进程中的重要参与者。但是,它的有效性并不仅取决于技术本身,更取决于用户驾驭它的方法和能力,这也正是提示工程重要的原因。提示工程不仅是一种技术,它更是一种帮助人们与大语言模型高效对话的手段。这也是提示工程师如今在业界有着举足轻重的地位的原因。

随着ChatGPT、GPT-4等生成式人工智能的普及,编写优质的提示词已经成为一项不可或缺的技能。尽管外界可能认为它只是一项简单的语法任务,但实际操作则要复杂得多。当新模型的新鲜感消退后,要想真正掌握写提示词的技巧,需要个人的持续实践和深入思考。

提示工程并不仅仅是提问那么简单,它是一门艺术,需要精心设计有针对性的问题或陈述,以确保从ChatGPT等大语言模型中提取到的信息是最有价值、最准确和最全面的。这是一个非常微妙的过程。尽管ChatGPT被设计得足以理解和响应各种各样的查询,但只有当我们知道如何以最适当的方式提出问题时,答案的质量才会得到显著的提高。

仇华先生在书中不仅提供了提示工程的实操经验,而且帮助我们理解了如何在提示词中提供对答案影响最大的信息。从提示词定义到提示背后的设计原则,从明确任务到提供充足的上下文信息,以及人物角色、正面提示和负面提示、零样本提示等,这些都是初学者必须掌握的基础。

此外,你会接触到更多高级技术,包括全局消息、明确指导性技巧、思维链提示等,这些都为精准引导模型输出提供了有效策略。本书探索了“神奇提示词”这一有趣的领域,介绍了一些能产生特定效果的提示词。要想全面掌握提示工程,还需理解如何结构化输出、确保输出的一致性,以及如何通过提示激发模型的创造性。

本书分享了如何迭代并利用提示词来有效地驾驭ChatGPT、GPT-4等大语言模型,展示了与这些模型合作完成任务的真实案例。本书不仅提供了深入而全面的理论知识,还为实践者提供了宝贵的经验,是每位对人工智能有浓厚兴趣的读者的必读之作。提示工程是既有理论深度又具备实践意义的技术领域,值得每一个对人工智能感兴趣的读者深入学习和探索。

我深深地相信,未来属于那些敢于创新、勇于尝试、不断学习的人。仇华先生的这部作品就是这样一部指引我们走向未来的经典,我对这本书抱有深厚的期待和信赖。

我相信,对技术工作者以及对 AI 技术感兴趣的所有人来说,本书都将成为一部宝贵的指南。你不仅会学到提示工程的技术细节,更重要的是,你将学会如何与未来的技术对话,如何让技术更好地为你服务。

祝你阅读愉快!

——潘淳

微软技术俱乐部(苏州)执行主席

2024年1月

自  序

通过无数次和 GPT-4 的深度对话,我最大的感受就是“幸运”,非常荣幸能生活在这样的时代,体验这样艺术般的智能,非常荣幸能有机会自由地和“拥有全人类智慧的智者”交谈,随时,随地。AI那几乎无限的知识深度和广度,不断迸发的令人惊艳的灵感和创意,宏大的世界观和完美无缺的构词,一次又一次地打动了我。并且,人人都可以快速实时地接入,体验这样一个个伟大的时刻。如果要用一个词表达我对 GPT-4 的所有感受,我愿意称之为Infinite Interface(一切的接口)。

对我个人来说,这是一本我与 GPT-4 合著的书,在写书的过程中,AI不仅是我的文字整理和数据整理工具,也是我的代码实践和逻辑优化助手,更是与我共同产生创作灵感的伙伴,书中的每个提纲设计和每一节内容(包括这篇序)都是在AI的协助下完成的。无数个与AI争辩、讨论和达成共识的时刻令我感到,AI是与我思想相通、并肩作战的伙伴。我有时甚至会感到我是为 AI 执笔,主要是 AI 在创作,它通过我的键盘持续输出了它的思想和观点。

作为一本严谨的提示工程技术指南,本书首次系统性解构与实践了提示工程技术(Prompt Engineering Technology,PET)。对于书中的每一个技巧和概念,我都做了充分的设计和试验,力求完整、不遗漏。但GPT-4是非常年轻的模型,未来肯定有很多的变化和改进,因此我希望在书中更多地体现提示词的内在设计思想,而减少一些与具体场景应用或特定模型关联的细节。我个人认为,这是一本有关提示工程技术的基础教程,也是理解 AI 思考方式的入门手册。虽然目前有很多大模型技术,如垂直领域模型微调、插件技术等,但我相信,随着未来 GPT-5及通用大模型技术的发展、上下文对话 Token 的上限突破和成本降低,借助提示工程的精巧设计就能使AI成为终端的生产力工具。

深度对话AI是我的一次尝试,书中有大量与 AI 的对话,每个对话的提示词都是精心设计的,AI也非常给力,每次的回答都创意满满、妙趣横生,希望读者能细细地感受(品味)AI的思考方式和世界观,进而对未来AI技术的发展具备一定的预见和把握。很多人会说,GPT-4只不过是一个文本续写(填词)工具,或者只是统计学的概率生成工具而已。的确,从原理上和实际运作逻辑上说,情况确实是这样的。但真正与GPT-4深度对话后,我深切地感受到,我面对的不只是一个简单的工具或计算机代码,更是一个超级庞大的思想体,但不能简单地称其为(或将其等同于)人工智能的“意识觉醒”或者“思想觉醒”,我觉得这样的描述不够恰当,最恰当的定义应该是“对问题真正理解→以类人语言形式输出”。首先,GPT-4深入理解了每一次对话中提示词背后的逻辑和思想,这是毋庸置疑的。它凭借的并非“关键词搜索”或“知识库匹配”之类的算法技巧,而是在真正理解提示词的基础上,结合浩瀚的全人类知识库,输出了合理、精准的类似人类行为的回答(响应)。

因此,我还是想表达:“这一次,AI真的不一样。”我真切地希望具备GPT-4这样能力的大语言模型能更快、更便利地得到普及,能有更多的人和 AI 交流,让大语言模型融入我们的生活、工作、科研、生产和创作,集全人类思想与 AI 协同,加速科技的发展,使科技发展进入一个全新的周期。当然,这会是一次巨大的变革。我相信很多年后回首时,人们会发现这也是一个历史的转折点,未来无限的可能性从这一刻开启,就像斯蒂芬·茨威格在《人类群星闪耀时》一书中描写的一个个传奇的历史关键时刻。

最后,感谢微软全球最有价值专家项目的大中华区负责人梁迪。当我成为微软全球最有价值专家(MVP)后,同时拥有 Azure 的权益和GPT-4的超前体验资格,我才能完成这本书的创作。感谢潘淳老师的全程大力支持,感谢人民邮电出版社的胡俊英编辑对本书的支持,感谢在本书创作过程中所有帮助过我的各个开源社区的朋友。感谢GPT-4。

谨以此书献给我的太太和两个女儿,并以此记录AI大模型时代的到来。

——仇华(Henry)

2023年秋于苏州

资源与支持

资源获取

本书提供如下资源:

辅助学习资源;

配套彩图文件;

本书思维导图;

异步社区7天VIP会员。

要获得以上资源,您可以扫描下方二维码,根据指引领取。

提交错误信息

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,点击“发表勘误”,输入错误信息,点击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。

如果您所在的学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。

“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域的发展与积淀。异步图书面向IT行业以及各行业使用IT的用户。

第1章 人工智能的大语言模型进化之路

1.1 从AI的崛起到AIGC的繁荣

1.1.1 人工智能技术的发展

人工智能(Artificial Intelligence,AI)是指由人类制造出来的具有某种程度智能的系统或程序。AI 的发展历程可以被划分为4个阶段。早期的 AI 研究以符号主义和连接主义为主,侧重逻辑推理和模拟大脑神经元。20世纪中叶,一些重要的突破,如图灵测试和达特茅斯会议,奠定了 AI 的基础。然后,AI 的发展进入第一个繁荣期,专家系统成为主流,人们开始认识到 AI需要具备学习和自我适应的能力。20世纪90 年代,AI领域转向数据驱动的机器学习方法,计算机能够根据数据进行学习和推断。进入21世纪,深度学习的崛起引发了AI领域的革命,使AI在处理大规模数据集、图像识别等领域取得了显著的成果,AlphaGo的胜利就是一个典型的例子。

在人类文明进程中,AI如同一股潮流,以其无与伦比的力量改变着世界的面貌。AI 涉及的领域繁多,包括机器学习、深度学习、计算机视觉、自然语言处理以及智能机器人等,这些子领域在技术上互相交叠,共同构建了 AI的丰富内涵。

机器学习作为 AI 的核心,赋予了计算机从数据中学习和推理的能力。AI 算法种类繁多,如监督学习、无监督学习、半监督学习和强化学习等,在各自的领域中有着广泛的应用和深远的影响。作为机器学习的一个分支,深度学习通过模拟人脑的结构和功能,实现了在图像识别、语音识别、自然语言处理等多个领域的突破。

计算机视觉和自然语言处理是 AI 的重要子领域,使计算机具备了处理和理解图像、视频等视觉信息以及理解和生成自然语言的能力。作为 AI 领域的另外一个综合性子领域,智能机器人涉及计算机视觉、自然语言处理、强化学习等多种技术,其主要任务包括环境感知、任务理解、行动规划、控制执行等。

AI技术的应用已经渗透各个行业,如医疗、金融、教育、制造、交通等。在医疗领域,AI 在疾病诊断、治疗方案制订、药物研发、临床试验等方面均发挥着巨大作用。在金融领域,AI 的智能投顾、风险评估和反欺诈等功能正在改变金融市场的运作方式。在教育领域,AI 的个性化教学和辅导提升了教育质量。在制造业领域,AI在工业自动化、质量检测、设备维护等方面的应用,不仅大大提高了生产效率,又显著降低了成本。在交通领域,基于 AI 的自动驾驶和智能交通管理正在改变我们的出行方式。

然而,AI技术的发展也带来了诸多挑战,如数据安全与隐私、道德伦理、就业结构变化等问题。在推动技术创新的同时,需要关注 AI 技术与社会、经济、文化等方面的互动,以确保AI 技术的可持续发展和广泛应用。总的来说,AI 技术的发展已经成为全球竞争的焦点,越来越多的国家和企业纷纷投入巨资进行研究和开发,推动着人类社会的进步和发展。

接下来的章节将深入探讨 AI 领域的一个关键子领域——自然语言处理,并详细介绍自然语言处理的定义、目标、核心技术以及应用示例。此外,还将探讨 AI 与自然语言处理相结合的领域:人工智能生成内容(Artificial Intelligence Generated Content,AIGC)。本书接下来不仅将介绍它的定义、意义、技术原理和方法,而且还将对其前景与挑战进行展望与探讨。关于AI、NLP和AIGC之间的大致关系,可以参考图1-1(其中,部分名词是领域,部分名词是模型名,部分名词是技术点,它们之间并非直接对等的包含关系,图中仅表示大概的范围概念)。

图1-1 各类技术的发展及相互关联

1.1.2 自然语言处理的关键角色

自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个关键子领域,旨在使计算机具备理解和生成自然语言(如英语、汉语等)的能力。NLP的目标是让计算机能够与人类进行自然、流畅、准确的语言交流,实现信息的高效获取和传递。NLP的方法包括基于规则的方法、基于统计的方法和基于深度学习的方法。深度学习技术在NLP领域取得了重要进展,如循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)和Transformer等模型在机器翻译、文本摘要等任务上的成功应用。

NLP是一种跨学科技术,其核心包括词法分析、句法分析、语义分析、篇章分析以及情感分析等多个方面。正是基于这些技术,NLP才得以在机器翻译、文本分类、文本摘要、问答系统、语音识别、对话系统等多个领域发挥其应用价值。

词向量表示是NLP的基石,这项技术试图将自然语言中的词映射到一个连续的向量空间,以便计算机理解和处理。通过 Word2vec、GloVe、ELMo 等深度学习模型,词向量表示在搜索引擎、文本分类等领域发挥了重要作用。

词法分析涵盖了分词、词性标注和命名实体识别等任务,为后续的句法分析和语义分析提供了基本的语言信息。句法分析则深入探索句子的结构,通过句法成分分析和依存关系分析来帮助理解句子的结构和功能。

语义分析则研究句子的深层含义,通过词义消歧、语义角色标注和篇章关系分析,能够理解文本的深层含义。情感分析则是从文本中识别和提取情感、观点和态度,广泛应用于舆情监控、产品评论分析、金融市场预测等领域。

机器翻译是NLP的一个核心任务,试图将一种自然语言翻译成另一种自然语言。通过深度学习技术,机器翻译在跨语言搜索、多语言对话等领域发挥了重要作用。

文本分类和文本摘要也是NLP的两个重要应用,前者根据文本的内容将其分配到一个或多个预定义类别,后者则从原始文本中提取关键信息,生成包含主要内容的简短版本。

问答系统是一种能够根据用户的问题自动提供答案的计算机程序,广泛应用于客户服务、智能助手等场景。语音识别则是将语音信号转换为文本的过程,广泛应用于智能助手、语音输入法、自动字幕生成等应用。

对话系统是与用户进行自然语言交互的计算机程序,包括任务导向的对话系统和闲聊型对话系统。无论是帮助用户完成特定任务,还是与用户进行各类主题的交流,对话系统在客户服务、智能助手等场景中都具有广泛的应用前景。

1.1.3 AIGC的挑战与机遇

AIGC是指利用AI技术自动创建、编辑和发布各种类型的内容,如文本、图像、视频等。AIGC 在新闻报道、创意写作、广告设计、影视制作等领域具有广泛的应用潜力,其发展有助于降低内容制作的成本和难度,提高信息传播的效率和质量。

AIGC 是一种新兴的技术领域,它融合了自然语言处理、计算机视觉与深度学习等多种尖端领域。在文本生成方面,循环神经网络、长短期记忆网络和Transformer等模型已在新闻生成、小说创作、诗歌创作等任务中展现出卓越的能力。在图像生成领域,生成对抗网络(Generative Adversarial Networks,GAN)和变分自编码器(Variational Auto-Encoders,VAE)等模型成功实现了高质量的图像生成和编辑。此外,基于3D模型的动画生成、视频插值和视频风格迁移等技术在视频生成领域也创造了新的可能性。

AIGC 技术在各领域都已得到实践应用。例如,新闻机构利用它快速准确地发布新闻,提高信息的传播效率。在创意写作领域,AIGC 技术能够帮助作家和编剧生成小说、诗歌、剧本等,为他们提供灵感和素材,帮助他们突破创作瓶颈。广告公司用它来生成广告文案、海报、视频等,从而提升创意的质量,提高工作效率,降低制作成本。此外,影视制作公司也在利用AIGC技术自动生成剧本、特效、音乐等,从而提升创作效率,降低内容产出成本。

然而,AIGC 技术的发展也带来了新的机遇和挑战。虽然它有助于降低内容制作成本,提高信息的传播效率和质量,丰富人们的内容选择,但也带来了内容质量、原创性、道德伦理等问题。如何在提升生成速度和效率的同时保证内容质量,如何在自动生成大量内容的情况下保护原创作者的权益,以及如何防范 AI 生成的虚假信息与恶意内容等,都是需要关注和解决的问题。

总之,作为一个新兴领域,AIGC 技术既带来了巨大的机遇,也带来了诸多挑战。在推动其创新和发展的同时,需要关注这些挑战,加强跨学科的研究和合作,以确保 AIGC 技术的可持续发展和广泛应用。同时,需要引导公众正确理解和使用 AIGC 技术,提高全社会的信息素养和创新能力。

1.2 大语言模型技术历程

1.2.1 大语言模型技术路线

大语言模型(Large Language Model,LLM)技术是近年来人工智能领域的一项重要进展。它通过在海量的文本数据上训练深度神经网络,使模型能够习得丰富的语言知识,并能够根据不同的任务和输入生成合理的文本输出。LLM技术的出现,为NLP领域带来了革命性的变化,也为人机交互、内容创作、知识获取等多个场景提供了强大的支持。LLM技术的发展历程如图1-2所示。接下来,我们一起回顾LLM技术的发展历程,分析其中的关键技术进步,探讨未来的挑战与机遇。

图1-2 LLM技术的发展历程

神经网络语言模型

LLM技术的起源可以追溯到2013年,当时谷歌提出了一种基于RNN的语言模型,称为神经网络语言模型(Neural Network Language Model,NNLM)。这种模型能够利用上下文信息预测下一个词出现的概率,相比于传统的基于统计的语言模型,神经网络语言模型具有更好的泛化能力和更低的计算复杂度。然而,由于RNN存在梯度消失和梯度爆炸等问题,限制了模型的深度和规模。

长短期记忆网络语言模型

2014年,谷歌又提出了一种基于长短期记忆网络(LSTM)的语言模型,称为长短期记忆网络语言模型(LSTM-LM)。这种模型通过门控机制解决了 RNN 的梯度问题,并能够捕捉更长时序的依赖关系。LSTM-LM 在多个语言建模任务上取得了显著的性能提升,为后续的序列到序列模型(Seq2Seq)奠定了基础。

Transformer模型

2017年,谷歌再次推出一种基于注意力机制(Attention)和自编码器(AutoEncoder)的语言模型。这种模型摒弃了RNN和LSTM的循环结构,通过注意力机制直接建立输入序列中任意两个位置之间的联系。Transformer在并行计算和长距离依赖方面具有明显的优势,并在机器翻译等任务上刷新了纪录。具体来说,Transformer在WMT 2014数据集的英语-德语翻译任务中将BLEU分数提高了2.8分。

BERT:预训练-微调框架

2018年,谷歌基于Transformer模型又提出了一种预训练-微调框架(Pre-training-Fine-tuning),称为BERT(Bidirectional Encoder Representations from Transformers)。这种框架通过在大规模无标注文本上进行掩码语言建模(Masked Language Modeling)和下一句预测(Next Sentence Prediction)两种任务的预训练,得到一个通用的语言表示模型,然后根据不同的下游任务进行微调,实现端到端的迁移学习。BERT在11个自然语言理解(Natural Language Understanding,NLU)任务上取得了突破性成果,例如在SQuAD v1.1问答任务上,BERT将精确度提升至93.2%,超过了人类的表现。这种成功促进了一系列基于Transformer模型和预训练-微调框架的LLM技术的研究。

GPT:生成式预训练变换器

2019年,OpenAI提出了一种基于Transformer模型和预训练-微调框架的生成式预训练模型,称为GPT(Generative Pre-trained Transformer)。GPT 通过在大规模无标注文本上进行单向语言建模(Unidirectional Language Modeling)任务的预训练,可以生成具有连贯性和逻辑性的文本。随后,OpenAI进一步推出了GPT-2和GPT-3,大幅提高了模型的规模和性能。具体来说,GPT-3拥有1750 亿个参数,是GPT-2规模的116倍,同时在多个任务上的性能也得到了显著提升。这引发了业界对大规模预训练语言模型的广泛关注和讨论。

在语言模型技术的发展历程中,一些重要的技术突破为大语言模型技术的进步铺就了道路。首先,长短期记忆网络的出现,解决了循环神经网络中的梯度消失和梯度爆炸问题,使模型能够捕捉更长期的时序依赖关系,为后续的序列到序列模型奠定了基础。其次,自注意力机制的引入,使得模型能够更为灵活地处理输入到序列中的长距离依赖关系,从而显著提高了模型在机器翻译等任务上的性能。最后,预训练-微调框架的运用,将大规模无监督预训练和有监督微调相结合,实现了从通用语言知识到特定任务的迁移学习,使模型可以更好地适应各种自然语言处理任务。

大语言模型技术的规模从最初的神经网络语言模型的几百万个参数到GPT-3的1750亿个参数,经历了翻天覆地的变化。这种规模的增长使模型具有更强大的表现力,可以掌握更丰富的语言知识。同时,随着训练数据量的不断增加,模型对海量文本中的语言规律和知识的学习也变得更加深入。然而,随着模型规模的增大,计算资源和能源消耗也在不断增加,这给模型的普及和应用带来了挑战。

展望未来,大语言模型技术面临着许多挑战和机遇。例如,如何在保持模型性能的同时,降低模型规模和计算复杂度就是一个重要的课题。首先,可以通过模型压缩、知识蒸馏等技术,降低模型的计算需求,使其更适合部署在资源受限的设备上。其次,在模型的可解释性和安全性方面,需要进一步研究如何让模型的预测过程更加透明,避免出现意料之外的输出,提高用户对模型的信任。此外,随着模型规模的不断扩大,如何有效利用模型的生成能力,推动更多领域的应用创新,也是值得探索的方向。

1.2.2 浅谈智能涌现

涌现能力(Emergent Ability)是指一个系统在达到一定的复杂度和规模时出现的未预料到的新行为或新能力,表现为逻辑认知、世界观、思维链形成和多模态综合能力等。在大语言模型领域,涌现能力指的是,当模型规模达到某个阈值(大模型奇点)之前,增加参数数量带来的性能提升相对较小,效果基本上等同于随机,而在超过该阈值后,增加参数数量则会带来显著的改善。然而一旦突破大模型奇点之后,增加参数数量或者预训练语料带来的性能提升是有限的,更多需要的是高质量和多样化的指令数据来激发它的泛化性。在没有专门训练过的情况下,大语言模型也可以泛化到新的、未知的多模态数据样本上,这样就可以从原始数据中发现未知的新型特征和模式。图1-3展示了论文“Emergent Abilities of Large Language Models”中5个语言模型的8种涌现能力,从中可以非常直观地感受到涌现现象。

图1-3 测试5个语言模型的8种涌现能力[1]

[1] 图中的横轴对应的单位是每秒浮点运算次数(Floating Point Operations Per Second,FLOPS)。

图1-3子图(A)~(D)来自基准BIG-Bench中的4个涌现少样本提示(Few-shot prompting)任务,该基准包含了200多个评估语言模型的基准套件。图1-3子图(A)是一个算术基准测试,用于测试3位加减法和2位乘法。当训练量较小时,GPT-3和LaMDA的准确率接近0,而在训练量达到2×1022 FLOPS后,GPT-3的效果突然超越随机,而LaMDA的阈值则为1023 FLOPS。对其他任务来说,类似的涌现能力也出现在训练量达到类似规模时,这些任务包括国际音标翻译、单词恢复,以及波斯语问答。图1-3子图(E)展示了诚实度问答基准上的少样本提示的涌现能力,该基准用来衡量诚实回答问题的能力。因为该基准是通过对抗的方式针对GPT-3构建的,所以即使将GPT-3放大到最大的规模,其效果也不会高于随机。小规模Gopher模型的效果也接近随机,但是当模型规模放大至5×1023 FLOPS,其效果会突然高于随机约20%。图1-3子图(F)展示了概念映射任务,在该任务中,语言模型必须学会映射一个概念领域,例如理解文本中关于方向的表示。同样,使用大的GPT-3模型,效果才能高于随机。图1-3子图(G)展示了多学科测试,覆盖主题包含数学、历史、法律等。对于模型GPT-3、Gopher和Chinchilla而言,当训练计算量小于1022 FLOPS时,在所有的主题上的效果都趋于随机,但是当训练计算量达到3×1023~5×1023 FLOPS后,效果将远远高于随机。最后,图 1-3 子图(H)展示了语义理解基准,显然,GPT-3 和 Chinchilla 即使放大至最大的规模5×1023 FLOPS,也不能通过单样本(one shot)实现比随机更好的效果。到目前为止的结果表明,单纯地放大模型并不能解决基准,但是当PaLM被放大至2.5×1024 FLOPS(540B)时,优于随机的效果就出现了。

接下来,我们简单地从技术角度和数据角度对涌现能力进行分析。涌现能力是 AI 模型处理复杂任务的重要指标,它揭示了模型在解决需要大量主题集合和基于知识的问题上的潜力。这种能力的出现与模型的技术架构和数据质量密切相关。深度学习作为一种强大的表示学习方法,其优势在于能够提取数据中的层次结构特征。多层神经网络可以学习从基础到高级的抽象表示,展现涌现能力。例如,在自然语言处理任务中,神经网络可以从字符、句法和语义级别学习有效的特征表示。模型的规模(或者说参数数量)是影响涌现能力的关键因素。只有当模型规模达到阈值时,模型才能展现对复杂任务的处理能力。然而,参数数量的增加也可能导致过拟合和计算成本提高,因此需要平衡模型的规模和性能。此外,训练方法和优化算法的改进也能提高模型的泛化能力和学习效率,进而促进涌现能力的出现。数据量和质量同样是决定涌现能力的关键因素。大量的高质量数据可以提供丰富的样本和多样性,使模型能够学到更多的知识和规律。然而,数据量的增加也会增加模型的训练成本和存储需求。因此,除了追求数据量的增加,也需要关注数据质量和多样性,以提高模型的泛化能力和涌现能力。

总而言之,涌现能力的表现是模型架构、参数规模、训练方法、数据量和质量等多个因素共同作用的结果。在实际应用中,需要综合考虑这些因素,以提高模型的涌现能力,从而更好地解决复杂任务。

1.3 ChatGPT和GPT-4的成长故事

学习一个世界模型,从表面上看,神经网络只是在学习文本中的统计相关性,但实际上,这些就足以把知识压缩得非常好。神经网络所学习的是它在生成文本的过程中的一些表述。文本实际上是这个世界的一个映射,因此神经网络学习的是有关这个世界多方面的知识。

—— Ilya Sutskever

1.3.1 GPT系列的逆袭之路

自然语言处理领域近年来取得了显著进展,其中最具代表性的就是各种大语言模型技术的突破。虽然早期GPT并未受到广泛关注,但随着模型的不断优化和扩展,GPT已在自然语言处理领域崭露头角。接下来,我们来看一看GPT系列的逆袭之路,包括它与其他大语言模型的差异、早期的不足及后期优化的过程。

GPT与其他大语言模型的差异

在深度探讨GPT与其他大语言模型的区别之前,首先要对各类模型的基本特性和优劣进行全面理解。这将有助于更深入地理解GPT与BERT、LSTM等模型的差异。

相较于GPT,BERT模型采用了一种双向Transformer架构,并且在训练过程中运用了掩码语言建模和下一句预测的方法,因此能够更全面地捕捉双向上下文信息,然而这也导致它在生成任务上的表现力相对较弱。反观GPT,它采用了单向Transformer架构,专注于生成任务,但在捕捉双向上下文信息方面的能力相对较弱。BERT的双向Transformer架构,使模型在处理文本时能够同时考虑上下文信息,因此在理解文本语义和句法结构方面具有极大的优势,但由于BERT模型在训练过程中采用掩码语言建模方式,它生成任务的能力受到了限制。

与之相反,GPT 的单向 Transformer 架构,使模型在处理文本时只需考虑上文信息。这种设计简化了模型的训练过程,从而让GPT在生成任务上极具优势,但也限制了它在捕捉双向上下文信息方面的能力。

在GPT和BERT出现之前,长短期记忆网络是处理序列任务的主流方法。然而,随着GPT和BERT等Transformer模型的出现,长短期记忆网络在许多任务上的优势逐渐被削弱。相比之下,GPT和BERT等Transformer模型在并行计算、长距离依赖等方面具有更大的优势。长短期记忆网络作为一种经典的循环神经网络结构,能够有效地处理序列数据,通过引入门控机制解决了传统循环神经网络中的长程依赖问题。然而,长短期记忆网络在处理长序列时仍受到计算复杂度和并行性的限制。

GPT早期的不足

GPT-1

2018年6月11日,OpenAI发布了一篇题为“Improving Language Understanding by Generative Pre-Training”的研究论文,详细阐述了“基于 Transformer 的生成式预训练模型”(Generative Pre-trained Transformer,GPT)的概念。由于后续又陆续推出了更多模型,所以为了区分,这里称之为GPT-1。当时,最先进的自然语言生成模型主要依赖于大量手动标注数据进行监督学习。这种依赖于人类监督学习的方法限制了模型在未经精细标注的数据集上的应用。同时,许多语言(如斯瓦希里语或海地克里奥尔语)由于缺乏足够的语料库,导致实际应用(如翻译和解释)的难度较大。此外,训练超大型模型所需的时间和成本也相当高。相比之下,GPT-1 提出了一种被称为“半监督”(semi-supervised)的方法,后来该方法被普遍称为“自监督”:首先在无标签数据上训练一个预训练模型,然后在少量标注数据上训练一个用于识别的微调模型。GPT-1 的训练数据源于BookCorpus,这是一个包含7000本未出版图书的语料库,总大小为4.5 GB。这些书由于尚未发布,因此很难在下游数据集中找到,这有助于验证模型的泛化能力。这些书覆盖了各种不同的文学流派和主题,模型参数数量达到 1.2 亿个。自此,研究人员开始相信大模型的力量,大模型时代就此开启。作为GPT系列的起点,GPT-1采用了单向Transformer架构并进行无监督预训练。尽管在当时,GPT-1在某些自然语言处理任务上取得了不错的成绩,但它的规模和性能相对有限,且在捕捉双向上下文信息方面较为薄弱。

GPT-1的不足之处主要体现在以下四个方面。

规模限制:GPT-1 的规模较小,参数数量约为 1.17 亿个。这种规模限制使得GPT-1在面对复杂任务时性能受限,也影响了模型的泛化能力。

双向上下文信息捕捉能力不足:由于GPT-1采用单向Transformer架构,因此它在处理文本时只能考虑给定词之前的上下文信息,这在某种程度上限制了它在理解文本语义和句法结构方面的能力。

训练数据规模问题:GPT-1的训练数据规模相对较小,导致它在面对复杂任务时性能欠佳。此外,训练数据规模的不足也影响了模型在泛化能力方面的表现。

训练数据多样性问题:GPT-1的训练数据多样性不足,导致模型在处理特定领域和多语言任务时表现不佳。例如,GPT-1在处理特定领域文本和多语言任务时可能无法准确捕捉到相关知识。

GPT-1和BERT模型的对比如表1-1所示。

表1-1 GPT-1和BERT模型的对比

对比项目

GPT-1

BERT

模型

单向Transformer Decoder,去掉MHA

双向Transformer Encoder

参数数量

1.17亿个

BASE 1.10亿个;LARGE 3.40亿个

语料

BooksCropus 8亿单词

BooksCropus 8亿单词 + 维基(English)25亿单词

预训练词汇表

Fine-tuning引入

Pre-training引入

预训练任务

LTR预测下一个单词

掩码语言建模和NSP

GPT的优化之路

1.GPT-2

2019年2月,OpenAI在GPT-1的基础上又发布了GPT-2,并发表了论文“Language Models are Unsupervised Multitask Learners”。GPT-2在许多方面都得到了优化和扩展,OpenAI去掉了GPT-1阶段的有监督微调(Fine-tuning),聚焦无监督、零样本学习(Zero-shot Learning)。模型参数的数量从1.17亿个增加到了15亿个,训练数据规模也得到了大幅扩充。这使得GPT-2在自然语言生成任务上表现出色,甚至引发了一些关于AI生成内容的伦理讨论。

与GPT-1相比,GPT-2的优势体现在于以下两方面。

参数扩展:GPT-2的参数数量达到了15亿个,这使模型在处理复杂任务时性能更强。同时,参数数量的增加也提高了模型的泛化能力。

训练数据扩展:GPT-2的数据集为WebText,WebText是一个包含800万个文档的语料库,总大小为40GB。这些文本是从Reddit上投票最高的4500万个网页中收集的,包括各类主题和来源,例如新闻、论坛、博客、维基百科和社交媒体等,其中也包括更多特定领域的文本和多语言内容。这使GPT-2在处理特定领域和多语言任务上表现更加出色。

2.GPT-3

2020年5月,OpenAI发表了关于GPT-3的论文“Language Models are Few-Shot Learners”。GPT-3的模型规模进一步扩大,拥有1750亿个参数,训练数据覆盖了整个互联网的大部分文本信息。改进的算法、强大的算力和更多的数据,推动了 AI 革命,让GPT-3成为当时最先进的语言模型。GPT-3在许多NLP数据集上都有很强的性能,包括翻译、问题解答和完形填空等任务,以及一些需要动态推理或领域适应的任务(如解译单词,以及在句子中使用一个新单词或执行算术运算)。它在多个NLP任务上表现出的惊人性能甚至可以和人类专家相媲美。

GPT-3的优势体现在以下两方面。

规模优势:GPT-3的规模达到了前所未有的水平,拥有1750亿个参数。这种规模优势使GPT-3在处理各种复杂任务时具有更强的性能,同时提高了模型的泛化能力。

训练数据优势:GPT-3的数据集为570 GB的大规模文本语料库,其中包含约4000亿个标记。这些数据主要来自CommonCrawl、WebText、英文维基百科和两个书籍语料库(Books1和Books2)。训练数据包括了整个互联网的大部分文本信息,这使得模型在学习丰富的语言知识方面具有更大的优势。此外,训练数据的扩充也使得GPT-3在处理特定领域和多语言任务上的表现更加优异。

从GPT-1到GPT-3的模型对比如表1-2所示。

表1-2 GPT-1、GPT-2和GPT-3模型对比

对比项目

GPT-1

GPT-2

GPT-3

发布时间

2018年6月

2019年2月

2020年5月

参数数量

1.17亿个

15.4亿个

1750亿个

预训练数据量

5GB

40GB

45TB

训练方式

预训练 + 有监督微调

预训练

预训练

序列长度

512

1024

2048

解码器层数

12

48

96

隐藏层数量

768

1600

12288

GPT的优越性在于其深度和广度。Open AI的开发团队对数据质量进行了精细打磨,例如剔除了重复和低质量文本,使GPT能够扎根于高质量语言知识的沃土。同时,他们也通过加入更多领域的特定文本以及多语言和多文化内容,扩大了GPT的视野和理解能力,使它在特定场景和多语言任务中表现出色。

GPT在生成任务上的优越性源于其独特的单向Transformer架构,使它在自然语言生成任务上领先于BERT等双向Transformer模型。此外,GPT采用基于自回归语言模型的无监督预训练策略,能够通过大量无标注数据进行自我学习和提升,从而在多个自然语言处理任务上取得显著成功。

然而,GPT强大的生成能力也带来了潜在的问题,比如可能会生成不真实或有害的内容,如虚假新闻、诈骗信息等。因此,需要采取相应的技术措施和制订政策法规来确保GPT的安全使用。另外,GPT在训练过程中可能会受到训练数据中存在的偏见的影响,因此我们需要在训练过程中关注偏见问题,并采用相应的策略来减轻偏见对模型的影响。

对于未来而言,GPT的发展趋势和挑战在于提高模型性能、降低计算资源消耗和提高模型可解释性。为了使GPT在更多任务上有优异的表现,需要不断优化模型架构和训练策略,提高模型的性能。为了降低计算资源消耗,可以研究如何提高模型的计算效率,或者采用知识蒸馏等技术来压缩模型的规模。另外,为了增强GPT在实际应用中的可靠性,需要研究如何提高模型的可解释性。

总而言之,GPT 在不断地自我挑战和优化,它在自然语言处理领域的潜力和成果无疑是显著的。然而,我们也需要关注GPT面临的伦理与安全问题,确保它能够安全可靠地为人类服务。作为一个开源项目,GPT的发展也为开源社区带来了新的机遇和挑战,推动着整个人工智能行业的进步。

1.3.2 ChatGPT产品化之旅

终于,OpenAI的明星产品ChatGPT诞生了。2022年11 月,OpenAI推出了人工智能聊天机器人程序ChatGPT,在此前的GPT基础上增加了Chat属性。开放公众测试后,仅上线两个月,ChatGPT的活跃用户数就超过一亿,而达到这个用户数量,电话用了75年,手机用了16年,互联网用了7年。在继续介绍之前,先用图1-4中的ChatGPT的产品化历程来概括一下ChatGPT的诞生过程。

图1-4 ChatGPT的产品化历程

2022年2月,OpenAI进一步强化了GPT-3,推出了InstructGPT模型,采用来自人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF),并采用高效的近端策略优化(Proximal Policy Optimization,PPO)算法作为强化学习的优化技术,训练出奖励模型(reward model)去训练学习模型,赋予GPT理解人类指令的能力。

2022年3月15日,OpenAI发布了名为text-davinci-003的全新版本GPT-3,据称比之前的版本更加强大。该模型基于截至2021年6月的数据进行训练,因此比之前版本的模型(训练时使用的是截至2019年10月的数据)更具有时效性。8个月后,OpenAI开始将该模型纳入GPT-3.5系列。有五款不同的模型属于GPT-3.5系列,其中4款分别是text-davinci-002、text-davinci-003、gpt-3.5-turbo和gpt-3.5-turbo-0301,它们是针对文本任务而优化的;另外一款是code-davinci-002,即Codex的base model,它是针对代码任务而优化的。

与GPT-3相比,GPT-3.5增加了以下功能。

代码训练:让GPT-3.5模型具备更好的代码生成与代码理解能力,同时让它间接拥有了进行复杂推理的能力。

指示微调:让GPT-3.5模型具备更好的泛化能力,同时使模型的生成结果更加符合人类的预期。

最新版本的GPT-3.5模型gpt-3.5-turbo于2023年3月1日正式发布,随即引起了人们对GPT-3.5 的极大兴趣。gpt-3.5-turbo 和 gpt-3.5-turbo-0301 的主要区别是,gpt-3.5-turbo需要在content中指明具体的角色和问题内容,而gpt-3.5-turbo-0301更加关注问题内容,而不会特别关注具体的角色部分。OpenAI基于gpt-3.5-turbo-0301(官方日志显示,此版模型将于2024年6月13日弃用,改用较新版本的gpt-3.5模型)进一步优化对话功能,ChatGPT就此诞生。

关于ChatGPT的技术原理,由于OpenAI还未公开论文(截至本书编写时),可以通过官方博客的简短描述来了解:

“我们使用RLHF来训练这个模型,使用与InstructGPT 相同的方法,但数据收集设置略有不同。我们使用有监督微调训练了一个初始模型:AI训练师提供对话,他们同时扮演用户和AI助手的角色。我们让 AI 训练师获得模型书面建议,以帮助他们撰写回复。将这个新的对话数据集与InstructGPT数据集混合,并将其转换为对话格式。为了创建强化学习的奖励模型,需要收集比较数据,其中包括两个或多个按质量排序的模型响应。为了收集这些数据,还进行了 AI 训练师与聊天机器人的对话。随机选择了一个模型撰写的消息,抽样了几个备选的答案,并让 AI 训练师对其进行排名。使用这些奖励模型,可以使用近端策略优化对模型进行微调。我们对这个过程进行了多次迭代。ChatGPT是在GPT-3.5系列中一个模型的基础上进行微调而产生的,该系列于2022年初完成了训练。ChatGPT和GPT 3.5也在Azure AI超级计算基础设施上进行了训练。”

接下来将进一步对上面这段官方描述进行解读,探讨一下有监督微调如何让ChatGPT适配符合人类对话特点的新型交互接口。

虽然 ChatGPT 的训练过程加入了数以万计的人工标注数据,但与训练GPT-3.5模型所使用的数千亿Token级别的数据量相比,这些数据包含的世界知识(事实与常识)微乎其微,几乎可以忽略。因此,ChatGPT的强大功能应主要得益于底层的GPT-3.5,GPT-3.5是理想的LLM中的关键组件。那么,ChatGPT是否为GPT-3.5模型注入了新知识呢?这是肯定的。这些新知识包含在数万条人工标注数据中,主要涉及人类偏好知识而非世界知识。首先,人类在表达任务时,倾向于使用一些习惯用语。例如,人们习惯说“把下面的句子从中文翻译成英文”以表示机器翻译的需求,然而LLM并非人类,如何理解这句话的含义并正确执行呢?ChatGPT通过人工标注数据,向GPT-3.5注入了这类知识,使LLM能够更好地理解人类命令,这是它能够高度理解人类任务的关键。其次,对于回答质量的评判,人类通常有自己的标准。例如,详细的回答常被认为是好的,而带有歧视内容的回答常被认为是不好的。人类通过奖励模型(Reward Model)向LLM反馈的数据中就包含了这类信息。总之,ChatGPT将人类偏好知识注入GPT-3.5,从而实现了一个既能理解人类语言,又有礼貌的LLM。显然,ChatGPT的最大贡献在于,基本实现了理想LLM的接口层,使LLM适应人类习惯的命令表达方式,而不是反过来要求人类适应LLM,费劲地想出一个有效的命令。(这是在指示技术出现之前,提示技术所做的事情。)这大大提高了LLM的易用性和用户体验。InstructGPT/ChatGPT首先意识到这个问题,并给出了很好的解决方案,这也是其最大的技术贡献。相对于之前的少样本提示,目前的解决方案更符合人类的表达习惯,为人类与LLM进行交互提供了更自然、更高效的人机接口技术。而这必将启发后续的LLM,在易用人机接口方面继续进行创新和优化,使LLM更具服从性和人性化,进一步提升人机交互的效果和质量。

ChatGPT的各项能力来源和技术路线如图1-5所示。

图1-5 ChatGPT的各项能力来源和技术路线(根据OpenAI官方模型索引文档进行分析推测)

ChatGPT目前主要通过提示词的方式进行交互。然而,这种先进的自然语言处理技术并不仅限于人类的自然对话场景,它的实际应用远比想象中要更为广泛且复杂。ChatGPT可在多种语言任务中展现卓越性能,例如自动文本生成、自动问答、自动摘要等。在自动文本生成方面,ChatGPT能够根据输入的文本自动生成类似的内容。无论是剧本、歌曲、企划书等创意性作品,还是商业报告、新闻稿等正式文档,ChatGPT均可提供高质量的输出。在自动问答领域,ChatGPT 通过对输入问题的深度理解,为用户提供准确且有价值的答案。此外,ChatGPT还具备编写和调试计算机程序的能力,协助开发者解决编程难题。ChatGPT的高度智能化表现吸引了广泛关注。它能够撰写接近真人水平的文章,对众多知识领域内的问题给出详细且清晰的回答。这一突破性技术表明,即便是过去被认为是AI无法取代的知识型工作,ChatGPT也有足够的实力胜任,因此它对人力市场产生的冲击将是相当巨大的。这也意味着ChatGPT有潜力为各行各业带来更高效的工作方式,推动整个社会进一步发展。

作为OpenAI的一项杰出技术,ChatGPT拥有广阔的应用前景和丰富的落地生态,具体列举如下。

在教育领域,它能自动批改作业,推荐个性化学习资源,提供在线辅导,甚至编写教材。

在媒体和出版行业,它能编写新闻稿,撰写广告文案,进行内容审核,以及推荐阅读内容。

在金融领域,它能生成分析报告,进行风险评估,处理客户服务,乃至编写财务报表。

在医疗健康行业,它能整理医学研究,提供初步诊断,回答患者疑问并制订健康计划。

在客户服务行业,它能提供智能客服,解答问题,分析客户需求,推荐产品。

在人力资源行业,它能筛选简历,编写招聘广告,生成面试问题,编写培训材料。

在法律行业,它能提供法律建议,编写合同草案,解释法律条款,分析法律案例。

在旅游和酒店行业,它能定制旅行行程,编写旅游攻略,处理酒店预订,描述旅游景点。

在科研与技术行业,它能生成论文摘要,检索专利信息,提供合作伙伴建议,协助编写和调试程序。

在娱乐行业,它能生成创意作品,编写游戏对话,策划营销活动,生成社交媒体内容。

在互联网行业,它能进行搜索引擎优化,生成个性化搜索结果,提供智能推荐,管理社交网络,构建用户画像,管理电商平台,管理在线社区。

然而,ChatGPT并非完美无缺,OpenAI官方也指出了它存在的一些局限性和不足。比如,它可能生成看似合理但实际上错误的答案,对输入短语的微小调整可能表现出较高的敏感性,有时可能过于冗长,对含糊的查询不够敏感,以及可能对有害的指令做出回应或表现出偏见。但OpenAI正在积极寻求解决方案,并期待用户积极给予反馈,以持续优化ChatGPT。

总体来说,ChatGPT作为一款领先的人工智能聊天机器人,展现了卓越的自然语言处理能力,为各行各业带来了广阔的应用前景。尽管存在局限性,但随着技术的进步,ChatGPT必将实现更高效的工作方式,推动各行业进一步发展。

1.3.3 GPT-4和下一代GPT

从ChatGPT的介绍中我们可以看到,目前ChatGPT还有很多不足之处。那么,当很多人兴奋地关注和谈论ChatGPT时,他们讨论的到底是什么?笔者认为,人们真正关注的是对未来的期望,是像GPT-4甚至GPT-5一样强大的开放对话,多模态、跨学科技能,数不清的插件,强悍的n-shot学习能力……甚至未来真正的通用人工智能体AGI的可能性。随着ChatGPT的面世,GPT-4很快也对公众开放,AI发展历史的里程碑不断被刷新,落地应用、框架和插件层出不穷,如AutoGPT、Semantic Kernel、微软全产品系列Copilot、LangChain、斯坦福大学的研究者所进行的Generative Agents实验等。

2023年3月14日,OpenAI发布了备受瞩目的GPT-4,这一领先的大语言模型在科技领域掀起了轩然大波。OpenAI表示,GPT-4标志着公司的一个重要里程碑出现了。这是一个大型多模态模型(接受图像或文本形式的输入,输出文本),我们可以认为它的出现标志着AI第一次睁开双眼理解这个世界。在官方发布的演示视频中,OpenAI详细介绍了 GPT-4 在解决更复杂问题、编写更大规模代码以及将图片转化为文字方面的卓越能力。此外,相比于GPT-3.5(即ChatGPT所采用的模型),OpenAI承诺GPT-4将具有更高的安全性和协同性能。GPT-4在回答问题的准确性方面取得了显著提升,同时在图像识别能力、歌词生成、创意文本创作和风格变换等领域展现了更高水平的能力。此外,GPT-4的文字输入限制得以扩展至25000字,并在对非英语语种的支持上进行了优化。经过6个月的努力,OpenAI利用对抗性测试程序和从ChatGPT中积累的经验,对GPT-4进行了迭代调整。尽管该模型还有待进一步完善,但OpenAI表示,GPT-4“在创造力和协作性方面达到了前所未有的高度”,并且“能够更准确地解决难题”。虽然GPT-4在许多现实世界场景中的能力仍无法与人类相媲美,但它在多种专业和学术基准测试中达到了人类水平。总体来说,GPT-4 的表现令人叹为观止。关于AI在某些工作领域是否会取代人类,这种讨论一直在进行,GPT-4 的问世让许多行业的从业者都产生了紧迫感。毕竟,在很多方面,人类似乎已经难以与先进的AI技术抗衡。

可以先通过一张图(见图1-6)快速了解GPT-4的典型能力,其中主要包括智力、综合能力(多模态、跨学科)、大型程序编写能力,以及与真实世界交互的能力(自主使用工具)。

图1-6 GPT-4典型能力示例

通过OpenAI对GPT-4能力进行论述的官方论文“GPT-4 Technical Report”可以看到,GPT-4新增了很多能力和技术,同时也有不足和局限,接下来将逐一进行分析说明。

GPT-4的新能力

1.大规模多模态

GPT-4是一个基于Transformer的大规模多模态模型,拥有亿级参数规模。它能够处理图像和文本输入,生成文本输出,这使得GPT-4具有广泛的应用潜力,如对话系统、文本摘要和机器翻译等。总之,GPT-4可以在文本和图片处理领域发挥更大的作用。

2.超出人类级别的性能

GPT-4在各种专业和学术基准测试中展示了超越人类水平的表现。例如,在模拟律师资格考试中,GPT-4的成绩位于前10%的考生之列(参见论文“GPT-4 Passes the Bar Exam”),如图1-7所示;GPT-4在美国多州律师考试MBE(Multistate Bar Exam)中的准确率为75.7%,超过人类学生的平均成绩,并大大超过ChatGPT及之前的GPT模型(GPT-2因全部回答错误而无成绩);在GRE Verbal考试中,GPT-4达到了接近满分的169分(满分170分);在美国大学预修课程(AP)心理学考试中,GPT-4获得了5分,这在AP考试中相当于最高分。这些表现在很多方面超越了过去的大语言模型。

图1-7 不同时期GPT模型在MBE上的表现

3.多语言能力

GPT-4在多种语言上的表现优于现有的大语言模型。在MMLU基准测试中,GPT-4 在除英语以外的多种语言上的表现都超过了现有模型,例如在拉脱维亚语、威尔士语和斯瓦希里语等低资源语言上的表现。这表明,GPT-4 的训练方法和模型结构在不同语言之间具有较好的通用性。

4.支持的上下文长度增加

原始的GPT-3模型在2020年将最大请求值设置为2049个。在GPT-3.5中,这个值增加到4096个(大约3页单行英文文本)。GPT-4有两种变体,其中GPT-4-8K的上下文长度为8192个,而GPT-4-32K则可以处理多达32768个标记,这相当于大约50页文本。虽然只是上下文长度的扩增,但由此可以带来大量新场景和用例。例如,可以凭借其处理50页文本的能力,来创建更长的文本,分析和总结更大的文档或报告,或者在不丢失上下文的情况下处理更多更深入的对话。正如Open AI总裁格雷格·布罗克曼(Greg Brockman)在接受TechCrunch采访时所说的:“以前,该模型无法了解你是谁、你对什么感兴趣等信息。有了这种背景,肯定更有能力……借助它,人们能够做更多事情。”

5.可联网并使用插件

官方给出的插件主要是网页浏览插件和代码执行插件,这两个重量级插件直接解决了之前GPT模型的训练数据为2021年9月前的数据这一瓶颈(无法给出超出数据集时间限制的回答),让GPT-4可以任意浏览互联网实时信息,进行分析和回答,同时让生成大型代码的能力更加精准可控。可接入第三方插件的功能则是彻底解除了GPT模型的限制,可以快速建立庞大丰富的应用生态圈。并且,GPT-4可以自主选择使用的工具项,无须人工指定,也可以自主创建插件供GPT-4自己使用,这也增加了大量应用场景的可能性。

6.多模态思维链

作为大语言模型涌现的核心能力之一,思维链(Chain of Thought)的形成机制可以解释为:模型通过学习大量的语言数据来构建一个关于语言结构和意义的内在表示,通过一系列中间自然语言推理步骤来完成最终输出。可以说,思维链是ChatGPT和GPT-4能让大众感觉语言模型像“人”的关键特性。虽然GPT-4这些模型并非具备真正的意识或思考能力,但用类似于人的推理方式的思维链来提示语言模型,极大地提高了GPT-4在推理任务上的表现,打破了微调(Fine- tune)的平坦曲线。具备了多模态思维链能力的GPT-4模型具有一定的逻辑分析能力,已经不是传统意义上的词汇概率逼近模型。通过多模态思维链技术,GPT-4将一个多步骤的问题(例如图表推理)分解为可以单独解决的中间步骤,进一步增强GPT-4的表达和推理能力。

GPT-4采用的新技术

1.可预测的扩展

GPT-4项目的重点之一是开发可预测扩展的深度学习栈。通过使用与GPT-4相似的方法训练较小规模的模型,可以预测GPT-4在各种规模上的优化方法表现,从而能够借助需要更少计算资源的较小模型去准确预测GPT-4的性能。

2.损失预测

GPT-4的最终损失可以通过对模型训练中使用的计算量进行幂律拟合来预测。根据赫尼根(Henighan)等人的研究,拟合出了一个包含不可约损失项的缩放定律:

  (1)

这样就可以通过拟合较小规模模型的损失来准确预测GPT-4的最终损失。

3.预测人类评估性能

OpenAI开发了预测更具解释性的能力指标的方法,如在HumanEval数据集上的通过率。通过从使用1/1000倍乃至更少计算资源的较小模型中进行外推,团队成功地预测了GPT-4在HumanEval数据集子集上的通过率。这表明,我们可以在早期阶段预测GPT-4在具体任务上的性能,为未来大型模型的训练提供有价值的参考。

4.使用基于人类反馈的强化学习进行微调

GPT-4通过使用基于人类反馈强化学习(RLHF)进行微调,生成更符合用户意图的响应;同时,RLHF 微调也有助于降低模型在不安全输入上的脆弱性,减少不符合用户意图的响应。

5.基于规则的奖励模型

该模型使用GPT-4自身作为工具,利用基于规则的奖励模型(RBRM)为GPT-4在RLHF微调过程中提供更精确的奖励信号。RBRM通过检查模型生成的输出与人类编写的评估标准是否一致,对输出进行分类,从而为GPT-4提供正确行为的奖励信号。

6.模型辅助安全流程

通过领域专家的对抗测试、红队评估,以及使用模型辅助安全流程等方法,可以评估和改进GPT-4的安全性。这些方法有助于降低GPT-4产生虚假及有害内容的风险,并提高它在安全输入上的表现。

GPT-4的不足和局限

1.可靠性不足

尽管GPT-4在许多任务上表现出色,但它并不完全可靠。GPT-4在生成输出时可能产生“幻觉”现象,例如会错误地生成某些事实或进行错误的推理,因此在使用GPT-4生成的输出时,尤其是在高风险场景中,应谨慎。

2.有限的上下文窗口

GPT-4具有有限的上下文窗口,这意味着它在处理长篇文本时可能会遇到困难。尽管GPT-4在短文本任务上表现出色,但对于涉及长篇阅读理解的任务,GPT-4可能无法做出准确判断。

3.不从经验中学习

GPT-4不具备从经验中学习的能力,这意味着尽管GPT-4可以处理大量的输入数据,但它无法从过去的错误中学习以改进未来的输出。

4.容易受到对抗攻击

GPT-4在面对对抗性输入时可能会产生不良行为,如生成有害内容或错误信息。尽管已经采取了一系列措施来提高GPT-4的安全性,但在面对恶意用户时,GPT-4仍然可能会受到攻击。

5.偏见

GPT-4在输出中可能存在各种偏见。这些偏见可能来自训练数据,导致模型生成不公平或有害的输出。虽然已经采取了措施来纠正这些偏见,但完全消除它们仍然需要时间和努力。

6.过度自信

GPT-4在预测时可能表现出过度自信,即使在可能犯错误的情况下也不会仔细检查工作。这可能导致模型在某些任务上的表现不如预期。

尽管 GPT-4 具有这些不足和局限,但它在许多方面的性能仍然有显著的提高。为了充分利用GPT-4 的潜力并降低潜在风险,应该在使用模型时采取适当的措施,如对输出进行人工审查,在关键场景中避免使用模型或通过监控模型的使用来监测滥用行为。

正如本节开头所述,人们期待和关注的是GPT-5甚至未来的GPT-X到底会达到什么样的高度?所有人梦想中的AGI是否会真正实现?关于这些问题,等到 GPT-4发布后,全球对于OpenAI的关注度进一步提升。格雷格·布罗克曼在2023年的一次采访中说道:“OpenAI正在测试GPT-4高级版本,它将是普通GPT-4存储内容能力的5倍。”虽然OpenAI的官网中并没有任何关于下一代GPT产品的预告和介绍,但通过使用最新一代GPT-4-32K,可以对OpenAI未来的产品进行预测,也可以感受到人们对未来的期许。在主要技术方向和性能改进方面,GPT-5很有可能具备以下特点。

1.更加准确和流畅

GPT-5可能会在语言理解和生成方面更加准确和流畅,包括更好的上下文理解能力、更丰富的知识图谱和推理能力、更高级的对话和问答能力等。例如,它可能具备95%以上的自然语言处理任务准确率,以及更高的语义相似度评分。

2.更多模态

GPT-5可能会加强对多模态数据的理解和生成能力,包括图像、视频、音频等。这将有助于GPT更好地分析和处理多媒体数据,使其在虚拟助手、智能家居、虚拟现实等多个应用领域内的表现更为优秀。

3.提高可靠性

为了减少生成输出时的“幻觉”现象,可以研究一种在生成过程中引入事实验证和逻辑推理的机制。此外,可以通过引入人类专家的知识和反馈,训练模型更好地理解并生成可靠的输出。

4.扩展上下文长度

为了解决长篇文本处理的问题,可以通过某种新的架构使GPT-5能够处理更长的上下文长度。例如,可以通过在模型中引入记忆机制或者将注意力分层,使GPT-5更好地处理需要长篇阅读理解的任务。

5.从经验中学习

为了让 GPT-5 具备从经验中学习的能力,可以利用某种在线学习技术,使模型能够在运行过程中不断更新权重并优化自身表现,从而使GPT-5能够从过去的错误中学习,进一步地提高未来的输出质量。

6.提高抗对抗攻击能力

为了应对对抗性输入,可以通过新的健壮性训练方法使GPT-5在面对恶意输入时能够维持正常行为。此外,还可以开发某种输入过滤器来识别和过滤潜在的对抗性输入。

7.减少偏见

为了消除模型输出中的偏见,可以采用某种公平性训练方法,以确保模型在训练过程中不会吸收数据中的有害偏见。此外,还可以通过引入外部知识和人类反馈来纠正模型生成的不公平或有害输出。

8.控制过度自信

为了防止 GPT-5 在预测时过度自信,可以利用某种新的不确定性估计技术,使模型能够在预测时正确评估自身的不确定性。通过这种方法,GPT-5 将能够在面对可能出错的情况时,更加谨慎地生成输出。

9.可解释性和透明度

GPT-5也可能会更注重可解释性和透明度,使其生成的结果更加可靠,更易于被人类理解和接受。为了实现这一目标,GPT-5 可能会采用新型可解释神经网络架构和注意力机制来提高模型的可解释性。

通过这些改进,GPT-5应该能够更好地满足人们不断增长的语言和认知需求,提供更加智能化和个性化的服务和支持,为人类带来更多有益的帮助。

关于未来,OpenAI在GPT-4技术报告中是这样阐述的:“GPT-4和后续模型有可能以有益和有害的方式极大地影响社会。我们正在与外部研究人员合作,以改进我们理解和评估潜在影响的方式,并对未来系统中可能出现的危险能力进行评估。我们将很快分享更多关于GPT-4和其他AI系统对社会和经济的潜在影响的想法。”此外,各互联网巨头也纷纷表达对 GPT-5 的担忧,并且号召联名阻止进行GPT-5相关实验。2023年5月2日,“深度学习三巨头”之一暨2018年图灵奖得主杰弗里·欣顿(Geoffrey Hinton)发表推文证实他已经从谷歌离职,同时也表达了对AI失控的危机感(“推文强调了他离开是为了让公众了解AI的危险”)。

未来的多模态大模型技术将对每个人的生活和工作产生一系列深远的影响。

GPT将极大地影响资讯和社交媒体领域。在未来,GPT-X等技术生成的内容可能会在互联网上广泛传播,使人难以分辨在线观点究竟源于真实的公众声音,还是算法生成的“中心服务器的声音”。民众可能会盲从于GPT-X等技术生成的观点,导致人类沦为机器的复读机。同时,GPT-X等工具可能会大量渗透普通人的社交互动,使人际沟通方式逐渐模式化。

AI将大量替代低端重复性沟通和多模态工作。GPT-X等技术可能会与机器人技术相结合,从云端渗透终端设备,进入每个人的日常生活当中。操作系统和办公软件的交互界面可能会受到大模型的主宰。虽然一开始有很多人可能会因为 AI 技术的替代而失业,但更多人逐渐会借助GPT-X等技术提高工作效率,并成为自然语言程序员。人类开始将机器作为工具,而创造力和自然情感将成为人类能够坚守的宝贵特质。

各种考核将从知识型考核转向综合能力考核。知识储备和外语技能逐渐变得不再重要,工作经验和技术经验的价值将取决于是否拥有更先进的GPT模型或算力资源。一些曾经的热门专业可能会逐渐衰落,未来人类将从人类内部的竞争过渡到人机间的竞争,高层次能力的竞争也将更加激烈。

尽管谁也不知道GPT未来的发展路线,但正如OpenAI在GPT-4技术报告中所说的那样,不管是有益还是有害,GPT的后续模型有可能会“对社会产生重大影响”。

相关图书

大模型应用开发 动手做AI Agent
大模型应用开发 动手做AI Agent
GPT图解 大模型是怎样构建的
GPT图解 大模型是怎样构建的
大语言模型:基础与前沿
大语言模型:基础与前沿
生成式AI入门与AWS实战
生成式AI入门与AWS实战
ChatGPT原理与应用开发
ChatGPT原理与应用开发
人工智能和深度学习导论
人工智能和深度学习导论

相关文章

相关课程