书名:大模型工程化:AI驱动下的数据体系
ISBN:978-7-115-65971-2
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
编 著 腾讯游戏数据团队
责任编辑 单瑞婷
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
大模型在众多领域得到了广泛应用,促进了AI技术的整合和创新。然而,在实际应用过程中,直接将大模型应用于特定行业常常难以达到预期效果。本书详细阐述如何在游戏经营分析场景中利用大模型实现数据体系的建设。
本书分为6个部分,共16章。第1部分主要介绍大模型技术的发展与应用,从大模型的发展现状展开,重点介绍大模型与数据体系的相关知识。第2部分主要介绍大模型下的关键基础设施,涵盖湖仓一体引擎、湖仓的关键技术、实时数据写入和高效数据分析等内容。第3部分主要介绍大模型下的数据资产,围绕数据资产重塑、数据资产标准、数据资产建设、数据资产运营展开。第4部分主要介绍自研领域大模型的技术原理,涵盖领域大模型的基础、需求理解算法、需求匹配算法、需求转译算法等内容。第5部分主要介绍大模型的工程化原理,涉及工程化的基础、技术筹备、建设要点、安全策略等内容。第6部分介绍大模型在游戏领域的应用,通过游戏领域的经营分析案例,系统地阐述如何实现业务需求。
本书适合致力于大模型技术应用的数据工程师阅读,也适合寻求AI自动化编程解决方案的软件开发者阅读,还适合希望利用AI提升业务效率的企业决策者阅读。
笔者团队在大数据领域深耕十多年,见证了从早期处理能力有限的大数据平台,到如今能够实现秒级处理的湖仓一体架构的演进,以及大数据的存储、计算、治理、应用等各类底座、平台的蓬勃发展。随着大模型时代的到来,构建以 AI 为驱动的数据体系已经从可能转变为必然。在这一进程中,笔者团队也积极地融入大模型的浪潮,以大模型、湖仓一体等新技术为基础,实施并落地了基于AI与湖仓一体技术的数据资产方案,从而达成在AI驱动下构建数据体系的目标。
2024年,笔者团队决定撰写本书,旨在通过介绍项目中积累的技术体系与方法论,助力读者构建起体系化的思维模式。笔者团队深刻意识到,在大模型时代,不仅要关注大模型技术本身,还要具备全局视角,提出系统化的解决方案。因此,本书内容由浅入深,侧重于介绍基础概念、技术原理、解决方案和实战案例。
在具体的工程化实现中,为了让AI成为提高生产力的有力工具,笔者团队对需求沟通、资产建设、资产推荐、Text2SQL、SQL结果验证、数据验证等环节进行了系统化整合,并确保AI贯穿全流程,打造以AI为核心的数据体系。笔者团队结合数据湖和数据仓库的优势,基于AI重构了数据资产体系,建立了领域大模型。在此基础上,以智能助手系统为例,阐述AI驱动下的数据体系在游戏领域的应用。
本书分为6个部分,共16章,各章主要内容如下。
第1章介绍大模型的发展现状,涉及大模型的发展历程、市场规模和应用现状。
第2章介绍大模型与数据体系的相关背景知识,从业务对数据体系的需求出发,介绍经典数据中台解决方案,并围绕经典数据中台解决方案中的痛点,探讨大模型带来的新机会,包括大模型的优势与不足、与经典数据中台的结合方式,以及新思路的提出。最后,提出全新的大模型解决方案,包含其建设目标、关键技术和方案架构。
第3章聚焦于大模型下的新基建。首先,介绍湖仓一体引擎,包括数据技术的发展和湖仓一体架构。接着,详细探讨DeltaLH湖仓的关键技术,包括存储计算分离、数据冷热分层和湖仓一体化。随后,介绍实时数据写入,包括实时数据链路、全链路监控和数据预构建。最后,探讨高效数据分析,包括查询引擎优化和物化透明加速。
第4章介绍数据资产重塑。首先分析数据资产方案的现状,随后探讨其面临的核心挑战,包括缺失非结构化标准、建设和治理成本高、运营目标不一致等。接着,提出重塑数据资产的思路,旨在解决现有问题并优化数据资产的管理和应用。
第5章介绍数据资产标准,分析如何通过定义更广义的数据资产标准,包括需求资产标准、特征资产标准和库表资产标准,为数据资产的建设奠定坚实基础。
第6章聚焦于数据资产建设。首先,介绍AI如何助力资产初始化,包括特征资产和库表资产的初始化。接着,探讨AI如何辅助需求资产、特征资产和库表资产的建设。
第7章主要探讨数据资产运营。首先,明确数据资产运营的目标。接着,以北极星指标为牵引,分别介绍需求资产、特征资产和库表资产的运营策略,包括这3个运营策略中的不同关键指标。
第8章介绍领域大模型的基础知识。首先,介绍领域大模型的背景,包括通用大模型的局限性和领域大模型的优势。接着,详细阐述领域大模型方案,包括3种构建方案和模型选型等内容。最后,以Text2SQL为例,讲解领域大模型架构。
第9章聚焦于需求理解算法。首先,阐述从模糊需求到清晰需求的必要性及面临的挑战。接着,介绍常见的需求理解算法,包括传统Query理解算法和创新需求理解算法。最后,详细探讨需求理解算法的设计原理,包括构建业务知识库和构建需求理解链路。
第10章主要介绍需求匹配算法。首先,阐述从需求到资产的必要性、面临的挑战和解决方案。接着,详细介绍召回算法,包括资产图谱、文本召回、向量召回、意图召回和召回粗排。最后,介绍精排算法,包括数据生成、模型微调和多LoRA部署。
第11章聚焦于需求转译算法。首先,阐述从需求到查询的必要性及面临的问题。接着,介绍解决方案,包括传统的Text2SQL技术和创新的需求转译算法。最后,详细探讨实战原理,包括评测数据集和算法流程等内容。
第12章介绍工程化的基础。首先,介绍工程化的背景,包括工程化的定义和理念。接着,阐述工程化的核心和建设思路,包括业务流程和系统架构等内容。
第13章主要探讨工程化的技术筹备工作。首先,进行技术调研评估。然后,介绍大模型应用框架的4个层次,分别是核心层、社区组件层、应用层和技术生态层。接着,探讨提示词工程的内容模块,包括少样本提示、链式思考提示和自调整提示。最后,介绍开发环境的准备过程,包括软件安装和依赖库安装。
第14章聚焦于工程化的建设要点。首先,明确构建目标,包括功能性需求、非功能性需求和流程定义。接着,介绍核心功能的实现,具体包括模块化架构、安全管控、工具模型、人机协同和应用场景。最后,介绍运营质量的评估指标,包括回归评估指标和资产运营指标。
第15章主要探讨工程化的安全策略。首先,介绍安全体系建设要点,包括制度与流程、数据安全和运行安全。接着,提出安全体系实施方案,包括数据分类分级方案、资产匿名化与脱敏方案、访问控制方案和监控告警方案。
第16章介绍游戏领域的应用案例。以游戏领域为例,首先介绍游戏经营分析的背景。接着,详细阐述智能助手系统架构的设计和实现。最后,展示代码生成应用和探索分析应用的具体实践。
本书由多位作者梳理结构和写作,具体分工如下。
● 张凯负责制订本书整体框架、梳理技术流程,以及统筹和优化所有章节的内容。
● 司书强负责组织团队写作,合理配置项目资源,严格把关并细心审阅本书的技术内容。
● 刘岩负责撰写第1章到第3章的内容。
● 张昱负责撰写第4章到第6章的内容。
● 戴诗峰负责撰写第7章、第16章的内容。
● 谢思发负责撰写第8章到第11章的内容。
● 李飞宏负责撰写第12章到第15章的内容。
衷心感谢众多朋友的鼎力相助。特别感谢周威、皇甫学军、梁彪、黄奕文对第3章内容的贡献,以及人民邮电出版社编辑单瑞婷对本书出版工作的全程支持。
虽然在写作过程中,我们尽最大努力保证内容的完整性与准确性,但由于写作水平有限,书中难免存在不足之处,恳请读者批评和指正。
腾讯游戏数据团队
2024年10月
张凯,腾讯专家工程师,主要从事游戏的大数据分析工作。具有10多年的互联网从业经验,先后负责游戏安全对抗、反欺诈对抗、游戏大数据应用等项目。曾主编3本畅销图书,荣获异步社区“2023年度影响力作者奖”。
司书强,腾讯资深专家工程师,负责游戏业务的数据工程、数据分析等工作。在大数据技术工程、数据分析、商务智能、企业级数据治理等领域有10年以上的实践积累,主导并落地多个大型企业数据体系建设。
刘岩,腾讯资深专家工程师,曾任三一重工智能制造研究院院长。目前负责腾讯游戏AI驱动下的数据体系建设工作,曾负责全球“灯塔工厂”建设。在数据驱动业务、业务流程重构、数据智能应用等领域有20年以上的工作经验,主导和落地多个大型企业数字化转型项目。
张昱,腾讯资深工程师,主要从事游戏大模型、大数据应用等工作。具有10年大数据、数仓技术和数据分析领域从业经验,曾先后负责云产品研发、大数据治理、湖仓一体和大模型应用等项目。
戴诗峰,腾讯资深工程师,主要从事游戏的数据治理规划与架构工作。具有近 20 年的数据领域工作经验,参与多个领域大数据平台和数据治理的咨询与交付工作,擅长数据资产体系、数据资产持续运营、数据治理标准等方面的规划与设计。
谢思发,腾讯资深工程师,主要从事游戏行业的算法研究工作。具有8年以上的大数据搜索推荐实战经验,曾先后负责游戏用户画像建设、推荐系统建设及游戏知识图谱(游谱)系统的建设与应用。曾发表多篇学术论文和专利,在OGB挑战赛等国际赛事中获得佳绩。
李飞宏,腾讯专家工程师,主要从事游戏的大数据平台研发及治理工作。具有10多年的大数据行业从业经验,曾先后负责游戏大数据分析平台、游戏数据治理平台、游戏大数据应用等项目,主编并参与多个腾讯数据治理标准的编写工作。
本书提供如下资源:
● 本书思维导图;
● 异步社区7天会员。
要获得以上资源,您可以扫描下方二维码,根据指引领取。
作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。
当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,点击“发表勘误”,输入勘误信息,点击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。
我们的联系邮箱是shanruiting@ptpress.com.cn。
如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。
如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。
如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。
如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。
“异步社区”(www.epubit.com)是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。
“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域多年的发展与积淀。异步图书面向IT行业以及各行业使用IT技术的用户。
随着2022年大模型技术的突破,各类基于大模型的应用逐步普及到大众的工作和生活中。大模型的核心在于迅速响应人们对信息处理和智能服务的需求。大模型不仅能在文本创作、翻译等方面提供帮助,其应用还能扩展至图像处理、语音处理和推理规划等多个领域。这种强大的信息处理能力极大地提升了人们获取、理解和应用信息的效率,进而能显著提高工作效率。
大模型的技术创新和发展不仅加速了科技进步,而且在推动经济增长方面发挥了不可或缺的作用。这些先进的模型已经渗透到众多行业和领域,包括但不限于教育、医疗、游戏等,为各行业的企业开辟了新的商业机会和市场。同时,大模型的发展也促进了一系列相关产业的兴起,如云计算、大数据等。在科研和技术创新领域,大模型和其他新技术的结合,产生了新的产品、服务和业态,为经济的增长提供了新的动力。
大模型是人工智能领域几十年技术积累和研究沉淀的结果。大模型的概念已经不再是单纯的模型本身,而是硬件、算法、模型、数据、算力和应用等技术的综合体现。
深度学习是人工智能领域最重要的分支,经过几十年的发展,其在模型的参数规模和信息推理能力方面取得了重大突破,从而促进了大模型的创新和发展。
深度学习技术的发展经历了4个阶段,如图1.1所示。
图1.1 深度学习技术的发展阶段
1943年,Warren McCulloch和Walter Pitts发表论文“A logical calculus of the ideas immanent in nervous activity”,提出了人工神经元模型MCP(McCulloch-Pitts)。此模型模拟了神经元之间信息的传递和处理方式,为神经网络和人工智能研究奠定了基础。
1958年,Frank Rosenblatt提出了感知机模型和感知机学习算法(Perceptron Learning Algorithm,PLA)。PLA通过不断调整神经元之间的连接权重,使得神经网络能够自动学习和适应输入数据的模式,从而实现了神经网络学习。
1969年,Marvin Minsky和Seymour Papert指出,PLA是一种线性模型,无法解决4个输入参数的XOR(异或)问题。这一发现象征着深度学习领域首次遭遇挫折,随后该领域经历了长达近20年的相对停滞期。
1986年,Geoffrey Hinton等人提出了多层感知机(Multilayer Perceptron,MLP)模型,并在MLP的基础上实现了反向传播算法(Back Propagation Algorithm,BP),使得神经网络训练可以到达更深的层次,有效解决非线性分类和复杂训练的问题。此外,MLP可逼近任意连续函数,以便深度学习处理复杂的任务。
1989年,Yann LeCun等人利用BP算法成功训练了卷积神经网络(Convolutional Neural Network,CNN),并将其应用于手写邮政编码的识别。CNN通过卷积操作和权值共享机制,提高了处理图像和视觉数据的效率。
1990年,Jeffrey Elman在论文“Finding Structure in Time”中提出了Elman网络—— 一种可用于处理序列数据和时序任务的循环神经网络(Recurrent Neural Network,RNN)。RNN通过在隐藏层引入上一时间步的状态信息,以便捕捉序列中的时间依赖关系。
1991年,Sepp Hochreiter指出,多层神经网络在训练过程中存在梯度消失问题。这一问题会导致神经网络的训练速度非常慢或训练失败。虽然通用逼近定理证明了仅需一层以上的隐藏层,神经网络便能逼近任意连续函数。于是,深度学习的研究者始终面临使用多层神经网络的困境。在这一背景下,当时的计算资源相对匮乏,无法为大规模神经网络训练提供足够的算力支持。加之支持向量机(Support Vector Machine,SVM)等统计学模型在特定任务上展现出了卓越的性能,进而使得机器学习再度陷入低谷,研究热点纷纷转向支持向量机等模型。
2006年,Geoffrey Hinton等人在论文“A Fast Learning Algorithm for Deep Belief Nets”中提出了深度置信网络(Deep Belief Network,DBN)模型。该模型通过逐层贪婪预训练的策略,解决了多层神经网络训练中的梯度消失问题。
2006年,NVIDIA推出了CUDA框架。该框架将图形处理单元(Graphics Processing Unit,GPU)的并行处理能力转化为通用的并行计算能力,使得GPU在每秒浮点操作数(Floating-point Operations Per Second,FLOPS)上比中央处理器(Central Processing Unit,CPU)高了10倍不止,从而大幅提升了算法训练的效率。
2009年,李飞飞团队发布了ImageNet数据集,该数据集包含数百万个带有标签的图像,可被用于图像分类和目标识别任务。ImageNet数据集成为许多深度学习模型和算法的基准数据集,对计算机视觉领域的发展有着重要的推动作用。
2012年,Alex Krizhevsky等人在ImageNet图像分类竞赛(ILSVRC)中,凭借AlexNet模型取得历史性的突破。AlexNet首次引入了ReLU激活函数,进一步解决了深度神经网络训练中的梯度消失问题,标志着计算机视觉进入了应用和普及阶段。
2014年,Ian Goodfellow等人提出了生成对抗网络(Generative Adversarial Network,GAN)。GAN通过生成器和判别器的对抗训练,实现了图像生成和转换。
2014年,Dzmitry Bahdanau等人在机器翻译领域引入注意力机制(Attention Mechanism),提升了模型对长序列和大文本的处理能力,这是机器翻译领域的拐点。
2015年,Google推出了TensorFlow开源深度学习框架。这些框架大大降低了神经网络模型开发和训练的门槛,促进了深度学习的研究和应用。
2016年,DeepMind的AlphaGo战胜世界围棋冠军李世石,展示了深度学习和强化学习在处理复杂任务和决策制定方面的巨大潜力。AlphaGo通过大规模数据的学习和自我对弈的训练,逐步提高自身水平,开启了人工智能发展的新篇章。
2017年,Google在论文“Attention is All You Need”中提出了Transformer模型,该模型避免了RNN模型中常见的梯度消失或爆炸问题,从而在机器翻译任务上的表现全面超越RNN模型。这一突破性的创新迅速扩散到整个深度学习领域,后续的BERT和GPT算法架构均是基于Transformer架构提出的。
2021年,DeepMind在国际蛋白质结构预测竞赛(CASP)中使用AlphaFold 2成功突破了蛋白质结构预测领域的技术瓶颈,为生物学研究和药物开发提供了新方法,展示了深度学习在解决复杂科学问题上的巨大潜力。
2022年,Stability AI推出了开源模型Stable Diffusion。Stable Diffusion通过逐步向样本中引入噪声,使其逐渐过渡到一个简单的分布状态,随后通过逆向的扩散过程来生成高质量的图像。Stable Diffusion对比之前的GAN,具备更容易训练、对GPU资源需求更低和生成的图像质量更高的特点,成为图像生成、视频生成领域的核心模型。
2022年,David Holz发布了Midjourney。Midjourney能够根据用户输入的文本快速生成高质量且具备差异化的图片,可以大大提高设计师的工作效率。Midjourney展现出巨大的商业化和产品化潜力,使人工智能生成内容(Artificial Intelligence Generated Content,AIGC)成为舆论的焦点。
2022年,OpenAI发布了基于1750亿参数规模的大语言模型应用ChatGPT,它所展示的能力充分证明了大模型在社会各领域的应用潜力。仅仅两个月,ChatGPT的活跃用户数就突破1亿,彻底“引爆”了人工智能,使大模型相关产业飞速发展。
2024年,OpenAI发布了基于文本生成视频的应用Sora。Sora不仅能够生成长达60秒的视频内容,还具备对现实世界的惊人建模与模拟能力,这意味着AI技术正在朝着能够全面理解和模拟物理世界规律的方向发展,通用人工智能(Artificial General Intelligence,AGI)的实现成为可能。
自2021年起,大模型在全球范围内经历了一段快速增长期,其市场规模呈现出显著的指数级增长。与此同时,国内大模型相关应用在Android渠道上的下载量也呈现出类似的指数级增长趋势,被消费者广泛接受。
根据大数据之家、钛媒体数据,从全球市场来看,2020年大模型的全球市场规模为25亿美元。到2028年,大模型的全球市场规模预计达到1095亿美元。
2020—2028年大模型的全球市场规模如图1.2所示。
图1.2 2020—2028年大模型的全球市场规模
根据大数据之家、钛媒体数据,从中国市场来看,2020年大模型的中国市场规模为15亿元。预计到2028年,大模型的中国市场规模达到1179亿元。
2020—2028年大模型的中国市场规模如图1.3所示。
图1.3 2020—2028年大模型的中国市场规模
国内的大模型相关应用包括腾讯元宝、豆包、讯飞星火、文心一言、智谱清言、天工、通义和Kimi等,这一类应用在Android渠道的下载规模呈现超高速增长的态势。2023年8月6日到2024年8月6日,国内大模型相关应用在Android渠道的累计下载量达到8.2亿,如图1.4所示。
图1.4 国内大模型相关应用在Andriod渠道的累计下载量
随着大模型技术的快速发展,大模型相关应用如雨后春笋般涌现。本节将以通用大模型技术的应用和领域大模型技术的应用为例,阐述大模型的应用现状。
通用大模型技术应用的场景主要包括自然语言处理、图像处理和视频处理等,如图1.5所示。
图1.5 通用大模型技术应用的场景
针对自然语言处理的典型大模型应用有OpenAI的ChatGPT、Anthropic的Claude、腾讯元宝、字节旗下的豆包等,其核心功能如下。
● 智能问答:支持多模态的智能问答,结合深度搜索模式,可以提供更新、更专业、更全面的信息。
● 文档写作:通过大模型的语言理解和输出能力,可以辅助内容创作,完成报告、方案的撰写等。
● 语言翻译:支持多种语言的对话,理解不同语言的任务,并且提供高质量的多语言翻译服务。
● 内容摘要:支持对多种类型的文档、链接、图片等进行解析和信息总结。
针对图像处理的典型大模型应用有Midjourney、OpenAI的DALL-E 2、开源的Stable Diffusion等,其核心功能如下。
● 图像生成:用户描述场景或角色,大模型能够将这些语义信息转换为视觉元素,生成高质量的图像。
● 图像修复:能够处理低质量或受损的图像,使其变得更加清晰和逼真。
● 风格转换:能够将图像转换成不同的艺术风格,例如印象派、涂鸦等。
● 图像编辑:能够执行常见的图像编辑任务,如裁剪、调色和添加元素等。
实际使用时,需要提前准备好提示词(Prompt),并将提示词给大模型,这样大模型才能完成相应的图像处理任务。以Midjourney为例,给到大模型的提示词是“在夜晚的雪地中,一位拥有星星般的发光肌肤的女性,被花朵环绕,呈现出奇幻的风格。女性闭着眼睛,创造出一种超凡的效果。她的脸和脖子上有星星,增添了场景的魔幻感。--chaos10 --stylize150 --pdzkthys --ar3∶4”。此时,大模型会根据提示词生成高清图片,如图1.6所示。
图1.6 Midjourney根据指定提示词生成的高清图片
大模型应用于音视频方向的典型场景包括视频生成、视频增强、音频生成、音频增强等。
针对视频处理的典型大模型应用有OpenAI的Sora、Luma的Dream Machine、Runway的Gen-3、Pika labs的Pika和MiniMax的海螺AI等,其核心功能如下。
● 文生视频:能够将用户提供的文本描述转化为动态的视觉内容,并在生成视频时模拟现实世界的物理规则,生成包含多个角色和复杂背景的视频。
● 多模态输入:支持基于文本、图像或视频输入来生成视频,或者在现有视频的基础上进行内容修改或者视频延长。
● 角色一致性:能够在模拟现实世界物理规律的同时,保持角色的完整性,确保视频内容在时间上的连贯性和逻辑性。
● 多种镜头运动:支持一系列流畅、电影化和自然的摄像机运动,确保与每个场景的情感基调相匹配。
同图像处理类似,实际使用时,需要准备好提示词给大模型,这样大模型才能生成视频。以Dream Machine为例,给到大模型的提示词是“该场景是从穿过繁忙的城市街道的骑行者角度拍摄的。摄像机捕捉到了自行车的车把、前方的道路和周围的交通情况。当骑行者穿梭在街道上时,行人、汽车和店面都模糊地闪过。使用POV镜头让观众身临其境地体验骑行,强调了速度和活力”。此时,大模型会根据提示词生成视频,视频的截图如图 1.7所示。
图1.7 Dream Machine根据指定提示词生成的视频的截图
另外,在音频生成和音频增强领域,用户也可以使用文本提示词来生成完整的音乐,其中典型的大模型应用有Udio、Fryderyk、Suno和网易天音等。
大模型技术的应用已经广泛深入各个专业细分领域。本节将以大模型在科学发现、机器人、企业应用,以及代码编程等关键领域的技术应用现状为例,展示其在推动行业创新和解决复杂问题方面的潜力。领域大模型技术应用的典型场景如图1.8所示。
图1.8 领域大模型技术应用的典型场景
大模型应用于科学发现领域的典型场景包括蛋白质预测、新材料发现、药物开发和天文物理等。
● 蛋白质预测:如DeepMind的AlphaFold 3,不仅能预测单个蛋白质序列或蛋白质复合物的结构,还能预测蛋白质与其他蛋白质、核酸、小分子中的一种或多种物质复合的结构。此项技术是一个革命性的创新,能够预测所有生命分子的结构和相互作用,并且在预测蛋白质与其他分子的相互作用的准确率上比传统方法提高50%。
● 新材料发现:如DeepMind的GNoME(材料探索图形网络)平台,其在17天内独自创建了41种新材料。GNoME发现了超过220万种稳定结构,将稳定结构的预测精确度提高到80%以上。在预测成分时,每100次实验的精确度提高到33%,此前仅为1%,相比之下,其速度和精确度远超人类。
● 药物开发:如Atomwise公司的AtomNet平台,其运用一种虚拟高通量药物筛选(High-Throughput drug Screening,HTS)方法,可以在由超过15万亿个可合成化合物组成的、不断扩大的化学库中进行搜索,准确地找到与任何已知结合剂截然不同的新型结合剂,从而在新的化学空间中找到热门药物。
● 天文物理:中国天眼FAST望远镜在寻找脉冲星的过程中,使用AI技术来应对每秒高达38 GB的传输数据,大幅提高了搜索效率。
针对机器人领域的典型大模型应用有DeepMind的RT-2、Google的PaLM-E、Covariant的RFM-1和北京大学的RoboMamba等,此类应用的核心功能如下。
● 多阶段任务规划:能够根据视觉和语言输入完成复杂的多阶段任务规划,例如决定哪种物体可以用作临时的锤子。
● 自主操作与控制:能够应对任务执行期间可能发生的中断,显示出对环境的适应性和弹性。
● 多模态理解和生成:能够对输入的语义和视觉进行理解,解释成命令,并通过执行基本推理来响应用户指令。
● 端到端执行:能够直接从视觉输入到机器人动作输出,降低了传统机器人学习过程的复杂性。
以RT-2模型为例,展示大模型技术在机器人领域的应用。RT-2模型是一个“视觉—语言—动作”模型,需要处理的数据包括当前图像、语言命令和特定时间步骤的机器人动作。RT-2模型可以将现有的视觉语言模型与机器人动作数据进行共同微调,通过生成的机器人动作文本字符串(如“1 128 91 241 5 101 127 217”)驱动机器人执行相应动作,于是,机器人就有了自主应对新对象、新环境和新任务的能力。
大模型在企业应用领域的典型应用场景包括智能营销、智能设计、智能制造和智能客服等。
● 智能营销:Jasper 是一款专为企业营销场景研发的AI工具。例如,可以将AI生成的图像内容重新包装成符合品牌风格的多种格式和语言;支持跨平台使用,允许用户通过电子邮件、社交媒体和企业官网等多个渠道发布内容;具备撰写高质量文案的能力,支持用户上传品牌风格的写作指南,让AI模仿,从而确保内容的一致性;支持集成到常用开发工具和浏览器中,提高内容创作效率。Jasper 还是一个多人协作AI平台,可以在其中分配工作、查看状态等。
● 智能设计:新思科技(Synopsys)的DSO.ai通过AI自动优化流程,提高芯片设计的效率和质量。DSO.ai通过强化学习进行智能设计和优化,可在优化过程中智能优化数万亿个设计方案,从而在设计空间中实现更好的优化结果。DSO.ai还能够同时针对多个目标(如性能、功耗和面积等)进行设计空间优化,并在这些目标之间找到最佳平衡,实现更高效和有效的设计。此外,DSO.ai还支持从寄存器传输级(Register Transfer Level,RTL)到最终版图(GDSII)的全流程自动优化,从而缩短设计时间,提升设计质量。
● 智能制造:ClondNC通过AI可以实现无须模板或宏即可生产出优质零件,以及自动生成专业的加工策略,从而使得以前需要数小时甚至数天才能完成的任务,现在只需几分钟或几秒钟就能完成。使用ClondNC生成加工策略能够延长机器的正常运行时间、缩短交货时间和提高流程稳定性。
● 智能客服:Salesforce的Einstein平台通过AI技术提供多种功能,从而改善客户体验和提高服务效率。例如,通过自动化客户服务任务,帮助服务团队节省时间,从而服务团队可以专注于更复杂的客户问题;通过理解客户查询的自然语言,自动提取关键信息并将其路由到正确的服务代表或解决方案;根据客户的历史交互和偏好,推荐个性化的服务选项和解决方案;自动从客户交互中提取信息,并更新知识库,使服务团队能够快速地找到解决方案。
大模型应用于代码编程领域的典型应用有GitHub Copilot、Tabnine、JetBrains Fleet等,此类应用的核心功能如下。
● 代码生成:根据开发者的注释或代码描述,能够生成多种编程语言的代码,支持Python、JavaScript、TypeScript、Ruby、Go、Java等。
● 代码补全:能够根据上下文、已有的代码、相关的代码库及开发者的编码习惯,给出合适的代码补全建议,帮助开发者快速编写程序。
● 错误检查:能够在开发者编码时识别潜在的错误,并给出修复代码的建议,从而提高代码的质量和可维护性。
● 测试用例:能够解释已有代码,并且根据现有代码生成测试用例,同时生成注释。
使用GitHub Copilot生成测试用例,如图1.9所示。
图1.9 使用GitHub Copilot生成测试用例
在使用大模型生成代码的领域中,SQL代码生成是一个重要的研究方向,它能够通过大模型解析用户描述的自然语言需求并生成相应的可执行SQL代码,还可以生成BI图表等,从而完成数据分析。
本章重点阐述了大模型的发展现状。首先,通过介绍大模型的发展历程,深入探究深度学习技术演进的关键阶段;其次,通过介绍大模型的市场规模,揭示当下大模型的市场普及程度;最后,以通用大模型技术的应用和领域大模型技术的应用为例,详细阐述大模型技术的应用现状。这些内容可为读者后续学习大模型在数据体系中的应用提供背景知识。