书名:AIGC提示词美学定义
ISBN:978-7-115-63841-0
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 傅 炯
绘 制 于春雨
责任编辑 罗 芬
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
本书是关于AIGC(生成式人工智能)技术与作品美学定义方向的探索指南,旨在从美学定义的视角,为创作者提供审美要素、风格要素与应用方向要素的系统指导。在AIGC技术迅速发展的今天,本书强调技术仅是工具,真正的创新源于对美学的深刻理解和高水准的创意思考,我们旨在培养读者形成优秀的美学定义能力,以指导AI生成更高水平、更具深度的优质作品。
本书共8章,第一章简要介绍了AIGC的定义和发展历程等内容,第二章至第八章分别从光、材质、艺术流派、插画、游戏、女性美、流行趋势这几方面,向读者系统展示了在使用AIGC技术生成画面时,如何进行审美要素定义、风格要素定义和应用方向要素定义。
本书适合所有对AIGC艺术创作感兴趣的设计师、艺术家和创意工作者阅读。
AIGC(Artificial Intelligence Generated Content,生成式人工智能)并不是什么新鲜事物,在20世纪50年代,就有科学家开始了相关研究。经过半个多世纪的技术发展,再加上互联网上海量素材的积累,AIGC最近到达了技术爆发期,也成为人们讨论的热门话题。
类似于历史上的其他技术革命,AIGC也让人恐慌。有人觉得它会让很多人失去工作。而乐观的人会回想起人类从马车时代进入汽车时代,大量的马车夫失去了工作,但同时也产生了一个新的职业:汽车司机。2023年4月1日晚上,笔者约了两位师弟夜谈,其中一位师弟徐涵神秘兮兮地说,AIGC一定会催生一种新的职业:提示词工程师。那天晚上我们聊了很多事情,但当时我并没有考虑到AIGC跟我有什么关系。
4月10日,师弟慈思远的设计社群集创堂举办了一场主题为“Design Tomorrow(明日设计)”的分享活动。在活动中,印隽老师讲解了AIGC的发展趋势和他在这方面的探索。一边聆听印隽老师的分享,我和师弟沈毅老师一边在下面“开小会”。我跟他讨论的是,AIGC生成设计作品,是让设计更大众化了,还是依然保持了精英化的本质?当印隽老师讲解利用AIGC技术生成图像的时候,我们认为AIGC使设计更加大众化了,不会设计的普通人也能利用“文生图”的原理,用AIGC创造出很漂亮的画面;但当印隽老师聊到提示词的精准和艺术性的时候,我和沈毅老师恍然大悟,又一致认为,设计依然保留着精英化的一面。其专业化、精英化无非是从画面的设计制作转移到了对画面的定义中。也就是说,设计师从创意、制作转变成了向AIGC下指令。设计师成了AIGC提示词工程师。
用提示词指挥AI生成画面,本质上就是对画面进行美学定义。美学定义包括三大要素的定义:审美要素定义、风格要素定义和应用方向要素定义。恰巧,笔者20多年的研究工作就聚焦于研究消费者的审美特征,帮助企业进行品牌和产品的美学定义。工业设计领域美学定义的方法论平移到AIGC领域还有效吗?我先带学生做实验。我带领8位同学对绘画、游戏、电影等艺术门类的画面风格进行分类,然后进一步对各个风格的色彩、光线、质感等要素进行分析。打好了这个基础以后,我希望带领职业设计师试验一下这套方法论的有效性。2023年6月16日和17日,我带领7位专业设计师用Midjourney和Stable Diffusion来尝试我们的美学定义方法,印隽老师也全程参与。很幸运,我们的方法论“跑通”了。
看到我在朋友圈的晒图,人民邮电出版社的蒋艳老师鼓励我把这次的研究写成一本书,就是您现在看到的这本书。我带领平面设计师于春雨,用了两个月,把我们的方法论仔仔细细又实践了一遍,制作了本书中所有的作品。在这个过程中,我们对提示词进行了细致的试验。我们从光、材质、艺术流派、插画、游戏、女性美、流行趋势几个方面,对画面风格进行分类,尝试各种提示词的有效性。
本书第一章主要讲解利用AIGC技术生成画面的基本原理。虽然我们尽量写得简单易懂,但还是绕不开一些专业术语和技术描述。希望这部分不会给您带来思想负担,看不懂也没关系,就像开车不懂发动机,也不妨碍您享受驾驶的乐趣。后面的内容则是我们基于对画面风格的分类,利用提示词指挥AIGC工具生成画面的具体方法和案例。本书写作的风格比较平实,注重实验性和实践性。希望我们粗浅的研究能启发您生成更加优美的图片。
本书是我写得最快的一本书。首先感谢徐涵、沈毅两位师弟为我提供了写这本书的灵感和勇气;然后要感谢印隽老师在理论和设计实践方面的引导;感谢早期参与进来的八位学生——徐建华、金安安、魏堃、蒋依林、李朋卉、韦宇棒、蔡文浩、姜宇航,他们协助我搭建了初步的研究框架;感谢于春雨两个月来耐心工作,制作了本书的图片;还要感谢我团队的孔莹、杜文锦和郭聪儿三位老师,她们全程参与了研究和写作的过程,在AIGC领域对我们团队美学定义的能力进行了一次有益的操练。最后还要感谢挚友陈蔚武老师全程辅导本书图像的生成和文字的撰写,帮我们把控住了图文的逻辑和美感。
希望本书能给大家带来一些启发。
傅炯
2024年1月9日
AIGC指通过人工智能技术自动生成内容。从定义上看,AIGC 既是一种内容形态,也是内容生成的技术合集。狭义上看,AIGC是继 PGC(Professional Generated Content,专业生产内容)与 UGC(User Generated Content,用户生成内容)之后的一种内容形态,即利用人工智能技术生成的内容。广义上看,AIGC 指的是自动化内容生成的技术合集,基于生成算法、训练数据、芯片算力,生成包括文本、音乐、图片、代码、视频等在内的多样化内容。
AIGC 起源于 20 世纪 50 年代。经过多年发展,2022 年,AIGC 产品集中发布,引发社会广泛关注。
AIGC 起源于 20 世纪 50 年代,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Issacson)完成了历史上第一个由计算机创作的音乐作品《依利亚克组曲》( Illiac Suite)。1966 年,约瑟夫·魏岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colby)共同开发了世界第一款可进行人机对话的机器人“伊莉莎”(Eliza),可通过关键字扫描和重组完成交互任务。80 年代中期,IBM 基于隐马尔可夫模型(Hidden Markov Model,HMM)开发了语音控制打字机“坦戈拉”(Tangora),坦戈拉能够处理约 20000 个单词。80 年代末至 90 年代中期,由于高昂的成本无法带来可观的商业变现,各国政府纷纷减少了在人工智能领域的投入,AIGC没有取得重大突破。
20世纪90年代至21世纪初,AIGC领域进入沉淀积累阶段,AIGC逐渐从实验向实用转变,但受限于算法瓶颈,效果仍有待提升。直至2006 年,深度学习算法取得重大突破,同时期图形处理器(Graphics Processing Unit,GPU)、张量处理器(Tensor Processing Unit,TPU)等算力设备性能不断提升,互联网使数据规模快速膨胀,为各类人工智能算法提供了海量训练数据,因此,人工智能取得了显著的进步。2007 年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)装配的人工智能系统通过对公路旅行中的一切所见所闻进行记录和感知,撰写出小说《1 The Road》。作为世界第一部完全由人工智能创作的小说,其象征意义远大于实际意义。其整体可读性不强,拼写错误、辞藻空洞、逻辑不严谨等缺点明显。2012 年,微软公开展示了一个全自动同声传译系统,该系统可以基于深层神经网络(Deep Neural Network,DNN),自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术转化为中文语音。
2010 年以来,伴随着生成算法、预训练模型、多模态技术的迭代,人工智能技术在多个领域快速发展,人工智能生成的内容逐渐逼近人类水平。2014 年,伊恩·古德费洛(Ian Goodfellow)提出的生成对抗网络(Genrative Adversarial Network,GAN)成为最早的 AI 生成算法。2017年,一种完全基于注意力机制的新神经网络架构横空出世,该架构被称为 Transformer。在这之后,基于流的生成模型(Flow-based Model)、扩散模型(Diffusion Model)等深度学习的生成算法相继涌现。2017 年,微软人工智能少女“小冰”推出了世界首部 100%由人工智能创作的诗集《阳光失了玻璃窗》。2018年,英伟达发布的 StyleGAN 模型可以自动生成图片,其使用的第四代模型StyleGAN-XL生成的高分辨率图片,依靠人眼已经难以分辨真假。2019 年,DeepMind 发布了DVD-GAN 模型用以生成连续视频,对草地、广场等明确场景的表现十分突出。
各类AIGC产品随着算法技术的应用逐步成熟,进入百花齐放的新时期,多款效果令人惊艳的产品诞生,并引发广泛关注。2021 年,OpenAI 推出了DALL·E,并于一年后推出了其升级版本 DALL·E 2,主要应用于文本与图像的交互生成,用户只需输入简短的描述性文字,DALL·E 2 即可创作出相应极高质量的卡通、写实、抽象等风格的绘画作品。2022 年 8 月,Stability AI 发布 Stable Diffusion 模型,为后续 AI 绘图模型的发展奠定基础。AI绘画工具Midjourney于2022年3月首次亮相,同年8月迭代至V3版本,并开始引发广泛关注。由 Midjourney 绘制的《太空歌剧院》在美国科罗拉多州艺术博览会上获得“数字艺术”类别的冠军。2022 年 11 月,OpenAI 推出基于 GPT-3.5 与 RLHF(人类反馈强化学习)机制的 ChatGPT,推出仅两个月,日活跃量已达 1300万。2023年2月7日,谷歌正式发布 AI 对话系统 Bard。2023年2月7日,百度宣布将发布大模型“文心一言”。世界范围内多款AIGC产品纷纷上市。
在了解AIGC的发展历程后,本章将简单介绍几个国内外出色的生成式绘画工具,帮助大家快速了解这些工具的特性,在创作中选择适合自己的工具,顺利开启AIGC绘画之旅。
● Midjourney
Midjourney是一个由同名研究实验室开发的人工智能程序,可根据文本生成图像,如下页图所示。它于2022年7月12日进入公开测试阶段,用户可透过Discord平台的机器人指令进行操作。Midjourney使用逻辑简单,技术要求相对较低,对刚入门AI绘画的新手友好。用户只需要在Discord平台中发送命令或图片及命令,即可生成具有艺术性和高级感的图片,可选风格多样。但图片调整空间有限,暂不可配合外部插件使用,可操作性弱于Stable Diffusion。
● Stable Diffusion
Stable Diffusion是一款深度学习文本生成图像的模型,于2022年发布。它是一种潜在变量模型的扩散模型,基于由慕尼黑大学的CompVis研究团体开发的生成性人工神经网络研发。初创公司Stability AI、CompVis与Runway共同推动了它的诞生。Stable Diffusion的代码和模型权重已公开发布,可以在大多数配备有适度GPU的电脑硬件上进行本地部署。它主要用于根据文本的描述产生详细图像,也可以应用于其他任务,如图生图、内补绘制、外补绘制,以及基于图片内容反推生成提示词等,并且插件等外部拓展丰富,可操作性较强。
● DALL·E3
DALL·E3是一个可以通过文本描述生成图像的人工智能程序,于2022年由OpenAI发布。DALL·E3可以配合GPT大语言模型运行,生成相应的图片,并可使用自然语言对话的形式对生成的画面进行调整。
● Imagen
Imagen是谷歌推出的一款文本到图像的生成式模型。该模型可以根据给定的提示词,生成高度契合文本含义且具有照片般真实感的图像。 2023年10月,谷歌宣布产品更新,用户如今只需要在搜索框中输入提示词,就能直接开始生成图像。同时,生成功能还被置入谷歌图片探索功能之内,如果在谷歌搜图中没有找到心仪的图片,通过单击搜索框下方的“Greate something new(生成新作品)”按钮,即可生成一张新的图片以满足用户的寻图需求。
● 文心一格
文心一格是基于百度文心大模型的AI艺术创作辅助平台,于2022年8月19日发布。用户只需简单地输入一句话,并选择方向、风格、尺寸,文心一格就可以生成相应的画作。文心一格还能推荐更合适的风格效果,能自动生成多种风格的画作供用户参考。
● 即时设计
即时设计推出的AIGC作画插件,能让没有任何美术或设计功底的用户轻松创作图片。用户只要在即时设计中打开“即时 AI”, 描述自己想要的画面,再构建基础图形、控制颜色、调整布局,平台就能根据用户给出的信息,快速生成相应的图片。
● 神采PromeAI
神采PromeAI的主要功能是草图渲染,可通过上传一张线稿图来生成建筑或室内设计的效果图,草图渲染有五大场景可选择,不需要任何关键词和复杂的参数即可实现创作。用户不需要学习使用就能上手操作,出图速度快。除了线稿转效果图,还有图片转线稿功能。
生成式绘画工具能形成的图片风格和艺术效果广受赞叹。它是如何绘制作品的呢?为何生成式绘画工具生成的图片有时令人惊艳,有时却又不尽如人意?为了更好地把控生成的画面,在使用生成式绘画工具之前,我们需要对生成式绘画的底层技术有一些基本了解。
因为部分生成式绘画工具,如Midjourney尚未开源,外界很难获取其具体架构。但行业中生成式绘画工具的底层技术基本一致,接下来,本章就以已经开源的生成式绘画工具Stable Diffusion为例,简单讲解一下生成式绘画工具的实现逻辑。 Stable Diffusion是一个由多个组件和模型组成的系统,它是在CLIP模型的基础之上,将扩散模型等其他模型组件融合而来的。下图是以Stable Diffusion为例,描述了其整个工作流程的底层技术逻辑。
我们可以用一个具象的比喻帮助大家理解。Stable Diffusion就像一个预先受过专业训练、经验丰富的“大厨”,它以用户输入的自然语言形式的提示词为“食材”,用其内置的文本编码器(Text Understander)进行“备菜”,通过图形信息创建器(Image Information Creator)进行“烹饪”,再借助图形解码器(Image Decoder)进行“摆盘”,最终,大厨得以呈现一桌“美味佳肴”。这个比喻很好地概括了生成式绘图模型利用文本生成图片的总体过程。
这里需要着重解释的是Stable Diffusion这类模型的“秘诀”,也就是扩散模型(Diffusion Models),它是“大厨烹饪”得以实现的底层技术,它揭示了机器模型的作图原理。扩散模型是一种基于Transformer技术的概率模型,它的训练逻辑就是通过连续向原数据添加高斯噪声(加噪)来破坏训练数据,然后通过回溯这个加噪过程(去噪)来恢复原数据,并在这个过程中学习。
扩散模型总体包括两个过程,其一是加噪过程:采样一段数据(例如图像),并随着时间的推移逐渐增加噪声,直到数据无法被识别,并求出最大似然估计;其二是逆向的去噪过程:尝试将原始图像进行形式复现,在此过程中模型会通过神经网络学习如何生成图片或其他数据。通过基于扩散模型的深度学习链路,计算机能够实现对图片内容的识别与“理解”。
Stable Diffusion这类模型,在向公众发布之前利用海量数据进行了预训练,这意味着模型已经储备了大量图片的特征知识。在用户输入一段提示词之后,提示词会被文本编译器转译为计算机语言。这时,Stable Diffusion模型会直接调用数据库中的预训练数据,以转译后的提示词内容为蓝本,从一个浑然的噪声区域开始,逐步减噪、调整,最终形成画作。生成式绘画模型这位“大厨”的“享饪”过程,即是一个扩散的过程。
AIGC具备真实、多样、可控、可组合的特点,能够有效提升企业内容生产的效率,为其提供更加丰富多元、可交互的内容。数字化程度高、内容需求丰富的行业,如营销、零售、娱乐等领域,依托AIGC技术,有望率先实现跨越式的创新发展。
在营销领域,AIGC技术可以极大地拓展营销创意人员的创作边界,辅助创意人员高效完成海量信息的收集、聚合、归纳,通过分析大量创意作品和设计趋势,生成创新的设计概念和建议,为营销创意人员提供灵感和方向。并且,AIGC产品可以通过理解企业和品牌的风格和需求,自动生成符合要求的视觉传达作品,做到根据反馈信息快速调整作品样式,助力品牌各类视觉物料的产出。同时,通过AIGC技术多元可变和高效产出的特性,传统的单向的广告输出可能会演变成一种生动鲜活、双向互动的交互场景,广告能够根据用户反馈实时更新展示内容,这将为互动营销、个性化营销带来全新可能。
在零售领域,AIGC 技术可以帮助企业加速商品、卖场3D化构建,生成商品的 3D模型和纹理质感,使消费者能在网购中最大限度地体验实物,提升转化率。而基于视觉、语音、文本的生成式技术,品牌商能够以低成本创建品牌虚拟IP形象,虚拟形象的可控性与安全性比真人代言更高,并且能够拉近与消费者的距离,为品牌塑造独特的价值和故事,提供传播价值。可以预见,AIGC技术正在加速多感官交互的沉浸式购物时代的到来。
在娱乐领域,通过AIGC技术为用户提供多元的图像生成体验,比如AI换脸、AI风格化滤镜,能极大地满足用户的猎奇心理,激发用户参与、分享的热情。通过AIGC技术,用户可以拥有更大的创作自主权,可以定义和设计自己的线上形象和角色,在多领域体验活动和参与活动共创。未来,AIGC技术将进一步推进虚拟技术与人们的生产生活相融合,并将带动虚拟商品经济的发展。
除以上行业之外,教育、金融、医疗、工业等各行各业的 AIGC 应用也都在快速发展。教育领域中,AIGC 赋予教育工作者更加丰富的表达手段,他们可以用更加生动、更加直观的方式向学生传递知识。各类虚拟教师可能会出现在公众的视野之中,数字教学可以更快地普及开来。医疗领域中,AIGC可以提高医学图像质量,识别基础图像信息,为医生的诊断提供支持,从而解放医生的时间和精力,让他们更专注于治疗工作本身。虚拟康复师等职位也可能应运而生。工业领域中,将AIGC融入计算机软件进行辅助设计,能够提升自动化水平,减少重复、耗时和低层次的任务。AIGC支持生成式设计,能为工程师和设计师提供灵感,同时可以将丰富的变化引入设计,实现各种状态的动态模拟,从而有效提升生产效率。
再谈谈个体职业层面。随着AIGC技术能力的不断迭代升级,AIGC工具正在快速降低内容的创作门槛、释放个体的创作能力,这将引发内容创作范式的深刻变革。虽然以ChatGPT、Midjourney为代表的生成式技术逐渐成熟,创作一幅视觉作品的难度大幅降低,然而精准地凭借 AIGC技术生成高水平的作品,却并非易事。由此也衍生出了一个“专门向AI提问”的职业——提示词工程师(Prompt Engineer)。
新兴职业提示词工程师所需要做的,就是熟练地使用各种AIGC工具,将复杂的任务拆分成AI能识别的语言,精准提出各类需求,并不断凭借AI的反馈提升作品生成效果。有人已经在这一波技术浪潮之中分得了“一杯羹”。2022年11月,美国硅谷的莱利·古德赛德(Riley Goodside)凭借自学AIGC工具摸索出的提示词技巧,入职人工智能独角兽企业Scale AI,可能是业内“第一个被招聘的提示词工程师”,据估算,他的年薪可能超过人民币一百万元。
但对于提示词工程师这一职业,社会各界仍然存在各种争议。有观点认为提示词工程师是训练人工智能过程中临时出现的一个工种,将会在程序不断自我完善的过程中成为过去式。未来,使用AIGC工具,与AI更好地交流,会成为每个人必备的技能。
也有观点认为,提示词工程师这类岗位的出现,是技术精英化的必经之路。AIGC工具的出现固然大大降低了图像创作、影视创作,甚至3D建模创作领域的门槛,毫无技术或艺术学习背景的人也能够高效地创作属于自己的作品。但持续创作高品质、高品位的作品对创作者的复合能力提出了更高的要求。这一观点在求职市场的用人需求中已有所体现。在当下这个时间节点,以及不远的未来,各类AIGC大模型还会持续演化,许多企业对提示词工程师的编程能力仍有较高的期待。许多企业认为,一个优秀的AIGC工具使用者不仅需要理解自然语言,也需要理解编程语言。
很多尝试过生成式绘图工具的创作者也会发现,生成一幅真正优质的作品,除了一点点运气之外,还需要大量知识的储备。比如,如果在绘图提示词中加入焦距、光圈等摄影领域的专业词汇,可能瞬间会得到一张摆脱了平庸质感的作品。这其实就要求创作者在输入提示词时,对摄影知识有一定的了解,才能帮助机器更好地生成自己期待的作品。
那么,下一个时代的创作者需要具备什么能力,才能在创意产能大爆炸的市场中赢得竞争力呢?
如今的AIGC工具都借助海量预训练数据进行了训练,AIGC工具可输入提示词的丰富性远超创作者个体的想象。一个优秀的创作者不只需要了解一定摄影知识,对于光科学、材质种类、艺术手法、艺术流派、艺术题材,乃至当下的艺术流行趋势等各方面的知识都需要有一些基本的涉猎。这也侧面印证了这样一个趋势——在AIGC技术逐步普及的时代背景下,“技术大牛”与“业务专家”之间的边界会逐渐模糊。技术水平、业务能力、学术背景、研究能力,甚至个人品位等诸多因素已经形成了水桶效应,并将直接影响AIGC作品的效果。这些也决定了AIGC人才必然是跨界的、复合型的高级人才。
同时,我们也要看到,虽然AIGC工具极大地降低了艺术创作门槛,但多数AIGC作品仅仅能够反映视觉艺术的平均水平。正因为作品产出效率大大提升,没有成熟的生成策略和对艺术作品的美学定义能力支撑,生成的作品趋于同质化、品质流于庸俗的情况将难以避免。
在视觉产出的创作时间与人工成本趋近于零的时代到来之际,可以预见,美学定义能力将会成为未来个人创作者的核心竞争力。
美学定义是指设计师对画面美学的定义能力。美学定义包括以下三大要素的定义。
● 审美要素定义:如对造型、色彩、光与材质的定义。
● 风格要素定义:如对艺术流派和流行趋势的定义。
● 应用方向要素定义:如约定作品应用于插画、游戏等哪个领域。
本书将会详细介绍美学定义所涉及的三大要素的具体内涵,提出视觉细分可能性,以具体的生成式图片作品为案例,详细解释每张例图的美学定义思路,并提供对应的提示词供读者参考,为读者生成图片时的实际操作提供指引。
本书将用美学定义的视角,向读者讲解美学定义知识,拓宽创作思路。这种综合性的优质信息将大大提升读者对审美表现丰富度的认知,避免创作时陷入同质化陷阱。同时,本书能够为培养高水准的美学定义人才提供方向,为产出审美优秀、内容精致的生成式艺术作品提供启发。
设计正从创意时代进入定义时代。AIGC技术能有效提升团队沟通效率,帮助理清需求、明确设计方向,并极大地拓展方案的可能性,同时助益视觉方案产出效率的提升。而拥有优秀美学定义能力的设计师、营销人员和艺术创作者,必定能够在AIGC技术加持下,在未来的工作中大放异彩。