书名:写给大家看的Midjourney设计书
ISBN:978-7-115-62611-0
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 范东来
责任编辑 杨海玲
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
这是一本人人都能读的Midjourney设计书。全书分为4章:第1章介绍Midjourney及其社区、交互方式和按钮的作用;第2章围绕Midjourney的以文生图这一核心功能展开,通过大量的案例讲解重要命令和参数,以及主体、行为、光照、风格、视角、色调等常用的提示语元素,最后结合这些元素总结出一个提示语的通用模板;第3章通过不同种类、不同风格的案例主要讲解视觉传达设计工作中经常遇到且能产生经济效益的八大场景——标志设计、摄影、动漫、建筑景观、室内设计、插画、产品设计、风景;第4章介绍Midjourney的一些高级功能,如垫图、多重提示、叠图等。
本书包含大量用Midjourney生成图片的实践案例,涉及数百个具有代表性的提示语,能够让读者举一反三,适合对Midjourney感兴趣的大众读者阅读。
2016年AlphaGo战胜了围棋世界冠军、职业九段棋手李世石,这意味着人类智力游戏的最后一道壁垒被攻破。与此同时,学术界与工业界开启了人工智能(AI)能力竞赛,资本与人才大量涌入AI领域。人们讨论什么样的工作会最后被AI替代,得出的结论是与创意有关的工作,如与程序开发或者艺术相关的工作。
在AlphaGo战胜李世石6年后,ChatGPT横空出世,带给人们的震撼比6年前有过之而无不及。这一次事情有了变化。除了ChatGPT的对答如流让人惊叹,AIGC(AI生成内容)相关产品的推出和更新迭代更是令人目不暇接,有通过文本生成图片的Midjourney、DALL·E 2、Stable Diffusion等,也有通过文本聊天甚至语音聊天方式生成代码段的GitHub Copilot X。一夜之间,仿佛最后才会被AI替代的工作却有可能最先被替代。
与ChatGPT不同,Midjourney是一个专注于通过文字生成图片的AIGC产品,也是目前生成图片质量非常高的工具。Midjourney 4与ChatGPT同年发布,2023年3月发布了Midjourney 5,Midjourney 4与Midjourney 5在业界引起了巨大的反响,生成的图片质量之高已经不得不让人思考人类画师应该何去何从。此时,作为对视觉传达设计或者对Midjourney感兴趣的你,需要直面Midjourney给行业带来的影响和机遇。一方面,Midjourney作为跨时代的产品,却拥有极为简单的交互方式——自然语言,这极大地降低了视觉传达设计相关工作的门槛,AI渲染的画作势必会大量出现;另一方面,Midjourney并不像有些人所说的会让创意变得廉价,相反它是一个极好的自我表达工具,可以在一分钟内将你的创意变成高质量的画作,而不会受限于作品类型、你的绘画水平和专业领域。毫不夸张地说,Midjourney已经改变了这个行业的工作方式,而随着它不断进化、发布新版本和功能,它将持续改变,直到彻底改变这个行业。
作为一名技术爱好者,我最初是因Midjourney的惊艳效果而想去探索其底层原理,随着体验愈加深入,其简单的交互方式和大量快速反馈的结果让我愈加乐在其中。在积累了数千张图片生成和优化的经验之后,我决定将这些经验总结成一本书,一本作为零基础的我在开始使用Midjourney时也想看到的书,也是人人都能看的Midjourney设计书,希望这本书能带领读者从零开始逐步了解Midjourney并能够深入使用,能让读者在这个过程中感受到Midjourney带来的惊喜和感动,更能帮助不同背景的读者去发掘自己的才能,挥洒自己的创意。为了方便读者理解,本书不但在Midjourney输出的图片下方提供英文提示语,而且在其后附上了对应的中文。
在完成这本书时,我的女儿葡萄刚满一岁,很遗憾她还不能通过Midjourney向我表达她脑海中的快乐、悲伤、幻想与期待。如果有可能,正在翻阅此书的你,不妨带着孩子一起来尝试,或许会有不一样的体验。
Midjourney的创始人戴维·霍尔兹(David Holz)曾经表示,Midjourney的名称来源中国典故“庄周梦蝶”,其中包含“中道”的理念。他说:“我们就生活在旅途中,我们来自丰富和美丽的过去,而在我们面前的,是疯狂和难以想象的宝贵未来。”
祝大家玩得愉快!
范东来
2023年7月于北京
即使之前对Midjourney没有任何了解,阅读完本章之后你也能做好使用Midjourney生成精美图片所需的准备。让我们开始吧!
an infographic of tea magic: green tea, peppermint, chamomile, hibiscus, black tea, ginger, white tea, cinnamon, matcha, chai
茶魔法信息图:绿茶,薄荷,洋甘菊,木槿花,红茶,姜,白茶,肉桂,抹茶,茶
Midjourney是目前非常流行的AI绘图工具,主要功能是通过文字生成图片。Midjourney于2022年7月12日进入公开测试阶段,比ChatGPT还要早几个月,因其具备极高的图片质量和独特多变的艺术风格,一经推出便引起了业界的热烈讨论。从短期技术革新的角度来看,Midjourney会替代一部分人类画师的工作;从长期来看,Midjourney真正做到了解放思想,它让非凡的创意火花得以变成真正的作品,是一种对文化的重塑和对艺术的增强,相信读完本书读者会有自己的体会。
Midjourney公司是一家小而美的公司,目前只有十几名员工,其资金来源主要是自筹,创始人戴维是一名连续创业者,也是著名体感控制器Leap Motion(于2019年被竞争对手收购)的创始人。目前,Midjourney依托于社交媒体平台Discord提供服务,所以想要使用Midjourney就要先熟悉Discord。Discord是一款极富魅力的社交媒体产品,是美国年轻人常用的社交媒体之一。关于Discord值得单独写一本书,本书不过多介绍,只聚焦如何在Discord中使用Midjourney。
如果你还不是Discord的用户,需要先打开Discord网站,点击页面右上角的“Login”按钮进行注册,并完成后续的验证(无须下载Windows或者Mac版本)。
注册成功后会进入Discord,可以看到下面这个界面。
在Discord中,服务器是一个特有的概念,类似于社交软件中的群组,也可将其称为一个社区。要使用Midjourney,需要先加入它的服务器。上页图左侧标注数字1的矩形框内罗列了我已经加入的服务器,如果你是刚刚加入Discord,这一栏是空的。要加入新的公开服务器,需要点击上页图左下角标注数字2的矩形框内指南针形状的绿色图标,进入公开服务器的搜索页面。不出意外的话,Midjourney应该是主页推荐的第一个社区。点击白色帆船图标所代表的Midjourney社区,就能进入Midjourney服务器。
如果你是第一次进入,点击“加入服务器”,就会看到下面这个界面。
现在引入Discord的第二个概念——频道。在一个服务器里可以有多个频道,每个频道通常都有自己的主题。频道的概念又将社区人群进一步细分,这其实很符合Discord最初作为游戏社区的定位,新手往往不想在老手群中发问,他们需要自己交流的频道。根据主题的相似性,频道又被分为若干个频道组,如试用支持和会员支持都属于支持频道组。服务器栏右边的列表就是频道组(如下页图中标注数字1的矩形框所示)。点击NEWCOMER ROOMS 3频道组中的newbies-104频道(如下页图中标注数字2的矩形框所示),就可以加入为新手准备的频道。
用户可以在上图最下方的输入框中输入任何文字,需要注意的是,该频道的所有用户都能看到你发送的文字。
2023年3月28日,Midjourney在announcements频道宣布暂时停止免费的AI绘图功能,所以目前要想体验Midjourney的文生图功能,需要在基础计划(Basic Plan)、标准计划(Standard Plan)、专业计划(Pro Plan)和Mega计划(Mega Plan)中选择一个订阅。这4个订阅计划提供的服务的主要区别如下表所示。
Midjourney |
订阅价格 |
生成图片 |
用于慢速 |
用于快速 |
同时运行快速生成 |
隐身 |
---|---|---|---|---|---|---|
基础计划 |
10美元/月 |
200张/月 |
— |
— |
3 |
— |
标准计划 |
30美元/月 |
无限制 |
无限制 |
15小时 |
3 |
— |
专业计划 |
60美元/月 |
无限制 |
无限制 |
30小时 |
12 |
有 |
Mega计划 |
120美元/月 |
无限制 |
无限制 |
60小时 |
12 |
有 |
注:任一计划按年支付均可享受80%的优惠。
通过对比这4个订阅计划可以发现以下几点。
● 基础计划最便宜,但每月只能生成200张图片,很难完整体验Midjourney。
● 标准计划是一个不错的选择,它不限制生成图片的数量。如果对图片生成速度没有要求,等同于可以无限生成图片。如果对生成图片的速度有要求,标准计划也提供了15小时用于快速生成图片的时间。在Fast模式(Fast mode)下,运行一次生成图片作业需要50 ~ 60秒,计划内提供的15小时对一般用户来说已经足够。
● 专业计划相比标准计划价格贵了1倍,除了快速生成图片的时间额度增加了1倍,运行的快速生成图片作业数量从3个变为了12个。同时,专业计划增加了隐身模式(Stealth mode),支持不让别人看到你生成的图片。专业计划适合那些需要大量出图并对出图速度比较敏感的用户。
● Mega计划提供了最多的快速生成图片时间(60小时),当然也是最贵的。
总的来说,基础计划最便宜,但是有生成图片数量的限制,标准计划和专业计划都能无限出图,其中标准计划性价比最高,适合大多数用户。另外,在计划内用于快速生成图片的时间用完后,用户可以通过4美元/小时的价格继续购买。
选好订阅计划后,进入newbies-104频道,在对话框中输入“/subscribe”,即可获得订阅计划的链接。
成为Midjourney的付费用户后,你就可以在Midjourney的频道里与Midjourney Bot交互生成图片了,不过,频道中的所有人都会实时看到你与Midjourney Bot交互的过程。如果不想如此,需要将Midjourney Bot添加到你自己的私信列表中。点击第14页所示图片左上角的手柄形状的图标,旁边会出现“寻找或开始新的对话”输入框,点击该输入框后会出现一个搜索界面,输入“Midjourney Bot”将Midjourney Bot添加到自己的私信列表中,就不用在公共频道与Midjourney Bot交互啦!
现在,我们已经具备了使用Midjourney的所有条件。本节将带读者一起体验Midjourney的文生图功能,并学会对作品进行调整(variation)、升频(upscale)、放大(zoom out)、扩展(pan)和保存(save),这些交互方式是使用Midjourney的基础。
要使用文生图的功能,只需要在频道和私信会话中输入“/imagine”,并在后面输入提示语,这样就可以触发图片生成任务。简单来说,在Midjourney中提示语就是想生成图片的文字描述。读者刚开始接触Midjourney时,可以大胆描述脑海中的场景,而不用拘泥于形式。
如果想生成雄鹰飞过海面的图片,只需要输入“/imagine an eagle flying over the sea”,Midjourney生成的图片会在一分钟内出现在会话中。
这幅四格的图片网格就是目前Midjourney给出的反馈方式,每格都是Midjourney根据提示语生成的候选结果图片。这4张图片下有2行按钮,其含义如下。
第一行的前4个按钮“U1”“U2”“U3”“U4”,代表可以对图片进行升频,功能是将图片放大,生成所选图片的更清晰版本并平滑细节,图中的一些小元素可能会发生变化;第五个按钮是重新生成按钮,功能是重新生成四格图片,它会重新运行一个任务,即根据原来的提示语重新生成一个新的图片网格。
第二行的4个按钮“V1”“V2”“V3”“V4”,代表可以对图片进行调整,功能是对所选网格图片进行细微调整,创建一个类似于所选图片整体风格和构图的新图片网格。
如果读者对第二张图片比较满意,可以点击按钮“U2”对第二张图片(第一行第二列的图片)进行升频操作,生成的单张图片如下图所示。
进行升频操作后的图片,除了细节相较于原图有所提升,图片的分辨率达到了1024×1024。如果想基于该图进行一些调整,可以点击上图中的“Vary(Strong)”或“Vary(Subtle)”按钮,调整结果也是一个类似于第17页中的图片网格。点击“Vary(Strong)”按钮调整的幅度大于点击“Vary(Subtle)”按钮,这种对调整幅度的控制是Midjourney 5.2的新功能。
点击上页图中的“Web”按钮,会跳转到Midjourney后台。
如果你想对该作品再做些修改,或者希望将该作品下载到本地,点击上图下方的磁盘形状的按钮即可得到一张分辨率为1024×1024的图片。这是得到该作品最大分辨率的数据文件的标准做法。
如果你想对第17页所示图片网格的第二张图片进行调整,点击“V2”按钮就可以产生一个新的图片网格。这种调整带有一定的随机性,但是随机往往会给你惊喜。
如果你想重新生成一个图片网格,点击第17页所示图片的第一行第五个按钮即可。可以看到,Midjourney非常鼓励对中间结果进行微调,加入了很多调整选项。调整也是得到一张满意图片的必经之路。需要注意的是,无论是对网格图片的升频还是调整,都算作一次新的图片生成,基础计划中包含的200张/月的图片生成额度很快就会用完。
第18页所示图片中还有3个放大按钮“Zoom Out 2x”“Zoom Out 1.5x”和“Custom Zoom”,分别对应2倍率、1.5倍率和自定义倍率,这也是Midjourney 5.2中新增的有趣功能。它的功能是放大图片展示区域,与Photoshop beta版中的生成式填充(Generative Fill)功能类似。“Zoom Out 2x”的展示效果如下图所示。
整张图片的展示面积被放大,原来图片中主体被相应缩小,扩大的面积Midjourney也做了填充。细心的读者可能已经发现,这张图片2倍速放大后的图片还可以继续进行(无限次)放大。该功能在很多需要完成视频中丝滑转场效果和对画面进行无限伸缩时会非常有用,例如生成长镜头的视频。
除了放大功能,Midjourney 5.2还提供了一个有趣的功能——扩展图片。它的功能是根据指定的方向扩展图片展示区域。连续点击第18页所示图片中向右的方向键,就可以得到扩展后的图片。
可以看到,扩展后的图片仍然按照提示语的要求重复了之前的图案。这意味着,只要在扩展时修改提示语就能改变扩展的内容,第2章的“调试好帮手”一节中将会介绍如何实现这一效果。
生成的图片保存于Discord的聊天记录中,在大多数情况下,不想要的图片可以放在那里不管。想要删除一张图片,可以右键点击该图片,添加“反应”进入表情选择框,输入“x”后选择红色的叉就可以删除该图片结果。删除后的图片结果将不会出现在会话中,也不会出现在Midjourney后台的相册中。
在正常情况下,要使用Midjourney只能使用Discord,但是一些特殊的行为(如订阅付费计划、下载图片)会跳转到Midjourney官网。除了订阅和下载,Midjourney后台还提供两个重要的功能,即私人相册和社区画廊。如果你觉得通过Discord聊天记录查看作品有些不方便,可以登录Midjourney官网,进入后默认就是你的私人相册。在这个相册里,你可以查看自己生成的所有图片,无论是图片网格还是放大后的结果。在相册页面,可以单张下载和批量下载图片,也可以按照时间线打包下载图片。读者可以自行探索。
另外,读者还可以通过Explore查看社区的优秀作品来汲取灵感。
从产品体验来说,Midjourney看似被Discord和Midjourney后台分成两部分,这对于一个现象级产品似乎不太应该,但这正是Midjourney的高明之处。不要忘了,Midjourney现在还是一个只有十几个人的创业公司,而Discord拥有全球非常优质的年轻用户资源,其交互体验有口皆碑,社区也极度活跃。Midjourney作为一款魅力十足且具备病毒式传播特质的产品,选用Discord提供服务可谓是借助了Discord的全部优点,将成本用在了最值得投入的领域,充分体现了戴维作为成熟创业者的特质,这一点非常值得我们学习。
在2023年5月中旬,Midjourney在QQ频道开始内测,提供中文版Midjourney服务,中文版具有全中文用户界面并且支持中文提示语,目前只接受少部分人申请进入体验。作为第一批加入内测的用户,我完整体验了中文版的功能,目前Midjourney中文版的交互体验与Midjourney on Discord有一定的差距,有些功能还有缺失,如社区画廊。对于比较重要的模型版本参数,Midjourney中文版和官方Midjourney保持一致,但是其特性的更新略慢,例如,Midjourney 5.2更新已经有些日子了,但放大功能还是没有更新。另外,Midjourney中文版对中文提示语的理解仍有提升空间。
为了提供更好的阅读体验,本书除了为每张Midjourney生成的图片提供英文提示语,还会提供其对应的中文,这么做也是方便读者后续无缝衔接。但就像开源软件一样,目前在Discord社区与Midjourney Bot交互使用的提示语是英文,意味着大量的创意会使用英文来描述。可以预见,英文将是使用Midjourney非常重要的语言。