书名:推荐系统:产品与算法解析
ISBN:978-7-115-63543-3
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 王 超
责任编辑 贾 静
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
本书以媒介变迁为整体脉络,通过几类推荐产品的发展趋势来探讨推荐产品创新的核心驱动力,以及由具体产品特性引发的技术变革。
全书内容分为5部分。第一部分从宏观视角探讨推荐产品从0到1进行创新的产品思路和技术思路;第二部分介绍革新传统纸质媒介的新闻推荐和资讯推荐,包括关键算法设计和产品设计;第三部分介绍构建线上社交网络的社交和社区推荐,以及如何通过协同过滤算法模拟社交网络;第四部分从产品、生态和算法设计的角度,介绍革新传统影视行业的视频推荐;第五部分以阿里推荐产品及其新兴的竞争产品为例,介绍革新传统货架电商的商品推荐。
(以点评人的姓氏拼音为序排列)
推荐系统是机器学习技术应用最为广泛的场景之一。本书结合推荐技术的产品特点深入探讨了推荐系统的不同范式和技术创新方法,建议结合机器学习算法一起阅读和思考。
陈天奇 卡内基梅隆大学机器学习系、计算机科学系助理教授
王超作为推荐系统领域的“老将”,在他以往的工作中有着丰富的实战经验,这也让这本书与推荐系统领域的很多书籍有着很大的区别。本书富含在实际业务中总结的思考,不仅包含较新的算法,也包含大量提升产品核心指标的思路。这一点非常重要,也是很多技术人容易忽略的。本书将关键的推荐技术围绕产品中重要的业务问题来组织,非常值得从事推荐相关工作的技术人员阅读。
陈雨强 第四范式联合创始人
搜索、广告与推荐,三引擎主网互联。
术层面上道显现,洞见藏在书里边。
围绕推荐此书编,溯源领域三十年。
秩序迭代坍塌演,遍地开花耀今天。
洪涛 前百度高级科学家
本书超越了人们通常只对推荐系统技术层面的思考,更进一步触及其背后的“道”,也就是已经在互联网商业领域广泛影响消费者生活的运算逻辑的规律性本质,并预测其发展趋势。算法、模型、数据和产品,都不过是对这个“道”的某种注释。作者更希望带领大家关注的,是这项于己孜孜以求、于人日享其用的技术如何在新一轮的产业升级浪潮中取得产品创新;是每一个精进此术的从业者如何在日新月异的业务挑战中不断拓宽技术视野。相信每个细心阅读、认真思考本书的读者,都会收获一份对推荐系统恍若初见的感觉。
蒋凡 中国计算机学会大数据专家委员会执行委员
《智能增长》作者、《推荐系统》译者
本书并不是一味地枯燥罗列各种推荐算法,而是站在推荐产品经理的视角,结合内容供给、用户冷启和增长、分发效率、传播场景、内容载体等多个维度来引出作者对各种推荐算法的深刻理解,娓娓道来,深入浅出,强烈推荐!
李双龙 百度首席架构师
在《计算广告》一书的写作过程中,我跟王超的合作非常密切且愉快。时隔多日,看到他收获这本关于推荐系统的书稿时,深深为他不断前行且乐于分享的热情所打动。
本书的独特之处是,从产品的视角展开介绍推荐系统的林林总总,让初窥门径者能够顺利地跟随作者的导引了解整个领域的方方面面。在推荐技术渐成互联网显学的今天,本书从产品视角的梳理对从业者的引领和指导意义是不言而喻的。
所有对互联网背后的个性化引擎的工作原理感兴趣的朋友,都应该读一读此书。
刘鹏 CartX联合创始人,《计算广告》作者
从人找信息到从信息找人,是传播生态变革和互联网产品发展的方向,推荐就是这场变革的主引擎。该书在内容上颇具特色,以信息供需变革为主线,以主要产品类型为坐标,以常见的推荐场景与策略为焦点,使用户之“本”、产品之“用”、机制之“道”、算法之“术”得到有机融合。全书深入浅出,专业性和实用性兼备。无论是用户侧产品的开发者,还是商业化及增长、内容生态的从业者,或是对推荐感兴趣的学生,本书都值得一读。
马澈 中国传媒大学广告学院副教授
本书基于作者多年的从业经验,从产品的视角出发,阐述推荐问题的定义和相关的前沿技术,并结合实际应用案例,帮助读者更好地理解和应用推荐技术,从而掌握推荐之道。无论是相关领域的从业人员,还是高校学生,都可以从本书中获益。
马少平 清华大学计算机科学与技术系教授
学术界通常认为搜索和推荐是信息检索这枚“硬币”的一体两面,而工业界中则将搜索和推荐看成并列的两项核心技术。如果说搜索引擎只有几家大公司独领风骚的话,推荐系统则遍地开花,广泛存在于各大互联网公司的各类业务中,并发挥着重要作用。掌握了推荐技术,可以说基本把握了互联网技术的精髓所在。本书作者不仅具有丰富的业界经验,也有成功的写作出版经验,其和刘鹏合著的《计算广告》一书便是领域中的经典之作。相信这本书能再次让大家满意!
王斌 小米集团人工智能实验室主任、自然语言处理首席科学家
爱因斯坦曾说过:“所有困难的问题,答案都在更高层次。”本书就是对这一理念的践行。对于如何做好“推荐”这件事,作者并没有单从技术本身求解答案,还从信息分发的本质带你溯本求源,找到真正的破局之道。强烈推荐大家入手这本书,提高我们认知推荐系统的思维层次。
王大川 DataFun创办人
王超是计算广告和在线内容推荐领域的专家,不仅有专业知识积累,更有过往多年的工作实践。最近几年,推荐产品已经被证明是用户获取内容的高效形式,因此被各互联网公司广泛采用。本书可以为读者提供内容推荐的基础知识和实践经验,值得一读。
王昊 智联招聘CTO,前bilibili副总裁兼技术委员会主席
这本书可以说是推荐系统行业内技术结合产品的一次全面总结和全新尝试。这本书不仅向读者介绍了推荐系统技术的前沿进展,更传递了作者对不同推荐产品的个性化思考,是不可多得的一本好书。
王喆 字节跳动技术经理,《深度学习推荐系统》作者
本书从新颖的视角深入解析了推荐系统所解决的问题和发展趋势。不同于常见的以技术模块剖析推荐系统的写作风格,作者从产品视角入手,探讨了如何理解推荐系统的产品技术发展规律,以及如何应对各种机遇中的用户需求变化。
本书提出的以供给侧变革启动供需持续增长的创新洞见,跳出了对推荐系统进行静态优化的圈子,对于存量竞争中的突破给出了新的思路。对推荐系统细节的讲述,采用了以常见的几个产品方向(信息推荐、社交和社区推荐、视频推荐和电商推荐)的组织方式,结合全局思考和深度探索,分领域分析了用户需求特点、生态环境,以及如何通过技术手段满足用户需求,优化推荐产品。
相关的从业者,不管是想要理解推荐系统背后的技术发展,还是希望理解如何将这些技术应用到实际产品中或者只是对推荐系统感兴趣,这本书都能提供深入的指导和启示。
项碧波 汽车之家CTO
本书不仅深入浅出地探讨了以深度学习和强化学习等技术为核心的推荐系统解决方案设计,以及现代推荐系统的产品理论基础,还通过分析典型的信息推荐、社区推荐、视频推荐和电商推荐等实际案例,展现了这些理论是如何在实际业务中发挥作用的。作者对技术、产品和商业策略的全面理解及对这个领域的长期热爱,使得本书成为从初学者到专业人士的宝贵学习资料。对于希望在用户增长、推荐系统及相关领域有深入了解和提升的读者,本书提供了丰富的见解和实用的指导。无论你是工程师、产品经理还是商业分析师,都会在这本书中找到灵感并获得指导。
严强 前快手高级副总裁,前阿里巴巴高级算法专家
讲解推荐系统技术的书籍有很多,这些书籍大多以推荐算法为主线,缺乏对推荐产品发展内在逻辑的剖析,无法让读者做到知其然并知其所以然。
一款好的推荐产品并不应当仅优化推荐算法,还需要在产品UI、业务领域知识和优质的数据积累等环节多下功夫,才能获得产品上的成功。因此,当王超将他对推荐系统技术的理解系统性地整理成本书后,我眼前一亮:书中不仅介绍了近年来关键的推荐技术进展,也在产品层面对不少问题提出了他的思考。我觉得这本书今后会成为推荐行业从业者的必读书。
作为王超多年的朋友,我衷心为这本书的出版感到高兴!
张栋 前谷歌研究员
作为重要的人工智能(AI)应用领域,推荐系统的外在产品表现形式和内在核心技术体系一直处于动态发展中。最近两年出现了不少关于推荐系统的技术书籍,但是缺乏从更高视角审视推荐产品生态发展进程的作品,这本书填补了这一空白。
这本书的作者具备开阔的视野,能从多维度观察推荐系统并有很多真知灼见。这本书不仅讲述了推荐系统过去几十年来的产品发展脉络及其内在发展逻辑,同时也将背后相关的关键技术原理穿插其中。我本人在阅读这本书的过程中获益良多,诚挚向大家推荐这本佳作。
张俊林 新浪微博新技术研发负责人
这本书从产品和技术的双重视角讲解了推荐系统,是一本丰富而有趣的书。
张雷 小红书技术副总裁
不同于市面上的书籍主要按技术模块来组织,本书视角新颖,是按产品中的实际问题来组织的,读起来颇为有趣。书中还包含了一部分相对前沿的学术方法在推荐领域的实践探讨,是一本对初学者和有一定经验的从业者都具有参考价值的书。
张伟楠 上海交通大学计算机科学与工程系副教授
过去的十多年时间,伴随着移动互联网的普及,推荐系统成为了人们日常娱乐、资讯等消费的主要载体。但是它在利用用户碎片化时间的同时,也过度消耗了用户的注意力,使得真正深度的、持续的、专注的思考变得越来越稀缺,这是严肃的从业者都在反思的重要话题。读一读本书,你会有所收获。
朱小强 汇量科技首席人工智能官
一提到推荐系统,很多人首先想到的是一个复杂的技术系统,目前市面上关于推荐产品的书籍大多围绕于此。然而,各种拟合数据的复杂模型更多只是围绕“术”的层面,推荐产品真正的创新并不发轫于此,而是要在“道”的层面上对推荐产品的发展规律有深刻洞见,例如,在媒介变革等新机遇出现时能更准确地把握住用户需求。
因此,有别于从技术视角出发的书籍,本书主要从产品视角出发,来探讨推荐问题的定义和相关前沿技术。虽然这样组织可能看起来没有按技术方式组织炫酷,但须知创新在很多时候并非用蛮劲,而是在知晓推荐之“道”后的放松,用劲容易,放松才难。下面是贯穿全书的核心观点以及全书的内容结构。
● 未来定会出现新产品。推荐系统自1992年诞生至今,已悄然走过了三十余载,尽管如今很多成熟产品给人大势已定的印象,但深入观察,秩序建立和坍塌的力量一直无所不在。所以,正如反者道之动的道理,我相信在这个看似红海实则充满机遇的市场中,未来定会有新产品崛起。写这本书的目的也在于,希望能在推荐系统这一波浪潮中留下一点思考的痕迹,以在下个时代到来时给后人提供一些借鉴和参考。
● 容易被忽略的供需增长。与许多人将推荐系统视为供需匹配的纯技术问题不同,推荐产品大多是在洞察到用户需求的变化后,先从供给侧突破,再借助供需增长的手段来赢得先发优势,而且,越是重大的变革,越是会从更本质的媒介创新环节发起。因此本书会在第一部分阐述供需增长中关键的产品认知和技术手段,以期帮助新产品规避常见陷阱,并助力现有产品实现更好的增长。
● 差异化创新的重要性。回想起自己刚做推荐产品时的苦恼,大概莫过于总想凭借自己对推荐技术的理解来与对手硬碰硬,却意识不到在对手强大的时候硬碰硬并不会有好的效果,只有顺势而为并找到差异化创新的方法,才能在不与对手正面交锋的情况下找到新的增长机会。
所以,为了帮读者更好地理解差异化创新的重要性,本书从第二部分起就没有按照技术模块组织,而是围绕推荐所引发的产业变革中4个主要的产品方向—信息推荐、社交和社区推荐、视频推荐,以及电商推荐进行编排。这样的组织方式旨在本立而道生,先理解各领域用户需求和生态的特点,再探讨如何创新出算法技术来服务好产品。每部分具体的内容组织思路,会在该部分的开篇详细展开。
推荐产品如今已经广泛存在于各互联网产品中,下面几类读者都可以从本书中获益。
● 互联网公司的产品、技术和运营人员。虽然关于推荐系统的技术书籍众多,但其中很少有将产品和技术充分结合起来讨论推荐产品全貌的,所以本书面向的主要读者就是互联网行业的从业者。希望他们通过阅读本书,可以理解推荐产品优化的思路、推荐算法的设计初衷及日常运营时的重点方向,避免“只见树木,不见森林”。
● 商业产品的从业者。随着用户和商业(以下简称“用商”)产品之间井水不犯河水的边界被打破,对从事传统广告业务、计算广告业务的从业者来说,理解用户产品的设计思路与方法对服务好广告主和媒体也有帮助。所以,本书也可以看作对《计算广告》一书的补充,从用户产品和商业产品两个视角互相印证。
● 自媒体行业的从业者。虽然创作好内容是根本,但理解每个推荐产品如何分发内容并激励创作者,无疑对创作者选择创作平台和创作方向会有帮助。
● 创业者和企业决策者。书中探讨了推荐产品应如何从供给侧和需求侧发起创新并推动增长,同时也阐述了各产品方向的关键特性,因此,对于经常面临从0到1打造产品的决策者来说,这些内容能起到一定的辅助决策作用。
● 对推荐系统感兴趣的学生。推荐是激发用户需求、加速供需匹配的不二之法,所以对推荐人才的需求会一直存在。虽然市面上不乏技术书籍,但结合产品的较少,所以对推荐感兴趣的学生可以通过阅读本书获得实践与理论相结合的学习体验。
● 对推荐感兴趣的用户。随着移动互联网的普及,几乎每个用户每天都在日常生活中频繁使用推荐产品,阅读本书可以更明智地选择符合自己需求的产品,并避免过度沉迷在产品中虚度时间。
最后,我想感谢人民邮电出版社的杨海玲老师和贾静老师,以及我的爱人于佳,没有她们的支持,我很难完成本书。同时,也感谢百度对我的培养,并衷心祝愿老东家发展得越来越好。此外,考虑到作者水平有限,且没有永远正确的理论,如果读者对本书有一些建议,欢迎通过邮箱与我联系。我的邮箱是wachaong@gmail.com。
本书由异步社区出品,社区(https://www.epubit.com/)为您提供相关资源和后续服务。
本书提供思维导图。
要获得以上配套资源,您可以扫描下方二维码,根据指引领取。
您也可以在异步社区本书页面中点击,跳转到下载界面,按提示进行操作即可。注意:为保证购书读者的权益,该操作会给出相关提示,要求输入提取码进行验证。
作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。
当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,点击“发表勘误”,输入勘误信息,点击“提交勘误”按钮即可(见下图)。本书的作者和编辑会对您提交的勘误进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。
我们的联系邮箱是contact@epubit.com.cn。
如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。
如果您有兴趣出版图书、录制教学视频,或者参与图书技术审校等工作,可以发邮件给本书的责任编辑(yanghailing@ptpress.com.cn)。
如果您来自学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。
如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。
“异步社区”(www.epubit.com)是由人民邮电出版社创办的IT专业图书社区。异步社区于2015年8月上线运营,致力于优质学习内容的出版和分享,为读者提供优质学习内容,为作译者提供优质出版服务,实现作者与读者在线交流互动,实现传统出版与数字出版的融合发展。
“异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌,依托于人民邮电出版社30余年的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、AI、测试、前端、网络技术等。
在大多数人的印象中,推荐技术主要关心的是在内容供给和用户需求不变时,如何将二者更好地匹配起来,以扩大当下的产品规模。但是,真正的挑战是如何优化供给侧和需求侧的持续增长。因此本书第一部分将从宏观角度探讨关于增长和创新的方法论,帮助读者真正找到推荐产品的破局之道。
(1)供给侧变革(第1章、第2章)。在新媒介变革到来时,供给侧创新的能力关系到能否抓住创新推荐产品的机会。第1章将从产品视角出发,探讨如何通过媒介创新、创作工具创新和生态机制创新来变革供给侧。第2章将从技术视角出发,探讨在大模型时代内容理解和生成技术的变革对推荐产品的影响。
(2)需求侧增长(第3章至第5章)。第3章将从产品视角出发,探讨对用户增长和网络效应的正确认知和善用手段。第4章和第5章将从技术视角出发,探讨如何通过技术手段来优化新用户的体验。
(3)对A/B测试的理解(第6章)。如今很多推荐产品都在强调以A/B测试为主导的数据运营体系,但A/B测试并不是万能的。如果缺乏对留存等长期目标的重视以及对产品创新本质的理解,在过度依赖A/B测试时就容易出现问题,第6章中将系统地阐述如何认识并防范这类风险。
通常在谈及内容生态时,我们首先会想到生态运营,例如邀请优秀作者并提供足够的分润。然而,为了打造一个有生命力的内容生态,实际上还需要考虑更多深层次的问题,特别是在内容媒介层面、创作工具层面和生态机制层面上的创新,如图1-1所示。事实上,这些在日常繁杂工作中容易被忽视的环节往往才是打造内容生态的关键所在。本章将围绕这3个层面的创新展开,希望可以帮助读者对供给侧创新的问题建立更系统的认知。
图1-1 供给侧创新的3个层面
正如传播学权威Marshall Mcluhan在《理解媒介:论人的延伸》(Understanding Media: The Extensions of Man)一书中所述,人们常常过于关注内容本身,而忽略了媒介在传播内容中的重要性。事实上,媒介即讯息,在媒介约定的范式下对内容进行理解和创作,其根本特性不在于内容,而在于媒介。回顾推荐产品的发展历程,其诸多变革也是在产品经理洞察到这一点后从媒介层面发起的,例如从图文到短视频、从短视频到微视频等。因此,本节将基于我对媒介变迁趋势的几点理解,来推演推荐系统未来的发展方向,并讨论从业者在这一趋势中应承担的社会责任。
与自然界中的物种演化相似,如果将各种媒介视为彼此竞争的生命体,那么媒介的变迁历程可以看作高竞争力媒介逐步取代低竞争力媒介的过程。按照我的理解,鉴于创作者的诉求,大部分媒介希望通过更少的创作投入来赢得更多的社会注意力。换言之,媒介竞争力可以表述为公式(1.1):
媒介竞争力=社会注意力/创作成本 (1.1)
其中,社会注意力是媒介所吸引的用户关注度,可以通过时长、互动次数等指标来衡量;创作成本是创作和传播该媒介内容所需的成本,可以通过时间、金钱等资源来衡量。这就意味着,为了提升竞争力,媒介会在增加内容信息密度、提高传播效率和降低创作成本这3个维度上进行持续创新。本节将从这3个维度出发梳理媒介变迁的脉络。
科技发展使内容创作变得非常便捷曾经只是一种预测,然而,随着GPT等大模型技术的出现,未来其实已经悄然到来。接下来,我们就通过回顾几次经典的媒介变迁,来印证内容创作成本不断降低的趋势。
● 从手写到GPT。虽然印刷术的发明使文字得以被大规模地记录,但只有少数知识分子能够著书立说。如今有了GPT这样的大语言模型之后,人人都可以快速生成一段高质量的文本。
● 从密纹唱片到磁带。密纹唱片在录制过程中不能对原始录音做修改,所以对演奏家提出了较高的要求。为了降低创作成本,唱片公司陆续转向使用容易编辑的磁带来作为唱片的母带。
● 从大型照相机到手机。从1839年Louis Daguerre发明的第一台可携式木箱照相机,到便携式的单反相机,再到如今的手机,摄影的创作门槛和成本在持续降低。此外,2022年Midjourney这样的图像生成产品不断涌现,用户甚至可以摒弃手机直接创作出照片。
回顾上述内容创作历程的变迁,不禁让人感慨。在机械时代,摄影等复制技术的出现造就了“世物皆同”的感觉,虽然这引领了现代艺术的诞生,但同时也让古典艺术随之消亡。如今,我们已步入更为真假难辨的AI时代,未来艺术和创作的精神内核是什么?又会以怎样的形式呈现呢?
内容越变越短,这并不难理解,但是如果反过来问,为什么之前的媒介内容会这么长,可能很多人就不清楚了。因此,我们就先从这个角度出发来讨论几种典型的长时长媒介,以帮助理解媒介即讯息的关键所在。
● 粗纹唱片与流行音乐时长。早期唱片的原料是易碎而脆弱的粗纹虫胶,一张12英寸的粗纹唱片单面只能录制5分钟,这就迫使创作者将20分钟以上的古典音乐压缩到5分钟以内。出乎意料地,因为这种信息密度更高的音乐形式更易于传唱,所以催生出了如今人们所熟悉的流行音乐,即使后来虫胶唱片被单面录音时长可达25分钟的密纹唱片所取代,音乐时长的黄金标准也无法再回到20分钟以上了。
● 城市化和电影时长。电影起源于20世纪初城市化发展的高速期,那个年代的露天电影院大多比较偏远,所以若是想吸引用户,电影就必须是一种高信息密度且时长较长的内容形式。只有这样,才能让花费了开车时间成本和电影票成本的用户感到物有所值。
不难看出,早先媒介的内容之所以较长,和当时的社会背景、技术条件息息相关,并随着人们习惯的固化逐渐演变成了金科玉律。因此,回到媒介希望赢得用户注意力的本质上来说,媒介不仅可以被创新,而且创新媒介的效果往往比创新内容更为根本。这里抛砖引玉,列举几种常见的媒介创新思路。
● 做加法的媒介融合。从远古时期起,视觉就是人们接收信息的主要方式之一,因此相对于需要复杂编解码的文字来说,视频的理解成本更低。但是,这并不代表视频媒介具有最高的信息密度,例如抖音的内核不是视频,而是更能表达情绪的音乐。只不过抖音将音乐和视频进行了巧妙的结合,这才获得了“1+1>2”的神奇效果。
● 做减法的快节奏内容。移动互联网时代内容的载体是手机,而手又难以闲下来,因此就有了激发用户在碎片时间使用产品的可能性。要在这种场景下抢夺用户的注意力,需要做的是减法,以找到一种既不太消耗精力和时间又能保证高信息密度的媒介。于是,微视频和短文章等更快节奏的媒介应运而生,并让抖音等抓住机遇的产品成为如今非常流行的推荐产品。
● 全新的媒介载体。Apple Vision Pro是一种将数字内容和物理空间无缝融合、更加身临其境的具备强交互能力的全新载体。在这种超越传统二维屏幕界面的载体中,未来有可能涌现出很多更能吸引人们注意力的全新媒介。
早在机械复制时代,内容就已经可以被制成信号向公众传播,如今,随着社交网络、推荐产品等新内容分发渠道的出现,内容传播的效率被进一步提高,像火箭发射失败这样远在天边的事件,可以瞬间传播至全球各地。接下来再举几个经典的媒介变迁案例,以印证传播效率不断提升的趋势。
● 从报纸到广播。20世纪初,报纸是主要的信息来源。然而,随着广播的出现,人们发现其不仅可以更快地传播信息,传输成本也相对较低,于是使得广播逐渐取代报纸,成为当时主要的信息传播媒介。
● 从磁带到CD机。虽然磁带解决了内容创作时的编辑问题,但内容在传播过程中依赖比较复杂的磁带复制机,传播成本较高。因此,1984年索尼推出的便携式CD播放器D-50,因采用数字信号录音且不易磨损而得到了更广泛的应用。
● 对CD到数字音乐。利用人耳对高频信号不敏感的特性,基于频域最优编码的MP3格式于1995年出现,将音乐文件的大小压缩到原来的十分之一左右。之后,类似门户网站解构报纸的历程,基于P2P的盗版音乐和音乐流媒体产品崛起,很快瓦解了由唱片公司所把控的、基于音像店的传统发行渠道。
尽管在日常工作中,人们更强调数据驱动所带来的匹配效率提升,但放到更长远的时间尺度看,历史上每一次推荐产品的里程碑事件都与媒介变迁带来的供给侧变革紧密相关。因此,本节将以媒介变迁为线索来回顾推荐产品的发展历程,并给出对推荐系统未来演变趋势的几点看法。
回顾历史,每当有新内容媒介出现时,谁能更早洞察到媒介变迁的趋势,谁就更有可能成为推荐产品的新巨头。以下3个例子说明了从媒介侧创新的力量。
● 抖音。当其他产品还在资讯和短视频领域激战正酣时,字节跳动先看到了将音乐与微视频融合的巨大潜力(注:本书中将类似抖音的超短视频称为微视频,以区别于传统类似YouTube的短视频,但在不同产品中的名称可能不同),并在竞争对手还未理解这一新媒介时,通过抖音迅速赢得了市场。
● YouTube。在2005年YouTube创立以前,电视是人们获取视频内容的主流媒介。随着YouTube创新出在线短视频这一新媒介,结合更能抢夺用户时长的视频推荐算法,从传统电视媒体手中赢得了不少用户及相应的电视广告份额。
● 雅虎。雅虎开始流行的原因并非是它提供了对各网站进行索引的页面,而是它创新地将报纸迁移到了门户网站上,这使雅虎成为人们网上冲浪的必经之地,并从大量报纸媒介中赢得了用户和广告份额。
虽然从媒介侧发起变革的能量巨大,但大多数人身处其中,往往会对这种宏观趋势反应迟缓,不能在第一时间想象并预判出媒介变革后的产品发展趋势。在这种情况下,后知后觉的跟随性产品在应对媒介的变革趋势时往往会走入如下两种常见误区。
● 认为不会波及自己。在媒介更迭的关键时刻,总会有产品经理认为新媒介并不会对他们形成威胁,因此宁愿在原有媒介下守住已有优势,也不愿意在新媒介上有过度投入。然而媒介即讯息,由于新媒介的出现通常会重新定义内容,因此旧媒介下沉淀的内容优势会消失。例如,尽管许多人认为新闻会一直以文字的形式呈现,但当抖音等产品用微视频将新闻重做一遍后,很多用户也开始习惯通过视频的方式来获取新闻。
● 押宝于供需匹配算法。有很多以推荐算法见长的产品,希望在逐步补上新媒介下的生态短板后,通过算法来实现翻盘。这一思路没有问题,但是如果竞品生态已经形成了强者愈强的马太效应,那么在产品很难吸引优质创作者的情况下,仅凭借推荐算法的高匹配效率通常无法形成决定性的突破。同时,在缺乏产品优势的情况下,产品自认有算法优势可能只是一种错觉,因为算法并非无源之水,在看不到新的业务需求时,很难孵化出真正有洞察力的算法。
综上所述,如果能够预见新媒介有望成为主流,更明智的策略应是立即在新媒介的探索中投入一定的资源,以抓住可能出现的新机遇。需要注意的是,从媒介视角出发来创新产品,通常需要从零开始,需要产品经理能对本书第一部分所讨论的供需增长有全面、深入的理解,而不仅仅是熟悉供需匹配的推荐算法的优化。
当一种新媒介出现时,鉴于它可能会带来全新的用户行为模式和需求,现有的对旧媒介优化良好的算法通常并不适用。因此,对抓住了新媒介机会的新产品来说,没必要过于担心自己在现有推荐算法上暂时落后,而是应设计新的推荐算法来适应新的媒介环境。这里列举几个从新媒介中孵化出新推荐策略的例子。
● 邮件媒介下的协同过滤。推荐系统起源于1992年Xerox PARC中心的研究人员对邮件做个性化过滤的需求。不难想象,基于邮件的办公场景相对于其他推荐场景更需要协同,所以在这个场景下,人们提出了基于用户的协同过滤(user-based collaborative filtering,UserCF)算法。
● 电商媒介下的时序推荐。随着1997年亚马逊上市,推荐系统开始在电商场景普及。鉴于货架电商场景中,用户在购物决策时通常有较强的短期意图,因此1998年亚马逊提出了基于物品的协同过滤(item-based collaborative filtering,ItemCF)算法,以强化对用户近期行为的利用。
● 电影媒介下的评分预测。早年选择电影需要邮寄DVD,是一种非常重决策的行为,所以奈飞(Netflix)采用了评分预测来推荐电影。在2006年奈飞举办的一场百万美元的Netflix Prize竞赛中,基于矩阵分解(matrix factorization,MF)的评分预测算法被首次提出,并影响了未来诸多排序模型的设计。
● 资讯媒介下的点击率(click-through rate,CTR)预估。随着移动互联网时代的到来,内容推荐开始独立地产品化。当主要依赖于用户点击反馈的资讯推荐产品开始兴起后,起源于广告的基于深度学习的点击率预估技术被应用到其中,并取代了早期的排序模型技术。
● 短视频媒介下的时长预估。YouTube早期的用户群体中有很大一部分来自传统电视媒介,因此,如何从电视媒介市场中更有效地抢夺用户消费时长,就成了YouTube策略优化的重心,例如建模单篇内容的期望观看时长和基于强化学习(reinforcement learning,RL)来优化长期时长等方法,就是在这一背景下应运而生的。
● 微视频媒介下的多目标排序。在信息密度更高的微视频兴起后,由于沉浸式场景中不需要点击,且对于很多内容用户能完整看完,因此传统点击率和时长预估不再像之前那样奏效,基于互动的多目标排序逐渐兴起,成为新一代排序的主流实现。
虽然上述案例过于简化而有所片面,但从中可以看出,每种媒介下的推荐算法和其产品特性是息息相关的。因此,从业者们在紧跟业界前沿的新技术外,还要更加理解产品和业务,这样才有可能给推荐算法真正带来务实有效的变革。
结合1.1.1节对媒介变迁趋势的分析和本节以媒介变迁为主线对推荐算法演化方向的探讨,可以看出,为了更好地满足用户在新媒介环境中的需求,推荐产品在未来将会越来越重要。那么,推荐产品将会向哪些方向发展呢?
(1)向刺激用户感官的方向不断升级。虽然这看起来有些悲观,但许多推荐产品为了持续抢占用户在闲暇时的注意力,可能会推荐更能强烈刺激用户感官的内容。具体拆解来看,形成这种趋势的原因主要包括以下两点。
● 不可逆的刺激强化过程。从生物进化的角度看,因为新陈代谢的负担对生物体的复杂性起到了制约作用,所以在人们寻求愉悦奖励的过程中会倾向于更低的能量消耗,简称“懒”。同时,由上瘾的生理学机制所决定,对刺激的强化通常是一个不可逆的过程,即当用户适应了当前的刺激强度并产生耐受性后,为了维持多巴胺分泌的水平,会去寻求更易获得且更高强度的刺激。因此,取代一个令人上瘾产品的,有可能是一个即时奖励频率和程度更高的产品。
● 内容创作工具的话语权掌握。与过去推荐产品只能顺应媒介变迁的趋势不同,随着如今内容创作工具的话语权越来越大,以及大模型等内容生成技术的加持,推荐产品实际上已经获得了主动创造媒介的能力。因此,尽管当前许多产品已经具备足够强的成瘾机制,但未来具有更高信息密度的媒介还是会随时出现,并进一步催生出更能刺激用户的内容。例如,Apple Vision Pro这种能实时跟踪用户眼动和注意力的载体,使推荐算法更容易吸引人们的注意力,而科幻电影中所描述的脑机接口,说不定也已经在实现的路上了。
(2)向帮助用户创造更大社会价值的方向发展。当对用户的感官刺激强化达到极限时,从马斯洛的需求层次理论看,尚存在一种乐观的可能,即当人们对轻浮的“奶头乐”内容感到厌倦时,会期待产品可以满足他们更高阶的需求。具体到推荐产品,主要体现在以下两点趋势上。
● 从消费内容的角度看,用户希望能获得在认知和审美需求上的满足,并在社区中拥有一定的归属感。
● 从创作内容的角度看,用户希望所创作的内容能在推荐产品中得到人们的认同,以满足自我实现的需求。目前看,一些社区性产品如bilibili和小红书等已经逐渐显现出了这种趋势。
因此,推荐系统将走向何方,是娱乐至极,还是帮助用户创造更大的社会价值,很大程度上取决于推荐行业从业者的社会责任感。虽然从产品角度来看,不断刺激用户的感官可以在短期扩大产品规模,但从社会角度来看,能获得用户长久青睐的,必然不是那些滥用吸引用户注意力方式去发展自身的产品。因此,本书希望每一位推荐行业的从业者都能以打造一款让用户安心使用的产品为初心,做出真正优秀的产品。
在讨论了媒介的变迁趋势之后,还有必要介绍一下创作工具,因为虽然它没有媒介变迁重要,但创新的频次通常会更多。本节将先探讨创作工具的真正价值,再介绍它具体是如何优化内容创作过程的。
虽然高效的创作工具对创作者很重要,但为什么会成为各推荐产品竞相开辟的第二战场,用别家开发的创作工具不行吗?本节将深入探讨这个看似与推荐产品不太相关的环节,以理解创作工具成为推荐产品核心战略的关键所在。
在PC时代,内容产品通常不太重视创作工具的打磨,这本身非常合理,主要原因在于以下两点。
● PC生态的开放性。PC时代的内容生态非常开放,当站长们基于HTML标准建设好网页内容后,各产品通过爬虫技术就可以直接爬取并解析内容,从而复用已有的内容生态。
● 文字创作的低成本。在当时,内容创作以文字为主,所以创作工具的差异化价值有限,除非写论文时需要用到LaTeX,一般用Word也就基本满足工作需求了。
随着移动互联网时代视频创作需求的增加,上述两点不再成立,因此创作工具日益重要起来。
● 移动生态的封闭性。与PC时代的开放性相反,移动互联网时代的生态相对封闭。只要产品能够把控内容生产的源头,其他竞品就基本无法爬取你的内容。因此,如果能打造一个方便作者供给内容的工具,就能在一定程度上避免被竞品卡住脖子。
● 视频创作的高成本。相较于文字,视频内容的创作成本相当高,对工具的功能性和易用性有更高的要求,例如从1.2.2节中讨论的视频创作的具体环节中,将可以看出视频创作的复杂性。
近年来,随着GPT和Midjourney等人工智能生成内容(AI generated content,AIGC)技术的出现,创作工具在技法层面上进一步解放了创作者的生产力,使他们能够更专注在创作的内核层面,提升内容供给的质量和效率。考虑到这一趋势的重要性,第2章将详细探讨这些技术的原理,以及它们带来的产业变革机遇。
若是思考得更深入一些,就会发现创作工具的影响并不局限于增加内容供给,而是参与到了内容风格与意识形态的塑造中。换句话说,就像小麦驯化了农耕文明一样,创作工具本质上也驯化了创作者。我们来回顾一下媒介和创作工具对人们思维方式的影响,以揭示推荐产品打磨创作工具的真正意义。
(1)媒介对人们思维方式的影响。按媒介决定论的观点,内容的表现形式也就是媒介本身,在很大程度上决定了人们的思维方式和对内容的编解码方式。下面是几个典型的例子。
● 语言时代。在柏拉图的《斐德若篇》(Phaedrus)中,苏格拉底曾对书面文字提出了质疑,他担心相比于鲜活有互动的口头语言来说,沉闷的文字不但会损害人们的记忆力,影响知识的内化和吸收,同时过于依赖书籍也会误导人们过于相信理论,而忽视实践经验的价值。
● 书籍时代。苏格拉底说得固然没错,纸上得来终觉浅,但书籍在激发和传播新思想上也起到了积极作用,例如,谷登堡在发明西方活字印刷术之后,整个欧洲文明的发展加快了,人们的思维方式更注重逻辑,人们也因习惯于阅读长篇作品而培养了深度思考所需的专注力。
● 视频时代。虽然视频有丰富直观的表达力,但人们因更习惯被动解码视频而正在逐步丧失主动思考的能力。例如,在书籍时代培养起来的专注阅读能力以及基于文字来编码思想的能力,已经在渐渐地消失。
(2)创作工具对人们思维方式的影响。即使是同样的媒介,在不同的创作工具下,也会体现迥异的创作风格。这里就以写作和创作视频为例,来说明不同创作工具对人们思维方式的影响。
● 尼采的打字机。打字机的发明使写作变得更为便捷,例如视力严重受损的尼采借助盲打技能,完成了著名作品《查拉图斯特拉如是说》(Thus Spoke Zarathustra)。事实上,打字机除了将尼采的思想跃然纸上,还使他的文风从繁复论证变成了简洁的电报式风格,在给朋友的回信中,尼采就这样写道:“你说得对,写作工具的确参与了我们思想的塑造。”
● 视频剪辑工具的差异化。虽然同为创作视频,但各平台推出的工具为了服务好自家的创作者,对创作风格的塑造导向也各有不同。例如,抖音的剪映更强调对炫酷内容的模仿创作,在热门模板和AI特效上更为擅长;bilibili的必剪考虑到拍同款会弱化原创,在模板的使用上会相对抑制;而腾讯的秒剪为了服务好广大微信用户,在剪辑工具的易用性上更为重视。
综上,由于创作并非人类的本能,更多的是依赖后天的学习和塑造,因此即便现阶段的内容供给是充分的,为了守住自家用户的创作和阅读习惯,打造创作工具也成了产品必不可少的一环。假设bilibili作者都开始用剪映来创作,那么在拍同款等功能的影响下,他们的创作风格势必会朝着迎合抖音用户的方向靠拢,而这显然不是bilibili乐意看到的。1.2.2节将具体介绍创作工具究竟是如何影响创作的,从中可以更清晰地看到产品打造创作工具的必要性。
内容的创作过程一般可以分为选题策划、素材采集、素材编辑、内容发行4个阶段,本节将探讨现代创作工具是如何重塑这些创作阶段的。从中可以感受到,基于数据反馈作为指引的思想不仅影响了需求侧的推荐策略,也同样影响了供给侧的创作环节。
内容没有成为爆款,有时并不是因为没有写好,而是因为选题没有戳中用户的需求。考虑到掌握分发渠道的推荐产品拥有很多内容的流行度数据,因此与传统媒体依赖编辑的经验来策划内容不同,它们往往会更倾向于用数据来指引选题,以下就给出两种典型的方式。
● 热门话题榜单。对于什么样的内容用户爱看,创作者自己也有兴趣生产,只要浏览一下热门话题榜单便一目了然。对创作门槛不太高的微视频来说,当创作者找到感兴趣的话题,并看到同话题下创作好的视频,就足以启发他去创作一个类似的视频了。
● 个性化的拍同款。引导每一位用户都迎合热点进行创作,对平台来说显然不是最佳方式,是否有更高效的方式去激发用户的创作潜力呢?答案便是个性化推荐。只要学习创作者更有兴趣和能力去创作也是用户更爱看的内容,将这类内容的模板推荐给创作者,往往就能润物细无声地激励他去创作了。以图1-2为例,用户在点击页面右下角的音轨按钮后,就会进入“拍同款”的创作功能,所以抖音只需学习并强化用户对该按钮的点击行为,就能够捕捉并激发出用户的创作热情。
图1-2 拍同款功能示意
常规素材主要包括音乐、特效、文字、滤镜等。为了突出工具的差异化,各工具都在建设有产品特色的素材库和AI特效,以起到画龙点睛的作用。bilibili的必剪就在常规素材之外,强化了更体现平台特色的创作灵感和热梗素材。
与bilibili更注重单一素材不同,抖音为了降低用户的创作难度,更倾向于以集成多种素材的模板来提供素材。例如在用户拍同款的过程中,一键复制了原视频的所有素材,这样虽然牺牲了一定的内容原创性,但使普通用户的创作过程变得更为高效。
在GPT等突破性AIGC技术出现之前,通过深耕创新性来形成差异化并不能维持太久的优势,因此各家产品主要致力于做透易用性来便捷创作。毕竟,想在服务好现有生态的基础上吸引更多的创作者,创作工具的易用性是根本。下面是两个产品功能的简要示例。
(1)bilibili必剪。鉴于模板化的创作方式可能会抑制知识类内容的创新,bilibili没有过于强化基于模板的剪辑功能。同时,bilibili的内容时长较长,并且作者大多具备Premiere等专业剪辑软件的经验,因此在创作时长较长的视频时,对于作者来说使用模板也不是很方便。
由于bilibili更希望吸引那些依靠知识取胜的普通人,因此必剪在其产品首页更强调如虚拟形象、口播快剪和文字视频等知识类内容的剪辑功能,以期争取到非颜值类的作者,和抖音形成一定的差异化,如图1-3所示。
图1-3 更鼓励知识类内容的必剪界面
(2)抖音剪映。不同于bilibili更希望撬动泛知识作者,抖音更希望吸引年轻人和颜值类作者,因此剪映更强调AI特效和模板化的快捷创作,以使每个人都能够创作出炫酷有趣的内容。例如剪映已经出现了类似Midjourney的功能,如图1-4 所示。
图1-4 剪映AI创作功能界面
可以看出,这类功能只需要基于自然语言接口输入关键词即可完成编辑任务。随着AIGC技术的成熟,未来对创作过程的简化将会逐渐向AIGC倾斜,并减少对模板的依赖。不过,不同于早期产品仅凭简单的特效就可以所向披靡,随着人们对大模型的关注,想从这个环节突围并非易事。第2章将介绍大模型相关的技术,以供读者参考。
推荐产品打造创作工具的初衷是借助流量等手段来吸引创作者,并引导创作者将内容上传到推荐产品中。于是,推荐产品中大多会设计便捷的分享机制,以引导创作者在完成创作后顺手将内容分享到产品中。久而久之,当推荐产品借助创作工具聚拢了一批忠实的创作者后,就可以轻松化解以下风险。
● 用户需求的变化。有了数据驱动的创作工具后,推荐产品就可以灵活地“需求驱动供给”,通过调整创作工具的选题策划功能来调整当下的创作风向,例如调整拍同款的推荐策略,调整热门榜单的运营策略等。
● 供给方式的变化。在面对新的内容创作方式时,创作工具可以为产品争取足够的战略缓冲期。以Midjourney等AIGC产品为例,尽管它们引发了巨大的产业变革,但并没有完全取代剪映,在忠实的创作者依然选择剪映为主要创作工具时,剪映就有了逐步弥补技术短板的机会。
从产品的土壤中甄别有潜力的作者,并为他们提供丰饶的成长环境,这虽然乍一听起来如同养花一样简单,但知易行难的是,在多方参与者(包括用户、作者、平台)中兼顾每一方的诉求并不容易,例如,设计出一种激发所有人积极性的机制,并确保这种机制可以被所有人快速理解,这需要深思熟虑和巧妙设计。鉴于在广告拍卖机制中对这类问题的讨论较多,本节先从拍卖机制说起,再探讨推荐产品中生态机制设计的关键点。
广告中的拍卖机制由传统拍卖机制演变而来,其核心主要包括两部分,一部分是决定谁是最终竞拍获胜者的排序机制,另一部分是确定竞拍获胜者最终需要支付多少费用的计费机制。这看起来似乎很简单,但它不仅会影响广告主的投资回报率(return on investment,ROI)和平台的变现效率,还会影响用户的产品体验。因此,拍卖机制正是广告产品成败的关键因素。本节将介绍几种常见的拍卖机制,并为1.3.2节讨论推荐中的生态设计做铺垫。
(1)传统拍卖机制。在传统拍卖机制中,非常常见的是英式拍卖(English auction)和荷兰式拍卖(Dutch auction)。由于它们都属于公开拍卖,即竞价方需要公开自己的价格,因此并不适用于广告这种竞价方不愿意公开自己出价的场景。
● 英式拍卖(又称升价拍卖)。先由卖家给定较低的起始价,然后各买家公开竞价,直到最后拍卖品归出价最高者所有。一般来说,由于英式拍卖中容易出现“赢者诅咒”(winner’s curse)的现象,即买家为了赢得竞拍而给出比真实价值更高的出价,因此常常被用于如古董、艺术品等比较稀缺的、不愁买家的拍卖品。
● 荷兰式拍卖(又称降价拍卖)。先由卖家给定较高的起始价,如果没人应价则降低价格,直到有买家应价为止。荷兰式拍卖起源于荷兰的鲜花交易市场,由于第一个应价的买家往往会买走大部分物品,因此这种拍卖方式往往会比较迅速地完成交易,更适合那些品质可能会变化的标的(如水果、鲜花等)。
(2)广义第二价格拍卖。考虑到广告主不愿公开出价,且平台对密封出价的方式有更强的控制权,所以密封拍卖很快就成了互联网广告场景主流的拍卖机制。其中,谷歌提出的广义第二价格拍卖(generalized second-price auction,GSP)使广告主只需支付低于他们出价的金额,可以减少广告主反复调价的成本,因此成了业界主流的拍卖机制。
具体说来,GSP机制有很多种形式,其中最常用的是加权广义第二价格拍卖。在这个模型中,对每个广告位,其排序不仅会考虑广告主的出价,同时也会考虑广告主的点击率,所以广告位i的排序公式为。而当用户点击广告位后,计费则考虑了下一位广告主的出价与点击率,以及当前广告主自己的点击率,具体计费为公式(1.2):
(1.2)
(3)VCG拍卖。VCG(Vickrey-Clarke-Groves)机制的命名来源于发明它的3位科学家的名字缩写。虽然它仍遵循“价高者得”的原则,但其特殊之处在于,参与者需要支付的价格取决于他的参与对其他人造成的“成本”,而非他自己的出价。这就使得参与者没有虚假出价的动机,因为这样只会影响他是否能赢得物品,而不会改变他所需支付的价格。
于是,在按照真实预期出价成为每个广告主的最优选择时,平台资源的分配更加有效,也因此实现了平台设计者的整体目标,而这就是所谓的激励相容(incentive-compatible)思想。它鼓励每个人在追求其个人利益的同时,也能实现集体利益的最大化。
(4)智能投放机制。对许多中小广告主来说,如果投放机制难以理解,或者投放过程过于复杂,那么即使该机制在理论上很完美,也很可能让他们望而却步。而考虑到活跃广告主的数量是衡量竞价市场收入的关键指标,旨在帮助中小客户降低投放成本的智能投放机制就成了广告产品如今的一个重要发展方向。
以2012年Facebook推出的oCPM(optimized CPM)机制为例,虽然平台仍按CPM来结算费用,但因为Facebook承担了包括转化率预估在内的多个因子的估计,所以广告主只需按转化价值来设定预期出价。同时,为了分摊转化率模型不准确的风险,oCPM还巧妙设计了一个两阶段的计费系统:在模型不准确的初期,广告主帮忙承担一些风险,在数据积累充分的后期则由平台承担更多的风险。这样就在强化了广告主对平台的信任后,大幅增加了Facebook平台中活跃的中小广告主的数量。
从1.3.1节中广告拍卖机制的发展脉络可以看出,一个机制是不是设计良好,其关键点主要体现在以下两方面。
● 激励相容性。类似于VCG机制,具备激励相容性的机制可以引导每个人在追求其个人利益的同时,促使他们劲儿往一处使,以实现集体利益的最大化。
● 解释和运营成本。类似于oCPM机制,便于理解和操作的机制能吸引更多新的中小参与者参与市场竞争,进而不断激发市场活力。
接下来,我们将从机制设计的这两个关键点出发,介绍推荐生态机制设计中的两个主要问题:一是如何设计更激励相容的分润机制,来激励现有市场中的优质作者;二是如何激励新作者参与到生态中,以扩大生态规模并激发其内在活力。
激励相容的理念并不复杂,早在战国时期的墨家思想中就曾提出过类似的观点,即“义,利也”,意为真正的义需要兼顾大多数人的利益。具体到推荐生态的机制设计中,这种激励相容的思想体现在,平台需要更多地站在作者的角度来考虑问题,以成就他人才能成就自己为核心理念。只有这样,平台才有可能实现健康、长期的发展。下面从这个角度出发讨论如何在创作收益的分配上实现激励相容。
(1)对原创作者的保护机制。1.3.1节介绍VCG机制时曾提到,参与者需要承担他们对他人造成的“成本”,这就是实现激励相容的关键。显然,站在这一视角看,抄袭、洗稿等搬运行为和激励相容的理念是背道而驰的,因为搬运作者在给原创作者造成很大收益损失的同时却无须付出任何成本。因此,推荐生态要想赢得作者的信任,其“生死线”就在于能否坚决打击搬运作者,下面是一些常见的举措。
● 更自动化的侵权监测。从作者角度来考虑,原创内容保护并不仅仅是提供维权通道,因为用户除了在时间和金钱上需要付出成本,仅凭自己找到全网侵权的内容也并非易事。因此需要平台提供更自动化的手段来帮助作者,例如基于内容指纹来对内容做判重,发现侵权内容后自动帮作者维权等。
● 鼓励人即内容的人格化内容。鼓励人格化内容,其实是一种巧妙地保护原创内容的机制,因为对这类创作者露脸的内容来说,用户是很容易鉴别出其是否是原创内容的。因此,对于这种更容易识别创作者身份的内容,辅以关注率目标优化和平台强化审核等手段,就不会让搬运内容得到太多的分发,于是搬运作者自然就失去了搬运动力。
● 对已发生搬运的补救措施。虽然更理想的方式是严禁搬运,但考虑到严厉封号可能导致搬运情况严重的平台的供给直接断掉,于是YouTube给出了另一种补救措施,它将原创作者视为委托人,将搬运作者视为代理人,然后在获得原创作者授权的情况下,将从搬运作者所获得的收入中转移一部分给原创作者。这样,平台、搬运作者和原创作者三方都能获得一定的收益。
(2)更市场化的收益分配机制。打击搬运作者后,问题就转向如何为优质作者合理分配收益的环节。不同于商业产品会通过市场化的拍卖机制来分配收益,由于早期的推荐产品中创作者并不强势,因此收益的分配会以平台更强势的公域分润为主。不过近年来随着人格化作者的崛起,更市场化的私域分润机制逐渐成熟起来。下面简单介绍公域收益分配和私域收益分配的特点。
● 平台强势的公域收益分配。在公域分配收益的模式下,所有收入先归平台所有,平台再根据其生态导向来设计具体的分配收益模式。模式设计得好就有利于实现平等和普惠,设计不当则有可能导致资源配置效率极低。例如,在流量分配较为强调点击率的情况下,如果收益也按点击率来分配,就很容易使“标题党”作者的收益比优质作者高,从而发生劣币驱逐良币的现象。
● 更市场化的私域收益分配。随着用户的注意力逐渐从平台向人格化作者转移,有了知名度的作者在与平台博弈中的地位开始提升,更市场化的私域变现机制逐渐涌现。根据收益来源是用户还是广告主,通常可以分为两种变现模式。第一种是由广告主买单,在内容中原生植入广告的软广方式体验比硬广好,且广告主更看重作者支持者与产品受众的契合度,因此广告主通常能给作者比平台分润更公允的市场定价。第二种是由用户买单,主要包括支持者打赏、电商带货等更偏支持者经济的方式,考虑到支持者有时比广告主还慷慨,作者为了吸引支持者的关注就会更有动力提升内容质量。
需要补充的一点是,无论是公域还是私域,决定内容质量的关键因素是作者的创作动机。通常来说,为了自我实现而创作的内容质量会优于图利而创作的内容。因此,产品需要设计一定的社区氛围,以满足作者自我实现的需求。关于更多细节,将在10.1节中讨论。
创作收益分配机制的设计目的更多是稳住市场中现有的成熟作者,例如,支持者多的作者不仅更容易接到商单,也更容易获得公域流量。于是,为了避免生态中马太效应的加剧,并激发生态中长尾作者们的活力,推荐产品中还需要设计一种可以让新作者成长的机制,以起到类似于oCPM机制激活中小广告主的作用。
从技术视角来看,想让新作者有所成长,同时善用老作者,本质上属于探索与善用(exploit and explore,为E&E)机制的范畴。本节将围绕新作者的成长介绍大致的思路,有关E&E机制的详细阐述参见4.1节。
(1)对新作者的探索机制。从探索的角度看,平台要永远拥抱新入局者,从长期看这样才能找到更优质的作者。考虑到相对于内容来说,作者更稳定且数目较少,因此对新作者的探索常常会从运营侧发起。例如,对新作者定级,可以根据新作者不同的级别分配不同的探索流量以判断其潜力,如果其表现不错就加大扶持力度。
具体到探索流量的分配原则上,就是要将新作者的内容分发给适合的用户,而这就是著名的内容冷启动问题。冷启动的技术手段很多,大体上可以划分为如下两个方向。
● 赋予新作者准确的先验。考虑到在新作者历史行为稀少的情况下,实现分发准确会比老作者难很多,因此需要尽可能地将新作者的先验知识准确提供给策略,以辅助分发。例如通过2.2节中的内容理解技术在内容维度上理解内容,通过人工领域知识在作者维度上理解作者等。
● 反馈灵敏的学习系统。在有了探索流量带来的少量反馈信息后,基于第5章中介绍的元学习策略就可以快速理解新作者了,进而可以提升对新作者内容的分发效果。
不难看出,对新作者的探索,本质上与oCPM机制中收集转化数据的第一阶段非常类似。只要探索到了一定的正向反馈数据,设计良好的推荐策略通常不会太歧视新内容,于是优秀的新作者就逐步成长起来了。
(2)对老作者的善用机制。探索和善用并不是割裂的,很多时候是相辅相成的,也就是说,在平台总流量一定的情况下,想优化对新作者的探索势必要从善用的角度做出相应的举措。例如,为了吸引更多新作者入驻,在对老作者的善用机制中至少需要考虑以下两点。
● 探索流量的精细化分配。内容创作有其客观规律,即高价值内容的创作力通常是稀缺的,因此在流量有限的情况下,平台需要利用好探索流量。例如,将探索流量更多集中到优质作者的新内容和有待甄别的新作者上,对于已经评估过的普通作者可以适当减少探索流量的分配。
● 优质作者的示范性作用。对头部作者来说,平台一方面希望借助他们来满足用户的内容消费需求,另一方面也希望通过他们来吸引更多的作者入驻,因此平台可以设计一定的造星机制,以发挥其示范作用,这也是一种有效的善用机制。