数据分析实战:方法、工具与可视化

978-7-115-59609-3
作者: 曾津韩知白
译者:
编辑: 谢晓芳

图书目录:

详情

本书通过实战案例和可视化的图形讲解数据分析的知识。通过阅读本书,读者可以从容地处理数据,高效地完成数据分析工作。本书共9章,主要内容包括不同场景下的数据分析方法,从业者应具备的数据分析基本知识,数据分析师应具有的思维方式,海盗法则和指标体系建模,用户画像赋能数据分析,数据可视化的实操技巧等。 本书不仅适合产品经理、运营人员、市场营销人员阅读,还适合数据分析人员阅读。

图书摘要

版权信息

书名:数据分析实战:方法、工具与可视化

ISBN:978-7-115-59609-3

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。


版  权

编  著 曾 津 韩知白

责任编辑 谢晓芳

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

读者服务:

微信扫码关注【异步社区】微信公众号,回复“e59609”获取本书配套资源以及异步社区15天VIP会员卡,近千本电子书免费畅读。

内 容 提 要

本书通过实战案例和可视化的图形讲解数据分析的知识。通过阅读本书,读者可以从容地处理数据,高效地完成数据分析工作。本书共 9 章,主要内容包括不同场景下的数据分析方法,从业者应具备的数据分析基本知识,数据分析师应具有的思维方式,海盗法则和指标体系建模,用户画像赋能数据分析,数据可视化的实操技巧等。

本书不仅适合产品经理、运营人员、市场营销人员阅读,还适合数据分析人员阅读。

自从2018年从产品工作中抽离出来,加入神策数据公司,我对于互联网行业里的数据应用现状与不同角色对数据价值的重视程度有了更深入的认识。

在绝大多数的团队里,数据生产者、分析者和使用者是完全分离的。业务上,使用者往往是数据价值的最终获益者,但需要数据分析师、数据工程师等完成数据采集、清洗、定义、建模、分析、可视化等过程。在这些过程中,如果操作者对于业务最终的需求认知有偏差,就有可能在数据质量、准确度及最终结果的可靠性、可解释性上出现问题。

为了弄清楚相关原因,我开始接触数据“民主化”的概念。我希望数据理念及技能的普及让业务端的人员能够更关注数据产生和分析的过程,并参与一些简单的分析项目,同时让以前处在工作流前端的数据分析师和数据工程师能够更关注业务端诉求,从而提供更准确的数据与分析结果。

然而,从一个数据平台厂商的角度推广这个理念其受众终究是有限的,推广数据“民主化”的理念需要更多的从业者参与进来。这也是近几年我和行业里的朋友交流时的一个主要话题。

我在三节课平台上开设了一门课,名为“互联网业务数据分析”。在制作这门课时,我思考最多的内容就是如何让平时较少接触数据的产品经理、运营人员和市场营销人员能充分利用数据。因此,在课程内容的编排及案例选择上,我做了不少思考,最终那些非数据岗的学员的反馈也不错。

与知白相识多年,我们曾就数据基础建设、数据工具的使用与数据在产品运营中应如何发挥支撑作用做过几次深入的探讨。

在阅读本书的过程中,我不断地想起当年制作“互联网业务数据分析”这门课的情景。通过阅读本书,我看到了知白与曾津在构思本书的过程中的思考。这是一本数据分析入门图书,但是和市面上绝大多数的数据分析入门图书不同,因为它强调的不是技能上的入门,而是从思维上如何将业务与数据结合。

因此,即使你已经有多年的工作经验,也千万不要因为这是一本入门的书而忽略了其中精彩的内容。如果你刚进入这个行业,则更推荐你在开始接触数据前阅读本书,这有助于你了解数据的价值和应用方式。

希望各位读者在未来的工作中都能借助数据的价值,加快自己的职业发展,提升自己的业务能力,共同推进数据驱动在行业的落地与发展。

同时,衷心希望知白与曾津结合行业实践,继续为我们带来更多新的作品。

张涛

重庆奥特海文企业管理咨询有限公司创始人、神策数据公司前副总裁

服务与支持

本书由异步社区出品,社区(https://www.epubit.com/)为您提供后续服务。

您还可以扫码右侧二维码, 关注【异步社区】微信公众号,回复“e59609”直接获取,同时可以获得异步社区15天VIP会员卡,近千本电子书免费畅读。

提交勘误信息

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区,按书名搜索,进入本书页面,单击“发表勘误”,输入错误信息,单击“提交勘误”按钮即可,如下图所示。本书的作者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们;有意出版图书的作者也可以到异步社区投稿(直接访问www.epubit.com/contribute即可)。

如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”是人民邮电出版社旗下IT专业图书社区,致力于出版精品IT图书和相关学习产品,为作译者提供优质出版服务。异步社区创办于2015年8月,提供大量精品IT图书和电子书,以及高品质技术文章和视频课程。更多详情请访问异步社区官网https://www.epubit.com。

“异步图书”是由异步社区编辑团队策划出版的精品IT专业图书的品牌,依托于人民邮电出版社的计算机图书出版积累和专业编辑团队,相关图书在封面上印有异步图书的LOGO。异步图书的出版领域包括软件开发、大数据、人工智能、测试、前端、网络技术等。

异步社区

微信服务号

前  言

市面上关于数据分析的图书已经很多了,是否还有必要写一本数据分析的图书?关于这个问题,在思考良久之后,我们依然决定动笔写作。

首先,虽然市面上关于数据分析的图书很多,但是大部分集中在两个类别。一类是理论类,如统计学、机器学习、深度学习等方面的图书,这类图书的理论知识较多。另一类是工具操作类,如介绍用SQL、R、Python等的工具书。理论知识及工具操作技能对数据分析人员来说固然重要,但是只有理论知识及工具操作技能远不能满足企业的实际需求,实践和理论之间有鸿沟。

王阳明在《传习录》中写道:“知而不行,只是未知。”即使知道了上千种数据分析或者算法的理论,在实践中不知道该如何应用也是枉然。本书从数据赋能企业的实践角度进行讲解,旨在为读者跨越数据分析实践与理论之间的鸿沟提供数据分析框架。

本书主要内容

本书共9章。

第1章介绍为什么不同岗位的人员需要学习数据分析知识。

第2章介绍数据分析基础知识。

第3章介绍如何成为优秀的数据分析师。

第4章介绍数据分析师在日常工作中需要养成的思维方式。

第5章介绍海盗法则和指标体系建模。

第6章介绍常用的数据分析方法。

第7章从理论和实践两方面介绍A/B测试。

第8章介绍用户画像的理论知识和实战技术。

第9章结合Tableau软件,介绍数据可视化方面的实操技巧和知识。

致谢

在编写本书的过程中,作者得到了许多人的帮助,如果没有他们的帮助,本书将无法顺利付梓。

首先,感谢人民邮电出版社的张涛编辑,如果没有张涛的鼓励,就不会有本书的诞生。

在编写本书的过程中,作者的很多同事、朋友都给予了很多的支持和帮助。王伟为审校本书做了许多工作,欧阳婷为本书第9章提供了一些非常美观的图表素材。

最后,感谢家人,他们给予了我们大量的支持。

曾津 韩知白

第1章 为什么人人都要懂数据分析

在互联网企业中,数据的作用不言而喻。要让数据真正地赋能业务,不能仅仅依靠数据分析师“单打独斗”。本书开篇的两章内容是献给数据分析师的。古代军队中,十人为一火,火长一人管炊事,同火者称为火伴(即伙伴)。伙伴在战场上通力协作,才能取得胜利。数据分析师的伙伴是谁呢?他们就是企业中的产品经理、运营人员、市场人员以及决策管理者等。大家都在提升数字化决策水平的工作中共同协作,走向胜利。

数字化决策“土壤”的形成需要数据分析师、产品经理、运营人员、市场人员以及决策管理者等共同努力。在一家真正愿意依靠数据赋能业务的企业中,虽然并不要求每个人都是数据分析师,但仍然要求每个人都了解一些数据分析知识,培养依靠数据做决策的习惯。

1.1 产品经理为什么要懂数据分析

产品经理这一角色在我国已经历了几十余年的发展和演变。

产品经理在如今的互联网企业中主要扮演3种角色。

产品经理是产品设计师。在这一点上,产品经理和服装设计师、建筑设计师等没有本质区别,唯一的区别可能在于产品经理在设计产品的过程中,需要UI/UX(User Interface /User eXperience,用户界面/用户体验)设计师、视觉设计师的辅助。

产品经理通常还是项目经理,负责协调产品上线过程中所依赖的各方人员,如研发工程师、测试工程师、UI/UX设计师、视觉设计师、产品运营人员等。产品经理需在产品设计方案与按时上线这一目标出现资源或时间冲突时及时做出取舍,确保产品按时上线,同时尽量不偏离预期的交付质量。

产品经理还是一个产品功能乃至整个APP或网站交付给用户(客户)时交付状态的最终负责人。产品经理既然是交付负责人,就需要对交付的结果负责。传统行业的设计交付物(如服装或建筑物)的考核指标包括消费者口碑和销量、安全性指标等,考核维度相对较低,可量化指标不多。而互联网产品的交付物主要由功能渗透率、转化率、GMV(Gross Merchandise Volume,商品交易总额)等指标衡量,这就要求产品经理具备一定的数据分析能力,可以通过各种指标量化、验收、衡量自己的交付物——上线后的产品的优劣。在量化的交付结果不够理想时,通过探索性数据分析提出可能提升目标指标的产品优化建议。下面结合实际工作中的案例,阐述一名产品经理在实际工作中所需的数据分析技能。

1.2 产品经理的数据分析实战案例

某社交平台的主要功能为帮助平台上的用户发现附近有潜在交友价值的朋友。产品经理艾伦负责设计和上线该社交平台的第1版订阅制会员产品,在此之前该社交平台无任何商业化功能,GMV为0元。上线该订阅制会员产品的量化目标是在上线后为平台贡献300万元/月的GMV,以帮助该社交平台公司实现盈亏平衡。

艾伦此时需要决策,是将平台上哪些已有功能升级为需开通会员才可以解锁,还是上线哪些需会员解锁的新功能。在决定对平台上哪些已有功能进行上锁之前,艾伦需要先调研候选功能的“渗透率”,即一天内的所有活跃用户中使用该功能的用户比例。

当得到所有候选功能的渗透率之后,艾伦还需要对上锁各个功能可能造成的影响进行合理的预估。例如,如果上锁一个渗透率很低的功能,可能想要解锁这个功能的用户数有限,进而导致GMV不达标;如果上锁一个渗透率很高的功能,可能阻挡过多用户的正常使用,进而导致大量用户放弃使用该社交平台,即活跃留存率大幅下降。在产品经理的日常工作中,这种预估能力是一项很重要的能力。

在决定上线哪些需会员解锁才可使用的新功能之前,艾伦也需要先对候选功能的上游流量进行摸底,对其上线后可能带来的会员购买收益进行预估。同时,由于该会员功能需要订阅,因此艾伦在设计新会员功能时还应考虑用户是否会长期依赖该功能。如果长期依赖,这会有助于提高会员的续费率。简而言之,在产品设计环节,产品经理需要掌握数据摸底和数据预估能力,最好能同时掌握一些自助取数的软件或简单 SQL的使用方法。

假设此时艾伦已经完成了前期的数据摸底和数据预估工作,并完成了他对该平台会员的第1版产品设计,该设计主要包括哪些功能需要开通会员后才可使用,这些功能的入口是什么,会员定价是多少。

研发团队按部就班地将艾伦的这版设计在两周后上线了,由于对 GMV和留存损失的信心不足,团队采取了灰度发布的措施,即仅为20%的用户开通了艾伦设计的这版会员体系,用于进一步获取数据、优化产品。这时就需要艾伦对本次20%灰度发布的数据表现进行合理的分析和复盘,并决定是否将该版会员产品推至全量用户。

假设本轮20%的灰度发布为公司带来了每天1万元的 GMV,艾伦据此预估,如果全量发布该版会员体系,预计可为公司带来每月150万元的 GMV,此数据低于立项之初的预期且相差较大。这时艾伦作为产品经理首先需要决定,是将这版会员产品先行全量发布,再在线上优化 GMV,还是对这版会员产品再进行一轮灰度迭代,当预期 GMV达标后,再进行全量发布。由于会员产品的发布涉及定价,定价不宜在全量发布后频繁调整,因此艾伦与公司管理层决定,暂不全量发布该版会员产品,继续灰度优化直至20%灰度下的 GMV达到每天2万元,即全量情况下的GMW达到每月300万元。

此时,艾伦面临实现公司盈亏平衡的压力,需要基于第1版会员的灰度数据,输出第2版会员产品的优化方案,其中少不了对第1版会员产品的灰度数据进行深入的分析。有的公司会在此时给艾伦分配一位数据分析师,配合他复盘上一版会员产品的灰度数据,同时给出下一版会员产品的优化建议,通常是策略性的建议,如入口设计、定价设计等。但由于不是所有公司都有充足的数据分析师,并且数据分析师通常并不对项目的最终指标完成情况负责,因此建议产品经理自己多掌握一些取数、分析漏斗的能力,不过于依赖数据分析师,这样才能对项目上线的最终结果拥有较强的把控性。

最终,艾伦根据他对第1版会员产品灰度数据的分析,优化了整个会员购买流程,增加了购买入口,优化了购买引导的文案,调整了会员的价格,在第2版灰度上线时实现了每天2万元的灰度 GMV,并推动该方案通过了管理层的审批,成功全量发布。发布后次月公司营收300万元,实现了盈亏平衡。

1.3 市场营销人员为什么要懂数据分析

著名“营销先驱”约翰·沃纳梅克(John Wanamaker)曾经提出:“我在广告上的投资有一半是无用的,但问题是我不知道是哪一半。”从部分互联网公司的财报中不难看出,广告费用无疑是很多公司成本的一大部分。为了不投入那么多的广告费用,市场营销人员需要结合数据,衡量自己的营销结果,并对营销活动为公司最终转化的用户量或销量负责。

互联网市场营销人员在如今的互联网公司中主要有3方面的职责。

第一,市场营销人员负责基于产品的特性定义传播策略和营销创意。虽说“酒香不怕巷子深”,但现实中大部分消费类互联网公司需要投入一定人力成本来组建一个市场部。传播和创意工作中,市场营销人员主要负责分析市场竞争环境并总结出公司产品相较于竞品的优势和卖点,同时根据产品的独特卖点构思面向消费者的传播话术、视觉或视频物料,乃至社交媒体上的营销事件。这方面工作的目标是使产品可以打动目标受众,完成购买,提高下载量或销量。

第二,市场营销人员还负责市场预算的分配与管理。在整体市场预算已定、已批的前提下,对可控预算的切割、分配、按渠道优化能力是评价市场营销人员工作能力的一个核心考核项。优秀的市场营销人员能够对其所管理的各个获客渠道的以下指标进行合理评估、科学分析:

获客数量的起量空间;

获客成本;

投资回报率(Return On Investment,ROI)。

最终,市场营销人员需要围绕优化目标在其管理的各个渠道中分配预算,该目标通常是涉及以上几个指标的一组不等式,例如:

获客成本小于或等于10元;

每日获客数量大于或等于10 000。

这方面的工作不仅需要市场营销人员具备一定的取数能力以获取各渠道在上述维度的表现,还需要市场营销人员具备一定的量化策略优化能力以帮助其围绕优化目标进行预算的最优分配。

第三,市场营销人员还应负责对市场营销活动的结果、效果进行回归,有时甚至是近乎实时的监控(通常适用于效果营销),以及对投放效果数据的异动进行响应。无论是对一轮品牌宣传进行口碑与下载量、销量影响因素的复盘,还是在效果营销活动中应对一次获客数量的骤降,都需要市场营销人员运用数据分析的基本思想以对其投放效果和花费之间的关系进行分析,对造成投放数据突变的原因进行分析。

市场营销人员在以上3个方面需要运用的数据分析能力有所不同。第一个方面要求的主要是对外部市场数据的获取和分析能力,第二个方面则主要是对当前投放效果的取数和优化能力,第三个方面所要求的数据分析能力(在“数据海洋”中寻找因果关系并将之量化的能力)则更具开放性。市场营销人员需要对自己花的钱所带来的效果负责。弄清市场预算/花费、渠道、创意等影响因素与公司实际追求的业务增长指标间的关系,以及在可控的范围内通过在预算、渠道、创意等维度上的优化促进公司的业务增长,是市场营销人员所需掌握的核心数据分析能力。

1.4 公司领导、业务负责人为什么要懂数据分析

网景公司前CEO Jim Barksdale有一句关于数据驱动决策的名言:“如果大家有数据,我们以数据为准。如果大家有的只是意见,那么还以我的意见为准。”可见即使位高如公司领导或业务负责人,也不得不随时准备好为数据让步。

抛开数据造假的情况,在数据真实的情况下,一些领导容易陷入盲从数据的误区。数据即使真实,也可以自由修饰。同一个数据源通过不同的口径观察,再采用不同的比较方式,可能会给人以完全不同的印象,甚至可能会在业务判断、业务决策上造成误导。这就是公司领导、业务负责人需要掌握一些数据分析基础的知识原因。

和产品经理与市场营销人员的角色不同,领导往往不需要亲自对原始数据进行处理或分析。领导日常接触的往往是由数据分析师或其他业务人员处理过的,以 PPT 或文档形式呈现的数据,且数据可视化程度高,图表居多。领导在处理这些经他人加工过的数据时,需要格外留意数据口径问题。

领导需要把关的是,数据报告中提供的数据口径及其对比方式是否能够科学、准确地体现业务经营状况的好坏,还是可能为“虚荣指标”,无论业务实际经营状况如何,从这个数据口径来看都还不错。下面以一个实际的示例说明什么是虚荣指标,以及领导应如何“抽丝剥茧”,找准观察数据的口径,继而定位业务问题。

2021年7月的某个工作日,负责某公司APP整体运营工作的副总裁弗兰克在其公司 APP 上收到了多条让他感觉内容乏味的推送提醒(推送通知),这让弗兰克猜想近期 APP 的推送策略打扰性强、内容乏味,这可能会导致其用户关闭推送提醒的比例上升,推送点击量下降。故弗兰克给他团队中负责推送运营的运营经理阿比发了一条工作消息:“最近几个月,推送点击量下降了吗?”

几小时后,阿比返回了图1-1所示的曲线,并回复弗兰克:“推送点击量近几个月没有大幅变化。”从曲线来看,自5月以来数值比较平稳,确实没有大幅度下降,离当时最近的一次指标大幅下降发生在12月前后。但这是否意味着弗兰克可以打消自己关于推送点击量下降的疑虑,不再跟进此事呢?

图1-1 某APP的推送点击量数据

答案是否定的,弗兰克需要进一步跟进推送的真实运营状况。首先弗兰克应明确:他需要关注如下问题。

用户关闭推送提醒的比例是否提升了?

推送点击量是否下降了?也就是说,准确的衡量口径/指标是什么?另外,他还需要排除近几个月内历次业务变动对指标数值所引入的噪声。

阿比给出的数据是推送点击量,该口径/指标过于笼统,糅合了过多和弗兰克关注的问题不相关的噪声,例如,总活跃用户数上升,单用户日均推送条数上升,这些噪声会导致推送总点击量在通知打开率、推送点击率实际下降的情况下保持平稳。

此时弗兰克应要求阿比提供从取数口径上排除了以上噪声的数据,例如,DAU(Daily Active User,日活跃用户数)中打开或关闭推送权限的比例,用户每天收到的第一条推送的点击率(由于日推送条数在近几个月内可能有增减)。

只有当以上两个指标在近几个月内表现平稳时,弗兰克才可放心地认为推送运营状况稳定,近期无须立刻对推送运营策略进行紧急优化。

领导所需具备的数据分析能力主要还是鉴别数据质量,根据所给数据下决策的能力。在所给数据质量不高、噪声较多的情况下,要谨慎采取行动,避免盲目决策。很多时候还需要将口径不准确的数据退回,让业务人员重新提供一版更能反映当前问题的数据,再根据消噪后的数据,谨慎确定下一步的决策。

读者服务:

微信扫码关注【异步社区】微信公众号,回复“e59609”获取本书配套资源以及异步社区15天VIP会员卡,近千本电子书免费畅读。

相关图书

Python数据科学实战
Python数据科学实战
Power BI数据挖掘与可视化分析
Power BI数据挖掘与可视化分析
从0到1——Python数据可视化
从0到1——Python数据可视化
善用图表——一看就懂的商业数据表达术
善用图表——一看就懂的商业数据表达术
从Power BI 到 Power Platform:低代码应用开发实战
从Power BI 到 Power Platform:低代码应用开发实战
基于Python的金融分析与风险管理(第2版)
基于Python的金融分析与风险管理(第2版)

相关文章

相关课程