书名:数据分析师典型面试题精讲
ISBN:978-7-115-59831-8
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
著 数据蛙
责任编辑 贾鸿飞
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
本书主要讲解了应对数据分析师面试所需的基础知识与典型面试题的解答方法,内容以读者的阅读需求进行架构,力求使读者对面试题涉及的原理与解题思路有清晰的认知,以帮助读者在面试时举一反三,从容作答。
本书共分为7章。第1章介绍了正确认识数据分析的一些必要知识,以及用人单位对数据分析师的要求;第2~5章,分别介绍了概率论与数理统计基础、分析工具的使用、面试时常见的数据思维、数据挖掘等4个部分的知识,其中分析工具包括Python、Pandas、SQL和Excel;第6章讲解了知名公司近年来典型面试题的解题思路;第7章讲解面试中除了答题之外的其他方面的知识,并基于真实的面试流程,从面试技巧角度给出了建议。
本书适合想从事数据分析及相关岗位工作的读者阅读。
对求职者来说,进入面试环节意味着简历已经通过了初筛,需要面对用人单位对自己能力的考查。考查的形式可能是书面答题、面对面交谈,也可能是通过视频或电话,总之需要求职者在有限的时间内充分展示自己的各项能力。
面对这样的考查,无论要应聘的是什么行业的什么岗位,都需要做好充分的准备,如果要应聘对统计学、工具/软件使用、业务思维等知识都有一定要求的数据分析师岗位,做好各种准备尤其重要。在数据分析师岗位的面试流程中,笔试几乎是绕不开的——尽管有些公司可能会设置上机编程的环节,但绝大多数情况是应聘者用笔在纸上作答。
很多IT行业的公司,尤其是互联网行业大公司在招聘程序员的时候,很重视对计算机基础知识的考查。招聘数据分析师的情况其实也差不多——用人单位对统计学知识与数据思维、逻辑推断能力等方面的测试,同样非常重视。
一般来讲,可以将数据分析师分为技术类和业务类。技术类数据分析师的技能涉及的领域很广,因行业、具体岗位、具体业务的不同而不同,常见的包括R、Python、SQL、Java、Scala、Hadoop、Spark等工具的使用,对编程能力有一定的要求。业务类数据分析师的工作主要是用数据辅助业务增长,对技术方面的技能要求相对低一些,而对业务知识方面的要求则高很多。本书的内容主要围绕对业务类数据分析师的技能要求组织。
为了帮助广大准备从事数据分析工作的读者更好地准备面试,我们组织了具有丰富的工作经验和面试经验的数据分析师,精心编写了本书。他们大多就职于阿里巴巴、腾讯、字节跳动、中国平安等大型公司,对数据分析师面试,以及数据分析在实际工作中的应用场景十分熟悉。
根据数据分析师面试的惯例、涉及的知识、注意事项等,我们将书中的主要内容分成4个部分,分别介绍概率论与数理统计知识、分析工具使用知识、数据思维和数据挖掘知识,每个部分均讲解了基础知识与面试中大概率会涉及的知识点,并对典型的面试题进行了讲解。其中在分析工具使用知识部分又分别介绍了Python、Pandas、SQL、Excel等分析工具的基础知识与常见面试题解答思路。除了帮助读者巩固基础知识外,对解题思路进行分析是本书内容的重中之重,以期让读者在面试中举一反三,从而自如地应对各种题型的考查。
另外,书中还给出了部分知名公司近年来具有代表性的面试真题及解题思路,题型包含单选题、多选题、填空题、问答题、编程题等5种。书的最后就面试的准备、面试的流程、面试的技巧进行介绍,并分享了几次典型的面试经历——有成功的,也有失败的,还分析了成功的经验或失败的教训。
本书的作者来自致力于发展社群学习的数据分析培训团队——数据蛙,包括李凯旋、冯文武、周晓良、何嘉冰、龚嘉鑫、黄剑涛、李苑旖、尹頔、杨瑞冬等人,他们在本书的编写过程中付出了辛苦的劳动,在此一并表示感谢。
希望本书能给准备参加数据分析师面试的读者提供有用的知识与解题技巧,同时给读者带来必要的信心。
在编写本书的过程中,我们力求准确,但也难免疏漏。敬请读者朋友发送电子邮件至jiahongfei@ptpress.com.cn,提出您的宝贵意见和建议。
1.1 关于数据分析,你需要知道的
1.2 用人单位需要什么样的数据分析师
当今的互联网世界,每时每刻都在产生海量的数据。毋庸置疑的是,几乎对任何组织来说,这些海量的数据中都蕴藏着巨大的价值。从数据中提取有价值的信息,其实就是数据分析的内生动力,也是这些年“数据分析”四个字高频度地出现在各种媒体、各种平台的主要原因。
关于“数据分析”,很多人经常用的百度百科上是这样定义的:数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
维基百科上的定义则是这样的:Data analysis is a process of inspecting, cleansing, transforming, and modeling data with the goal of discovering useful information, informing conclusions, and supporting decision-making。(数据分析是对数据进行检查、清理、转换和建模的过程,其目标是从中发现、提取有价值的信息,进而得出结论,对决策提供支撑。)
百度百科根据方法和目的对数据分析进行了定义。而维基百科则根据数据分析的过程和目的对数据分析进行了定义。
其实,简单地概括,数据分析就是一个通过分析手段从数据中发现有价值的信息的过程。这个过程的起点是获取一份数据,这个过程的终点是发现对决策有支撑作用的信息。
一般来说,数据分析过程大致如下:
数据获取→数据清洗→数据处理→数据分析与建模→分析结果呈现→业务价值发现→业务价值实现。
用图来表示,则这个过程如图1.1所示。
图1.1
2020年4月30日,人力资源和社会保障部发布《新职业——大数据工程技术人员就业景气现状分析报告》,报告显示:预计2020年中国大数据行业人才需求规模将达210万,2025年前大数据人才需求仍将保持30%~40%的增速,需求总量在2000万人左右。由此可见,数据分析人才在就业市场的需求仍有很大的缺口。
薪资水平绝对是职场人士最关注的因素之一。跟商品价格类似,薪资水平受供求关系影响。数据分析人才缺口意味着就业机会,也意味着供小于求,如果人才缺口逐渐加大,数据分析师的薪资水平也会逐年水涨船高。如果数据分析水平很高,精通各种数据科学知识,则拿到高薪的可能性更大。
在当今的职场,无论在什么岗位,几乎都避不开各种各样的数据,这样就或多或少地要求员工具备数据分析技能。对与互联网紧密相连的公司而言则更是如此,无论你是处于公司业务中的哪个环节,从专职数据分析、市场策划、销售、运营到客户服务,都需要掌握一定的数据分析知识。在大数据与人工智能的浪潮中,只要公司有跟业务相关的决策需求,就离不开数据分析这个“工具”。不懂数据分析相关知识,很大概率会与一些热门职位失之交臂。
数据分析在各行各业的应用已经很广泛,不同的业务场景对应不同的分析方法,以下简单介绍几个行业数据分析的典型应用。
电子商务行业发展迅速,竞争激烈,当流量红利渐渐消失,产品一夜成为爆款的奇迹往往难以持续。企业唯有精准营销、精准拉新,不断匹配商品与用户,提升用户体验与客户服务,才能守住存量客户,从而最大程度地保证收益的可持续增长。日常遇到的业务挑战主要有渠道拉新、付费转化、用户留存等。电子商务行业用户行为流程如图1.2所示。
图1.2
通过数据分析,可以得到的主要好处如下。
■ 识别优质拉新渠道:通过分析不同渠道用户浏览或购买商品的数据,结合留存分析,了解从不同渠道转化的用户的留存情况,以此倒推渠道质量和渠道特点,从而优化投放策略。
■ 提高用户付费转化:通过分析用户站内浏览的分流情况,找到目标路径和冷门路径,不断优化产品页面分布和广告资源位的结构。针对核心的用户注册和付费流程,建立漏斗分析,用数据衡量在各个操作步骤用户转化和流失的情况,洞察流失原因,从而有针对性地优化流程,提升注册和付费转化率。
■ 用户行为与商品销售信息关联分析:通过数据分析将商品销售信息与用户行为整合统一,利用多维分析模型找到用户行为与商品的关系,推送特定的商品促销信息给特定的用户群,从而实现精准营销,激发复购,进而真正留住用户。
在数字化时代,“以消费者为中心”和“数据驱动”就是品牌零售行业增长的两大核心战略,其运营模式也从依靠经验的割裂式运营走向数据驱动的全渠道精细化运营。主要的业务挑战有用户认知难、用户易流失、活动效果提升难、商城转化率差等。品牌零售行业消费周期流程如图1.3所示。
通过数据分析,可以得到的主要好处如下。
■ 精准认知用户:基于用户的画像动态迭代优化标签模型,帮助企业精准认知用户,为精细化运营打好基础。
■ 用户全生命周期运营:根据用户的不同消费行为及偏好,设计不同的运营计划,如给近期有购买行为的用户发放不同形式的优惠券,最终实现用户的高频高价值转化。针对加入购物车未结算、提交订单未支付等情况,筛选用户进行精准提醒,促进消费者转化,并实时分析营销效果,从而及时调整运营策略,提升用户支付结算的转化率。
图1.3
证券行业的业务种类正在悄然发生变化,比如,从收取客户的交易手续费到为客户进行资产配置,从单一通道服务到综合金融服务。这就要求证券公司全面了解客户的需求及偏好,进而实现精细化运营,满足客户的个性化需求,以在同业竞争中占得上风。主要的业务需求和挑战有产品销售、引流开户、智能推荐等。证券行业用户的行为流程如图1.4所示。
通过数据分析,主要可以得到如下好处。
■ 线上/线下渠道评估,优化投放策略:通过多维度分析渠道价值,同时反推渠道质量与渠道特点,优化投放策略。
■ 优化开户流程,提高开户完成率:通过分析应用程序版本、操作系统版本、手机型号等信息,监控流程当中流失率较高的环节,确定是否存在体验不佳或是系统兼容性问题,继而对环节进行优化并展开流失人群召回运营,然后可以继续追踪流失人群的转化效果。
■ 营销活动的精准化运营:通过分析对客户群体进行精准筛选,以多触达方式,如 App推送、短信推送、邮件发送等自定义方式衔接运营计划,提高产品营销活动效率。
图1.4
随着移动化、智能化、同质化程度的不断加深,各大银行持续加大对线上渠道的建设投入,数据、智能化对银行整体运营能力的提升有很高的价值,数字化转型及数据化运营十分必要,已成为行业共识。主要的业务需求与挑战有平台数字化运营、产品服务智能化、个性化精准营销、客户活跃与价值运营等。银行业用户的行为流程如图1.5所示。
银行业普及数据分析的主要好处如下。
■ 活动效果评估与优化:监控不同渠道的下载情况与用户活跃度,完整跟踪最终的活动效果转化,为活动的准确评估与持续优化提供全面的数据洞察。
■ 资源位使用效果评估与优化:基于用户访问行为统筹分析各资源位投放策略和效果,评估各资源位面向的人群、素材主题和样式的效果,进而优化资源位布局、样式设计和分配机制,提升资源位的分配效率和流量分发效率。
■ 实时活动运营与效果评估:基于活动的“触达—转化—效益”三个层面,在活动预热及进行期间,实时监控活动效果,及时调整活动策略,对未转化用户进行实时运营;活动结束后能快速评估在活动策略设计、活动投放渠道以及最终在成交、ROI、留存率等业务目标上的达成效果,诊断活动策略存在的问题以便进行优化。
■ 用户活跃运营、流失预测与召回:基于用户历史访问频次、最后一次活跃日期、资产变动等属性数据,预判用户是否具备较高的流失风险,进而提前进行用户召回与干预,尽可能降低用户流失风险,延长用户周期,提升用户活跃度与黏度。
■ App差异化展示:通过用户属性及行为特征等数据,计算得到用户的群体标签,并配置针对不同用户群体的内容展示方案。用户在访问App 时,获取用户身份信息,映射到相应的用户群体标签,通过用户群体标签,解析该类用户在该场景下对应的 UI 与内容展示方案,从而实现在产品内 UI 与内容的差异化展示。
图1.5
移动互联网、大数据、人工智能等技术的发展,以及近年来互联网保险市场的高速增长,推动了保险业数字化转型的进程,保险业也意识到线上线下融合营销的发展趋势和重要性。主要的业务需求与挑战有平台数据化运营、用户精细化运营、产品智能化运营、新用户增长等。保险业用户行为流程如图1.6所示。
图1.6
保险业通过日常数据分析,主要可以得到如下好处。
■ 助力新用户增长:将用户在线上的行为转化为销售线索推送给代理人或电话销售人员,线上的行为包括浏览保险产品详情页、线上咨询客服、在线进行保费测算等,这些行为数据可以助力用户转化。
■ 用户体验提升:根据交互数据,如线上投保、保全申请、理赔申请等业务流程数据,及浏览资讯、参与活动等数据,构建完善的数据指标体系,评估用户使用线上服务的情况,从而有针对地提升用户体验。
■ 保险产品交叉营销:根据用户的人口社会学信息、保单信息、行为信息等数据进行分析,基于用户标签进行用户画像,精准筛选目标受众,针对保险产品的特性构建交叉营销策略,对目标人群进行产品营销,通过对营销效果数据的实时回收,动态调整营销策略。
■ 个性产品推荐:通过用户属性信息、行为信息、历史保单信息等数据,构建用户标签,个性化地匹配适用该用户的产品,并实现产品匹配度的排序。用户在访问产品推荐模块时,获取用户身份信息,映射到对应的推荐产品,实现个性化产品推荐。
在企业中,数据分析师往往分为业务类和技术类。两者需要的工作能力和对应的工作内容有较大区别,但在企业的招聘启事中常常统称为数据分析师。
业务类数据分析师。一般来说,在很多招聘网站搜索数据分析的时候,会发现数据分析的业务方向有两种:一种是辅助业务的数据分析,另一种就是数据分析。辅助业务的数据分析对应的细分职位主要有市场调查、行业分析、经营分析三种,这类数据分析师需要熟悉业务,同时对业务有深入的理解和长时间的积淀,这样就能快速地使用数据分析发现业务流程中存在的问题,并有针对性地给出解决方案。数据分析对应的细分职位主要有产品数据分析师、运营数据分析师和销售数据分析师等。
业务类数据分析师所在的企业部门往往是市场部、销售部、产品部、运营部等。
技术类数据分析师。一般来说,技术类数据分析师对应的工作内容主要在数据挖掘方向,对应的细分职位主要有数据挖掘工程师、数据库工程师、数据开发工程师等。
技术类数据分析师所在的企业部门通常是研发部、IT部、数据中心等。
偏业务方向的数据分析师,对应的主要技能要求和工作内容如下。
技能方面,需要会使用Excel、Python和SQL,因为业务类数据分析师的主要工作是把数据和业务结合,用数据辅助业务增长,对技术能力方面的要求一般,业务知识才是重点。
工作内容上,主要负责:
■ 整理Excel表格,提供给各个业务部门看的常规日/周/月报,形成日常运营报告;
■ 针对专项议题(如“双11”促销、年度规划、新产品设计等)做专题分析;
■ 支撑决策层做需要用到数据的测算、规划、方案等。
技能方面,需要具备一定的编程能力,比如常用的R、Python、Scala/Java,至少要掌握一种,而且必须精通SQL;需要熟练使用Linux操作系统、Hadoop、HDFS、MapReduce、Hive和Hbase等工具,能够进行基于Spark平台的大数据分析和机器学习应用;还需要熟悉数据挖掘的方法,比如回归分析、主成分分析、聚类分析等。
工作内容上,主要负责:
■ 从系统外部采集数据并输入系统内部,即数据采集;
■ 对数据进行ETL,将分布异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础,即数据整合集成;
■ 将抽象的数据用特定的算法转化、规整为一个具体的模型,即数据建模;
■ 通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法挖掘隐藏的信息,即数据挖掘;
■ 借助图形化手段,清晰有效地传达与沟通信息,即数据可视化。
综上所述,业务类和技术类数据分析岗位的主要区别如表1.1所示。
表1.1
类型 |
工作内容 |
岗位名称 |
所在部门 |
不足 |
针对不足的建议 |
---|---|---|---|---|---|
业务类 |
主要负责整理Excel表格、制作PPT、写分析报告,包括日常运营报告、专项研究报告、行业分析报告等 |
产品数据分析师 运营数据分析师 销售数据分析师 …… |
市场部 销售部 产品部 运营部 …… |
对技术的了解不够深入 |
了解数据采集方式、数据字段格式、指标的计算口径与更新时间、算法模型的种类与应用场景 |
技术类 |
主要负责写代码,涉及数据采集、数据整合集成、数据建模、数据挖掘、数据可视化等 |
数据挖掘工程师 数据库工程师 数据开发工程师 …… |
研发部 IT部 数据中心 …… |
对业务缺乏足够的了解 |
了解业务部门分工、职责 |
技术与业务是相辅相成的。技术是理论依据,业务是实践途径。在企业中,技术不能脱离业务存在,业务也离不开技术的支撑。互联网的发展如此迅速,基于良好的技术支持的业务越来越重要,越来越多的决策是基于技术分析的结果做出的。
如果想从事数据分析相关工作,并且想要快速入门并找到合适工作,建议从业务类数据分析师入手,因为相对而言其技术门槛较低,入职后能够深入业务场景,将来也能向运营管理方向发展。如果本身就有一定的技术基础,比如从事过编程相关的工作,可以从数据挖掘工程师入手。当然,技术与业务没有好坏之分,从事什么样的数据分析工作,主要根据自身条件和职业发展规划确定。