精通Excel数据统计与分析

978-7-115-62443-7
作者: 李宗璋
译者:
编辑: 贾鸿飞

图书目录:

详情

本书介绍常用的统计方法,以及如何以Excel为工具实现这些统计方法并对结果进行解读。本书通过对统计学理论与操作实例进行讲解,帮助读者在掌握统计学原理的基础上,熟练运用Excel进行统计分析。 本书有5篇,共16章。第1篇为开篇,包含第1章,叩统计分析与Excel概述;第2篇为描述统计分析,包含第2-5章,分别为定性数据的图表展示、定量数据的图表展示、二维数据的图表展示和描述性统计量的计算;第3篇为推断统计分析基础,包含第6-8章,分别为离散型随机变量的分布、连续型随机变量的分布和抽样分布;第4篇为推断统计分析方法,包含第9-15章,分别为参数估计、单个总体参数的检验、两个总体参数的检验、多个总体参数的检验、非参数检验、相关分析和回归分析;第5篇为时间序列分析,包含第16章,即时间序列分析方法详解。 本书实例丰富,内容通俗易懂,可操作性强,适合从事数据分析工作的人员阅读,也适合作为高等院校相关专业的教材。

图书摘要

版权信息

书名:精通Excel数据统计与分析

ISBN:978-7-115-62443-7

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

著    李宗璋

责任编辑 贾鸿飞

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内容提要

本书介绍常用的统计方法,以及如何以Excel为工具实现这些统计方法并对结果进行解读。本书通过对统计学理论与操作实例进行讲解,帮助读者在掌握统计学原理的基础上,熟练运用Excel进行统计分析。

本书有5篇,共16章。第1篇为开篇,包含第1章,即统计分析与Excel概述;第2篇为描述统计分析,包含第2~5章,分别为定性数据的图表展示、定量数据的图表展示、二维数据的图表展示和描述性统计量的计算;第3篇为推断统计分析基础,包含第6~8章,分别为离散型随机变量的分布、连续型随机变量的分布和抽样分布;第4篇为推断统计分析方法,包含第9~15章,分别为参数估计、单个总体参数的检验、两个总体参数的检验、多个总体参数的检验、非参数检验、相关分析和回归分析;第5篇为时间序列分析,包含第16章,即时间序列分析方法详解。

本书实例丰富,内容通俗易懂,可操作性强,适合从事数据分析工作的人员阅读,也适合作为高等院校相关专业的教材。

作者介绍

李宗璋,暨南大学统计学硕士和华南理工大学管理学博士,现任教于华南农业大学经济管理学院。精通Excel、SPSS、R、EViews等数据分析工具,具有深厚的学术功底和丰富的教学经验,尤其擅长开展数据分析类课程的教学。主讲课程有统计学、多元统计、计量经济学、SPSS与统计实验、R语言与统计应用。她在长期的教学中形成了循循善诱、深入浅出的教学风格,深受学生好评,当选华南农业大学2018年度本科教学“十佳教师”。主持建设广东省2021年度省级一流本科课程“计量经济学”(线上线下混合式)。哔哩哔哩网站个人账号名称“Lizongzhang”,已发布Excel、SPSS、R、EViews、统计学、多元统计等方面的教学视频共计400余个,视频具有简洁明快、细致深入的风格,受到网友广泛赞誉。

前  言

随着移动互联网的快速发展和智能终端的进一步普及,数字经济日新月异,数据资源愈加丰富,我们可以使用各种功能强大的数据分析工具对数据资源进行挖掘与分析。数据成为继土地、劳动力、资本和技术之后的第五大生产要素,正在被越来越多的人认可。与此对应的是,如何利用数据,更好地让数据发挥其应有的作用,这是我们在未来很长一段时间里面临的重要课题。

为什么要学习统计分析

学习统计分析可以帮助我们概括数据特征,探索数据之间的关联,深入理解数据,预测未来。在公共管理、企业决策、健康管理、个人财务规划等方面,通过统计分析,我们可以实现数据赋能,让数据驱动业务创新和增长,提高组织竞争力,改善身体状况、财务状况。

为什么要学习Excel

Excel相比于其他数据分析工具有以下优势。

第一,Excel易学易用。Excel的操作简便,用户可以快速掌握。而其他数据分析工具,用户一般难以入门,学习曲线陡峭。

第二,Excel功能强大。Excel可以实现大多数常用的统计分析方法,包括可视化图表、描述统计、假设检验、回归分析、时间序列分析等。对于一般的数据分析用户,Excel已经足够满足需求。

第三,Excel可以帮助用户更深入地理解统计方法。使用Excel函数可以逐步实现统计分析,让用户了解Excel输出结果背后的步骤。在其他的数据分析工具中,用户输入数据,工具输出结果,整个过程如同黑箱操作,难以使用户理解统计方法的实现过程。

第四,Excel与其他应用程序的兼容性高。Excel中的数据、图形、表格、输出结果可以无缝用于Word、PowerPoint、WPS Office及一些ERP软件。用户可以轻松地在Excel与其他应用程序之间切换。

第五,Excel普及率高。Excel可以在安装了Windows或macOS的计算机上运行,也可以在移动终端运行。用户通过Excel可以轻松完成文件的分享、协作,实现移动办公。

写作初衷

作为一名拥有20多年大学教学经验的统计学专业的教师,我在日常的教学、培训和咨询服务中接触了大量缺乏统计知识和Excel操作经验的人。通过与他们互动,我深刻了解到他们的认知盲区和学习需求。

目前市面上的统计学图书主要介绍统计方法的实现步骤,而对统计方法的适用场景、统计结果的解读,以及结论提炼等方面的介绍不够深入。读者学习完某种统计方法后,在实践中往往还是感到茫然,不知道什么时候应该采用哪种统计方法,不知道如何从统计结果中提取有价值的结论。

另外,市面上虽然有很多介绍Excel操作的图书,但大多数将操作步骤作为写作重点,只介绍如何单击菜单、选择选项去实现某种统计方法。这类图书缺乏对Excel所涉及的统计方法原理、输出结果的介绍。实际上,“小白”在使用Excel时很容易记住操作步骤,经过几次练习就可以掌握使用方法,而最让“小白”感到困惑的往往是应该选择哪种统计分析工具,以及如何解读输出结果。

因此,我写作本书的初衷是为缺乏统计知识的“小白”提供参考,旨在让他们更轻松地学习统计方法及其在Excel中的实现。本书在介绍统计方法时,会首先介绍该方法的应用场景、核心思想,然后介绍该方法在Excel中的实现工具,并总结操作要点,解读输出结果中的关键信息,帮助读者领会和掌握从数据中提取有价值的信息的方法。

本书特色

实操性强:在介绍统计方法时,本书使用Excel函数解释计算的详细步骤,让计算变得生动直观,以加深读者对统计方法的理解。

技术总结:本书归纳和整理使用Excel进行统计分析的经验和技巧,这些是我使用经验和教学经验的结晶。

内容全面:本书涵盖常用的统计方法,包括数据清洗、描述统计分析、推断统计分析,以及时间序列分析。

归纳性强:在每一章最后提供本章知识点的思维导图,以帮助读者整理学习思路,也方便日后查阅。

实战案例:本书结合大量基于现实问题、真实数据的案例进行讲解,为读者提供真实的应用场景。同时在每一章都编排习题,并按章整理例题和习题文件供读者下载练习(在哔哩哔哩网站/App搜索Lizongzhang,从UP主个人主页获取)。

内容新颖:本书采用Microsoft 365 for Mac订阅版进行讲解。此外,Excel整体风格稳健,本书介绍的操作对Excel 2016及以上版本都适用。

本书读者对象

零基础或入门级的统计分析学习者;

零基础或入门级的Excel学习者;

Excel进阶学习者;

从事商业分析、数据分析工作的人员;

各类院校统计学专业的学生。

我在写作过程中力求书中内容准确,但难免存在疏漏,欢迎广大读者反馈发现的问题,发送电子邮件到jiahongfei@ptpress.com.cn。

李宗璋 

2023年8月

第1篇 开篇

本篇介绍统计分析与Excel基本的数据处理功能。首先介绍统计分析的步骤,包括数据收集、整理、分析和结论提炼;然后介绍Excel的统计分析工具(图表工具、函数工具和数据分析工具)、Excel常用技巧,以及Excel的数据清洗方法;最后介绍本书涉及的统计方法。

本篇包括第1章。

第1章 统计分析与Excel概述

本章首先介绍开展统计分析的基本步骤,包括数据收集、整理、分析和结论提炼,然后介绍Excel的统计分析工具、Excel常用技巧,并通过一个实例介绍数据清洗方法,最后介绍本书涉及的统计方法。

本章主要内容

统计分析的步骤

Excel的统计分析工具

Excel常用技巧

Excel的数据清洗方法

本书涉及的统计方法

1.1 统计分析的步骤

开展统计分析时,首先需要收集数据,然后对数据进行整理,运用统计方法分析研究对象的数量特征和变动规律,最终提炼出结论。

1.1.1 收集数据

收集数据是开展统计分析的第一步。在明确研究目标、研究对象和研究范围后,研究者需要判断所需数据的类型,以便选用适宜的数据收集方式。

首先,研究者需要判断数据是宏观数据还是微观数据。宏观数据通常是基于行政区域层面的,例如国家、省/直辖市/自治区、市、县(区)等层面的数据,这类数据是行政区域内所有微观数据的汇总。例如广州市高校在校生人数,是广州市所有高校的在校生人数的总和;再如深圳市南山区本地生产总值,是深圳市南山区所有经济活动单位生产总值的总和。宏观数据通常由政府部门、官方机构发布。

微观数据的观测单元是个体,例如个人、企业,反映的是个体层面的信息。微观数据通常通过数据库、调查问卷、观测或实验的方法收集。例如CSMAR(China Stock Market & Accounting Research)数据库中的上市公司的数据,中国家庭追踪调查(China Family Panel Studies,CFPS)中家庭成员、家庭、社区的数据都是微观数据。

其次,研究者要确定数据是截面数据(Cross Sectional Data)还是时间序列数据(Time Series Data)。若研究关注观测单元在个体上的差异,那么需要收集截面数据;若研究关注观测单元的动态变化,则需要收集时间序列数据。若要同时研究观测单元的个体差异和动态变化,则需要收集面板数据(Panel Data)。

最后,研究者还要确定数据是定性数据(Qualitative Data)还是定量数据(Quantitative Data)。定性数据反映的是研究对象属性方面的特征,这类属性是无法量化的,例如性别、地区、行业、学历等,通常以文本的形式表示。定性数据可以细分为称名数据(Nominal Data)和顺序数据(Ordinal Data)。称名数据反映的属性是并列的,例如性别,男、女是并列的分类。顺序数据反映的属性是可以排序的,例如学历、满意度,可以按一定顺序排列。定量数据反映的是研究对象可以量化的特征,例如年龄、身高、体重等,通常以数字的形式表示。定量数据包含的信息最丰富,可以进行的统计运算也最多,其次是顺序数据,称名数据包含的信息最少,能进行的统计运算也最少。

1.1.2 整理数据

统计分析的第二步是整理数据。首先,将数据转化为结构化表格的格式,其中每一行代表一个观测单元,每一列代表一个变量,这是大多数统计软件能够识别的格式。随后需检查数据的完整性和合理性,包括查看是否存在重复值、缺失值、异常值,以及将文本转化为数值代码。这一步通常也称为数据清洗。1.4节将介绍Excel中的数据清洗方法。

1.1.3 分析数据

统计分析的第三步是分析数据。在这一步要根据研究目的、数据类型选择恰当的统计分析方法。统计分析方法分为描述统计分析和推断统计分析两类。描述统计分析是指对零散数据进行概括,包括利用表格和图形对数据进行呈现,计算均值、中位数、标准差等描述性统计量。本书第2~5章将介绍描述统计分析方法。推断统计分析是指根据样本数据对总体特征进行推断,本书第9~15章将介绍推断统计分析方法。第16章将介绍时间序列分析方法。

1.1.4 提炼结论

统计分析的第四步是提炼结论。在这一步要对运用统计分析方法得到的数据进行梳理和归纳,从中提炼出有价值的结论。这些结论能够概括数据的内在规律,以及变量之间的关系,进一步体现统计分析的价值。

1.2 Excel的统计分析工具

Excel的统计分析工具主要有三大类,一是图表工具,二是函数工具,三是数据分析工具。

1.2.1 图表工具

启动Excel,单击“插入”,如图1.1所示,两个方框所示的区域中分别是表格工具和图形工具,将在第2篇进行详细介绍。

图1.1 “插入”卡片下的表格工具和图形工具

1.2.2 函数工具

Excel中有功能丰富的函数,分为统计、财务、日期与时间、数学与三角函数、查找与引用、文本、逻辑、工程等门类,共计400多个。如图1.2所示,单击“”,在弹出的对话框中可以按门类查找函数,也可在搜索框中搜索函数。

图1.2 函数工具

如图1.3所示,单击“公式”→“其他函数”→“统计”,弹出“统计”下的函数列表,单击函数名即可调用函数。

图1.3 “公式”卡片中的函数分类

1.2.3 数据分析工具

数据分析工具是Excel的加载项,其中包括描述统计、假设检验、回归分析等统计模块。

在Windows系统下第一次使用数据分析工具时,需要加载该工具。macOS的Excel无须执行加载的操作,在“数据”卡片中可直接调用“数据分析”加载项。下面介绍如何在Windows系统下加载数据分析工具。

在Excel主界面,单击“文件”→“更多”→“选项”(见图1.4),打开“Excel选项”对话框。

图1.4 打开“Excel选项”对话框

在“Excel选项”对话框中,单击左侧的“加载项”,如图1.5所示,“非活动应用程序加载项”中有“分析工具库”,表明此时“分析工具库”处于非活动状态,也就是不可用状态。

单击“分析工具库”→“转到”,弹出图1.6所示的对话框,在其中勾选“分析工具库”,单击“确定”。

图1.5 “Excel选项”对话框

图1.6 “加载项”对话框

此时,“分析工具库”已处于活动状态。在Excel主界面的“数据”卡片下单击“数据分析”,弹出的对话框如图1.7所示。

下一次启动Excel后,无须重复前述步骤,可以在“数据”卡片下直接调用数据分析工具。

图1.7 “数据”卡片中打开的“数据分析”对话框

1.3 Excel常用技巧

本节将介绍Excel的快捷键、单元格填充柄的使用。

1.3.1 Excel的快捷键

Excel 的快捷键可以分为基础操作、光标定位、范围框选、编辑计算等类型,表1.1列出了常用快捷键及其功能说明。

表1.1 Excel的常用快捷键

类型

功能

Windows

macOS

基础操作

复制单元格

Ctrl + C

command + C

剪切单元格

Ctrl + X

command + X

粘贴剪贴板内容

Ctrl + V

command + V

撤销上一步操作

Ctrl + Z

command + Z

重做

Ctrl + Y

command + Y

光标定位

使光标回到左上角单元格

Ctrl + Home

control + fn + ←

使光标回到第一行

Ctrl + ↑

command + ↑

使光标回到最后一行

Ctrl + ↓

command + ↓

使光标回到最左边一列

Ctrl + ←

command + ←

使光标回到最右边一列

Ctrl + →

command + →

范围框选

向下框选至最后一行

Ctrl + Shift + ↓

control + shift + ↓

向上框选至第一行

Ctrl + Shift + ↑

control + shift + ↑

向右边框选至最后一列

Ctrl + Shift + →

control + shift + →

向左边框选至第一列

Ctrl + Shift + ←

control + shift + ←

框选整个表单

Ctrl + Shift + *

control + shift + *

编辑计算

快速填充

Ctrl + E

control + E

删除行/列

Ctrl + −

control + −

插入行/列

Ctrl + Shift + =

control + shift + =

查找和替换

Ctrl + H

启动筛选

Ctrl + Shift + L

control + shift + L

设置格式

Ctrl + 1

control + 1

创建表

Ctrl + T

control + T

1.3.2 单元格填充柄

拖曳单元格填充柄,可以实现内容、公式的自动填充。框选单元格区域“A2:F3”,如图1.8所示,将鼠标指针移动到单元格F3的右下角,待其变为“十”字形的单元格填充柄后,往下拖曳即可得到图1.9所示的内容。

图1.8 框选单元格区域

Excel按照每列单元格内容的规律进行了自动填充,如图1.9所示。

图1.9 拖曳单元格填充柄填充内容

拖曳单元格填充柄,还可以实现公式的自动填充。如图1.10所示,在单元格H17中录入公式“=AVERAGE(H2:H15)”(见单元格H18)计算年龄的均值,选中单元格H17,往右拖曳单元格填充柄即可自动填充计算身高和体重的均值的公式。单元格I17中的公式为“=AVERAGE(I2:I15)”(见单元格I18),计算均值的数据范围从“H2:H15”变成“I2:I15”。

图1.10 拖曳单元格填充柄填充公式

接下来,在列K中计算体重由大到小的排序。在单元格K2中录入公式“=RANK.EQ (J2,J2:J15,0)”。RANK.EQ函数的第1项参数是观测值所在单元格,第2项参数是观测值所在的单元格区域,第3项参数是0或1(0代表降序排列,1代表升序排列)。单击单元格K2,往下拖曳单元格填充柄填充公式,在列L中可以看到列K单元格中对应的公式。单元格K3中填充的公式是“=RANK.EQ(J3,J3:J16,0)”,此时,第1项参数J3是待排序的观测值179所在单元格,第2项参数“J3:J16”与原本的单元格区域“J2:J15”不再一致。因此,为了避免向下拖曳单元格填充柄时“J2:J15”变为“J3:J16”,需要使用绝对引用符$。

在单元格M2中录入公式“=RANK.EQ(J2,J$2:J$15,0)”,往下拖曳单元格填充柄填充公式,从列N中观察列M单元格中的公式,可以发现RANK.EQ函数的第1项参数从J2变成了J3、J4……J15,但是第2项参数始终是“J$2:J$15”,固定在体重的观测值所在的单元格区域,如图1.11所示。

图1.11 单元格的绝对引用

使用单元格填充柄可以提高录入公式的效率,但要注意单元格的绝对引用和相对引用。若往右拖曳单元格填充柄,要使单元格引用不发生变化,需在列号前加上绝对引用符$;若往下拖曳单元格填充柄,要使单元格引用不发生变化,则需在行号前加上绝对引用符$。

实操技巧

使用Excel快捷键,可以提高操作效率。

使用单元格填充柄,可以实现内容、公式的自动填充。

1.4 Excel的数据清洗方法

在实践中,从调查问卷、数据库或者网页获取的数据可能并不规范,例如包含重复值、缺失值,数字因以文本的格式存储而无法进行计算等。将数据整理成规范的格式,可以提高分析数据的效率,达到事半功倍的效果。本节通过例1.1介绍Excel中常用的数据清洗方法。

图1.12所示是某年NBA全明星赛中的球员数据。

图1.12 某年NBA全明星赛中的球员数据

1.4.1 剔除重复值

单击单元格A1,单击“数据”→“删除重复项”,在弹出的对话框中勾选“ID”“First Name”和“Last Name”,如图1.13所示,若存在这3个变量的观测值相同的记录,则认为它们是重复记录。

图1.13 “删除重复项”对话框

单击“删除重复项”对话框中的“确定”,弹出图1.14所示的警告,提示“2找到并删除重复值;保留18唯一值”等,表示表中原本有20条记录,删除了其中2条重复记录。

图1.14 “删除重复项”的警告

1.4.2 剔除缺失值

图1.12所示的表中有空白单元格,存在数据缺失的记录(缺失值)。通常,需要将缺失值剔除,以保证在整个研究中样本容量的一致性。若不剔除缺失值,会面临在分析不同的变量时样本容量不一致的情况,也可能导致某些统计分析无法实现。

首先框选单元格区域“A1:I19”,然后单击“开始”→“编辑”→“查找和选择”→“定位条件”,弹出“定位条件”对话框,选择“空值”,如图1.15所示,单击“确定”。

图1.15 打开“定位条件”对话框

空白单元格被选中,单击鼠标右键并在弹出的快捷菜单中选择“删除”(或者按Ctrl + −),弹出“删除”对话框,选择“整行”,如图1.16所示,单击“确定”,即可将缺失值所在行剔除。

图1.16 剔除缺失值

删除了存在缺失值的4行,保留了14条记录。

1.4.3 英文字母的大小写转换

使用UPPER函数或LOWER函数可以分别将英文字母全部转换成大写或者全部转换成小写,使用PROPER函数可以将首字母转换为大写。如图1.17所示,列B中有的球员名字的首字母没有大写,在其右侧插入3个空白列,在单元格C2中录入公式“=PROPER(B2)”,然后框选单元格区域“C2:C15”,单击“开始”→“编辑”→“填充”→“向下”,即可自动完成公式填充。

图1.17 “开始”卡片中的“填充”工具

由于列C中的值根据列B中的值计算而得,若删除列B,会导致列C中的计算无法实现。如图1.18所示,复制单元格区域“C1:C15”,然后单击单元格E1,再单击鼠标右键,在弹出的快捷菜单中选择“选择性粘贴”→“值”,即可复制列C中的值到列E中。此时将列B删除,列E中的值不会受到影响。

图1.18 选择性粘贴

图1.12所示表格中列D中的国家名称,也存在大小写不一致的问题,使用UPPER函数可以将国家名称的所有字母都设置为大写。

1.4.4 删除多余的空格

如图1.19所示,单元格C4和C13中有几个多余的空格,使用TRIM函数可以删除单元格中多余的空格。若不删除多余的空格,Excel会认为“ Mathurin”和“ Mathurin”是两个不同的观测值,会造成统计错误。

图1.19 单元格中存在多余空格

1.4.5 观测值的批量替换

图1.20中的列F是球员所在的学校的名称,Duke University和Duke都表示杜克大学,University of CA Los Angeles和UCLA都表示加州大学洛杉矶分校。在录入学校名称数据时,有的用简称,有的用全称,我们需要将形式上不同但实质内容相同的观测值统一。

首先,在单元格G2中录入公式“=UNIQUE(F2:F15)”(见单元格H2),用UNIQUE函数查看学校名称的取值情况。

然后,如图1.20所示,框选单元格区域“F2:F15”,单击“开始”→“查找和选择”→“替换”,在“查找和替换”对话框的“查找内容”文本框中输入Duke University,在“替换为”文本框中输入Duke。单击“全部替换”,提示“完成2处替换”,如图1.21所示。再用同样的操作将University of CA Los Angeles替换为UCLA。

图1.20 使用UNIQUE函数并进行查找和替换

图1.21 查找和替换的结果

1.4.6 文本分列

列G中的出生日期中的时间是无用数据,需要删除。首先,在列G右侧插入一列,用来存放分列后的内容。然后,选中列G,即需要分列的内容。单击“数据”→“分列”,在弹出的“文本分列向导-第1步,共3步”对话框中选择“分隔符号”,如图1.22所示,单击“下一步”。

图1.22 文本分列的第1步

在“文本分列向导-第2步,共3步”对话框中勾选“制表符”、“空格”和“连续分隔符号视为单个处理”,下方预览区域中出现了一条分列线,将“年月日”与“00:00:00”分开,如图1.23所示,单击“下一步”。

图1.23 文本分列的第2步

根据图1.24进行设置,“目标”是指定分列以后的数据的输出位置。本例使用默认设置,分列后的数据放置于以单元格G1为左上角的单元格区域,并将替换列G中原有的数据。

图1.24 文本分列的第3步

单击图1.24所示对话框中的“完成”,得到图1.25所示的结果,再删除列H即可。

图1.25 文本分列的结果

1.4.7 以文本形式存储的数据的转换

以文本形式存储的数据无法进行数值运算,需将其转换成数值,如图1.26所示。在列H右侧插入2个空白列,在单元格H16中录入公式“=AVERAGE(H2:H15)”(见单元格H17)计算年龄均值,返回“#DIV/0!”(见单元格H16)。列H中的年龄观测值的左上角有绿色的标记,代表这些单元格中的数据都是以文本形式存储的。这时需要调用VALUE函数,将文本数据转换成数值。

在单元格I2中录入公式“=VALUE(H2)”(见单元格J2),将其中文本转换为数值后方可对其进行计算。用同样的方式转换单元格区域H3:H15中的数据,然后再计算年龄均值。

框选单元格区域“H2:H15”,单击三角形惊叹号,选择“转换为数字”,如图1.27所示,也可以将以文本形式存储的数据转换为数值。

图1.26 计算年龄均值

图1.27 将以文本形式存储的数字转换为数值

列I中的身高观测值如“6-6”的实际含义是6ft(英尺)6in(英寸),需要将其转换为数值。首先利用1.4.6节中介绍的分列,将列I中的数据进行分割,分隔符设置为“−”,如图1.28所示。

图1.28 设置分隔符为“-”

如图1.29所示,在单元格K2中录入公式=I2*30.48+J2*2.54(见单元格L2),将身高调整为以厘米为单位的数据。(1ft≈30.48cm,1in≈2.54cm。)

图1.29 计算以厘米为单位的身高

1.4.8 快速填充

列J中的体重观测值都含有单位“lbs”(磅),在单元格K2中录入189,单击“数据”→“快速填充”,即可进行批量转换,如图1.30所示。

图1.30 “数据”卡片上的“快速填充”

在列C右侧插入一列,然后在单元格D2中录入Joshua Primo,单击“数据”→“快速填充”,即可将First Name和Last Name合并成全名,如图1.31所示。

图1.31 将First Name和Last Name合并成全名

1.4.9 异常值和缺失值的识别

如图1.32所示,在数据区域下方计算每个变量的最大值、最小值,考查观测值的分布是否在一个合理的区间中(以列J为例在列K中给出函数示例)。对于文本形式的变量,其最大值和最小值都等于0。

对于数值型数据,利用COUNT函数统计包含数值的单元格个数。对于文本数据,利用COUNTA函数统计包含非空单元格的个数。使用COUNTBLANK函数可以统计空白单元格的个数。对每个变量,检查上述统计结果的一致性。

图1.32 异常值和缺失值的识别

1.4.10 数值代码转换为文本

如图1.33中的列B所示,性别和专业的观测值都是数值代码,若直接以数值代码绘制图形,则图形中的标注也是数值代码,这不利于理解。利用IF函数将数值代码转换为文本,这样生成的图就能让人一目了然。IF函数的第1项参数是条件表达式,若条件成立,则返回第2项参数值,若条件不成立,则返回第3项参数值详见图1.33中的列D,其返回结果见图1.33中的列C。

图1.33 利用IF函数将数值代码转换为文本

注意:IF函数中的第2项和第3项参数值若是文本,需要用半角双引号引起来。

实操技巧

框选数据区域,单击“数据”→“删除重复项”,剔除重复值。

框选数据区域,单击“开始”→“编辑”→“查找和选择”→“定位条件”,弹出“定位条件”对话框,选择“空值”,单击“确定”,剔除缺失值。

使用UPPER函数可以将英文字母转换成大写,使用LOWER函数可以将英文字母转换成小写,使用PROPER函数可以将首字母转换为大写。

使用TRIM函数可以删除单元格中多余的空格。

单击“数据”→“分列”,将单元格中的内容按指定形式分隔,或者添加分列线,对文本进行分列。

使用VALUE函数可以将以文本形式存储的数据转换为数值。

使用“数据”卡片下的“快速填充”,可以执行批量转换。

计算定量变量的最大值、最小值,可以考查观测值是否分布在一个合理的区间中。

使用COUNT函数可以统计包含数值的单元格个数,使用COUNTA函数可以统计包含非空单元格的个数,使用COUNTBLANK函数可以统计空白单元格的个数。

使用IF函数可以将数值代码转换为文本,它的第1项参数是条件表达式,若条件成立,则返回第2项参数值,若条件不成立,则返回第3项参数值。

使用“选择性粘贴”可以只粘贴单元格的值,去掉公式信息。

1.5 本书涉及的统计方法

本书根据变量的个数和类型,对统计方法进行分类梳理,旨在为读者在选择统计方法时提供指引。首先,读者要判断数据是截面数据还是时间序列数据。然后,根据研究目标判断要研究的是单个变量的特征还是两个或多个变量之间的关系等。接下来,根据数据是定性的还是定量的,以及需要采用描述统计还是推断统计,按图索骥,选择合适的统计方法。本书涉及的统计方法如图1.34所示,具体细节将在各章详细介绍。

图1.34 本书统计方法图谱

1.6 本章总结

图1.35概括了本章介绍的主要知识点。

图1.35 第1章知识点总结

1.7 本章习题

习题1.1

图1.36所示是奶茶店的部分数据截图,包括店铺名称、评论数、客单价、所在区域、店铺类型和团购一共6个变量(数据文件:习题1.1.xlsx)。请对该数据进行清洗,完成以下任务。

1.将店铺名称分为品牌名称和分店地址两个变量。

2.将以文本形式存储的评论数和客单价转换为数值。

3.所在区域中有的含有“/”,删除该符号。

4.将团购中的价格信息提取为定量变量。

5.剔除重复值。

6.剔除缺失值。

7.检查数据中是否存在异常值。

8.统计每个变量的观测值个数。

图1.36 习题1.1的部分数据

【习题1.2】

图1.37所示是一份关于在线教学的调查问卷部分数据(数据文件:习题1.2.xlsx)。该数据中数值代码的含义如下。

性别:1=男性,2=女性。

你是否使用纸质版的教材:1=用,2=不用。

你最常用的上网方式:1=手机流量,2=Wi-Fi。

请对该数据进行清洗,完成以下任务。

1.将性别的观测值转换为“男”和“女”。

2.将你是否使用纸质版的教材的观测值转换为“用”和“不用”。

3.将你使用的电子设备的观测值转换为适合处理的形式。

4.将你最常用的上网方式的观测值转换为“手机流量”和“Wi-Fi”。

5.剔除缺失值。

6.检查数据中是否存在异常值。

7.统计每个变量的观测值个数。

图1.37 习题1.2的部分数据

相关图书

精通 Power Query
精通 Power Query
机器学习与数据挖掘
机器学习与数据挖掘
科学知识图谱:工具、方法与应用
科学知识图谱:工具、方法与应用
数以达理:量化研发管理指南
数以达理:量化研发管理指南
Power BI 零售数据分析实战
Power BI 零售数据分析实战
数据分析师典型面试题精讲
数据分析师典型面试题精讲

相关文章

相关课程