版权信息
书名:SPSS医学数据统计与分析
ISBN:978-7-115-62977-7
本书由人民邮电出版社发行数字版。版权所有,侵权必究。
您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。
我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。
如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。
版 权
编 著 宗 敏 徐君南
责任编辑 胡俊英
人民邮电出版社出版发行 北京市丰台区成寿寺路11号
邮编 100164 电子邮件 315@ptpress.com.cn
网址 http://www.ptpress.com.cn
读者服务热线:(010)81055410
反盗版热线:(010)81055315
内 容 提 要
本书以SPSS 28.0为软件应用平台,由浅入深地全面讲解SPSS软件在医学统计学上的应用。本书通过图文并茂的方式讲解SPSS在医学统计工作中的各项操作,讲解深入浅出,以案例引导,内容翔实、清晰、直观,易学易用。
本书分为16章,详细介绍SPSS与医学统计学,医学资料的描述性统计分析、参数检验、非参数检验、方差分析、相关分析、回归分析、聚类分析与判别分析、主成分分析与因子分析、对应分析、可涵盖信度与多维尺度、生存分析、时间序列分析、统计表与统计图、观察性研究设计、实验性研究设计等内容。本书涉及面广,涵盖医学数据处理中需要使用的各种SPSS功能,全书按逻辑顺序编排,自始至终结合案例进行描述,内容完整且每章相对独立,是一本详尽实用的SPSS医学统计用书。
本书适合医学、生物科学领域的学生、科研人员学习使用,也适合作为高等院校医学、生物学等相关专业的教学参考书。
作 者 简 介
宗敏,毕业于首都医科大学,现就职于北京朝阳医院,副主任医师,从事临床工作十余年。熟练掌握各种心血管疾病的常规诊疗与临床数据分析方法,发表北大核心及SCI学术论文10余篇。
徐君南,辽宁省肿瘤医院教授,中国医科大学硕士研究生导师,辽宁省药品监督管理局药物临床试验检查员。长期工作在临床一线,从事医学基础研究工作。曾荣获辽宁省“兴辽英才计划青年拔尖人才”称号、辽宁省科技进步奖二等奖等。熟练掌握临床数据统计分析方法,主持国家自然科学基金多项,发表SCI论文20余篇。
前 言
医学统计学是描述、归纳、探索医学数据分布特征和解释医学数据规律的一门学科,广泛应用于临床医学、基础医学、公共卫生学和医疗卫生服务研究中。SPSS是广受认可的统计分析软件,因功能丰富、效率高、操作简便而著称,是非常适合进行医学统计学数据分析的工具软件。
本书基于SPSS 28.0编写,该版本在界面设置、数据管理、报表和图标、编程能力等方面有很大改进和提高。本书采用“完全案例”的编写形式,知识点与相关操作技巧结合紧密,专业性、层次性、技巧性等特点鲜明,这也使该书的实用价值达到一个很高的层次。
本书讲解医学统计学与SPSS的基础知识和综合应用,主要分为3个部分,即基础知识、数据分析和实验设计,其中基础知识部分包括第1章,数据分析部分包括第2~14章,实验设计部分包括第15、16章。
第一部分:基础知识。该部分从医学统计学的基本概念、SPSS的发展简史及数据输入输出等方面切入,使读者掌握SPSS的基本知识及数据分析前的数据整理方法,为之后的数据分析打下基础。
第二部分:数据分析。该部分全面讲解SPSS在医学统计学领域的应用,以实用为目标,通过简明扼要的讲解,并以案例引导,使读者全面掌握各种统计方法的操作。
第三部分:实验设计。该部分以案例作为导向,通过全面的数据分析,培养读者的医学统计实验设计能力,进一步加深读者对SPSS的理解。
本书结构合理、叙述详细、案例丰富,既可以作为从事医学数据分析的广大科研工作者、在校学生等不同层次的读者的自学用书,也可以作为高等院校相关专业的教学参考书。
SPSS也是一个庞大的资源库与知识库,本书所讲难窥其全貌,虽然在本书的编写过程中编者力求叙述准确、完善,但由于水平有限,书中欠妥之处在所难免,希望广大读者能够及时指出,共同促进本书质量的提高。
本书提供所有配套案例素材,读者可通过异步社区网站免费获取。此外,读者可通过扫描书中二维码观看视频讲解,以更好地提升学习效果。
如果读者在学习过程中遇到与本书有关的技术问题,可以访问“算法仿真”公众号并回复“62977”获取帮助,公众号提供了读者与编者的沟通渠道,我们将竭诚为您服务。
资源与支持
资源获取
本书提供如下资源:
● 案例素材;
● 配套彩图;
● 本书思维导图;
● 异步社区7天VIP会员。
要获得以上资源,您可以扫描下方二维码,根据指引领取。
提交错误信息
作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。
当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”,输入错误信息,单击“提交勘误”按钮即可(见下页图)。本书的作者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100积分。积分可用于在异步社区兑换优惠券、样书或奖品。
与我们联系
我们的联系邮箱是contact@epubit.com.cn。
如果您对本书有任何疑问或建议,请您发邮件给我们,并请在邮件标题中注明本书书名,以便我们更高效地做出反馈。
如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。
如果您所在的学校、培训机构或企业,想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。
如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接发邮件给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。
关于异步社区和异步图书
“异步社区”(www.epubit.com)是由人民邮电出版社创办的IT专业图书社区,于2015年8月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作者与读者在线交流互动,以及传统出版与数字出版的融合发展。
“异步图书”是异步社区策划出版的精品IT图书的品牌,依托于人民邮电出版社在计算机图书领域的发展与积淀。异步图书面向IT行业以及各行业使用IT的用户。
第一部分 基础知识
第1章 SPSS与医学统计学
医学统计学是运用概率论与数理统计的原理及方法,结合医学实际,研究数字资料的收集、整理、分析与推断的一门学科。SPSS是广受认可的统计分析软件,适合进行各类数据分析,在医学统计学中具有广泛应用。将医学统计学与SPSS结合可以快捷方便地解决各类医学统计问题。在正式进入学习前,本章首先介绍医学统计学的相关概念和SPSS的入门级操作。
学习目标:
(1)了解SPSS的发展简史。
(2)熟知SPSS窗口及基本功能含义。
(3)了解医学统计工作的基本步骤。
(4)了解常见的医学统计资料的类型。
1.1 医学统计工作基本步骤
医学研究的对象主要是人体以及与人的健康有关的各种因素,是评价人类健康水平,探索疾病发生及疾病预测的学科,能帮助我们更好地认识和掌握个体及群体健康变化的规律。
生物现象的一个重要特点就是普遍存在着变异。所谓变异(个体差异),是指相同条件下同类个体之间某一方面发展的不平衡性,系偶然因素起作用的结果。
例如同地区、同性别、同年龄的健康人,他们的身高、体重、血压、脉搏、体温、红细胞计数、白细胞计数等的数值都会有所不同。又如在同样条件下,用同一种药物来治疗某病,有的病人被治愈,对有的病人疗效不显著,对有的病人可能无效,甚至可导致其死亡。
引起客观现象差异的原因是多种多样的,归纳起来,一类原因是普遍的、共同起作用的主要因素,另一类原因则是偶然的、随机起作用的次要因素。这两类原因总是错综复杂地交织在一起,并以某种具有偶然性的形式表现出来。
医学科学研究的任务就在于,要从看起来错综复杂的偶然性中揭露出潜在的必然性,即事物的客观规律。这种客观规律是在大量现象中发现的,比如临床上要观察某种疗法对某病的疗效时,如果观察的病人很少,便不易正确判断该疗法对某病是否有效;但当观察病人的数量足够多时,就可以得出该疗法在一定程度上有效或无效的结论。所以,医学统计学是医学科学研究的重要工具。
医学统计工作的基本步骤包括医学研究设计、收集资料、整理资料和分析资料,它们紧密相连、缺一不可,任何一步的缺陷都将影响最终研究结果。
1.1.1 医学研究设计
医学研究设计是医学统计工作中的重要内容,它是医学统计工作的第一步,是对研究过程、内容及具体实施方法和步骤的总设想或安排,即制定周密、具体的要求和计划。因此,医学研究设计是整个统计工作过程中最关键的一步,也是后面3个步骤实施的依据。
医学研究通常包括实验性研究和观察性研究,前者主要指在人为干预的条件下获得数据,后者则指在自然发展的情况下收集数据。研究设计有专业设计和统计设计,实际应用过程中两者相辅相成。专业设计主要反映研究者对专业知识的掌握程度,与科研课题和项目的深度及水平有关。统计设计主要反映研究者对统计知识、技术正确应用的程度和科学研究的能力,主要与科研工作的质量有关。在整个统计设计中,有关收集资料的计划是核心部分,它主要包括拟定研究方案、确定观测对象和观测单位、确定样本含量和抽样方法、制定实验过程中的质量控制措施、初步确定拟使用的统计方法等。
1.1.2 收集资料
收集资料是获得研究所需原始资料的过程,要根据研究目的与设计确定收集方式。实验性研究的收集方式主要是通过专项实验,如临床试验、动物实验;观察性研究的收集方式主要是通过专题调查。无论是通过何种途径收集到的资料,都应强调它的准确性、完整性。
医学科学研究原始资料的来源如下。
(1)报表资料
医疗卫生领域里的各种报表,如传染病报表、疾病检测报表、医院年度统计报表、卫生统计年鉴等。
(2)医疗、预防机构的日常工作记录
如住院病例、经常性工作记录和数据库等。在疾病治疗质量评价的研究中,确定了评价指标后,要对医院住院患者的病例数据进行收集,利用统计分析方法进行影响因素调整和治疗质量评价。
(3)专题研究的实验数据和调查资料
专题研究或实验研究一般指为解决某个问题或验证某个假说等所进行的专门研究。如全国7~10岁儿童龋病现场调查、某地Ⅱ型糖尿病调查、全国膳食营养水平调查、某地中小学生抑郁情况调查、某地中小学生的健康状况研究等。
1.1.3 整理资料
整理资料是对收集到的原始资料进行有目的的审核、校正、整理,使之系统化、条理化,以便于进一步计算统计指标并进行分析。整理资料的过程包括:
(1)对原始资料进行检查、核对、纠错,消除收集和录入数据的过程中可能出现的差错;
(2)根据常识、专业知识、逻辑关系对资料的合理性和一致性进行检查与核对,如研究某种妇科疾病发生的影响因素时,排查资料中是否有男性患者的记录;
(3)根据统计分析的要求,将观察单位按类别(如性别、职业、疾病分类、婚姻状况等)或数值大小(如年龄、体重指数等)归类分组,并分组汇总资料。
1.1.4 分析资料
分析资料是对整理的资料进行统计分析,获取资料中有关信息的过程,包括统计描述和统计推断两个方面。统计描述是通过计算有关的统计指标,对资料进行全面概括的描述,包括统计指标的计算和统计图表的绘制。统计推断是从样本中的信息推断总体特征,包括参数估计和假设检验两部分,参数估计是指用样本统计量估计总体参数,假设检验是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。
1.2 医学统计学的基本概念
医学统计学涉及许多概念和原理,下面的几组基本概念是医学统计学的基础。
1.2.1 同质与变异
同质是指个体的观察指标所受的影响因素相同。这里所说的“相同”有时是相对的,也就是说,观察单位所受的影响因素有时不可能达到绝对一致。
特别是在医学研究中,有些影响因素是难以控制的,甚至是未知的,如遗传、心理等因素,这时只要保证主要影响因素相同或基本相同就可以认为个体是同质的。
变异是指在同质的基础上个体间的差异性,如相同年龄、性别、身高的正常儿童的体重不是都相同的,这种情况就称为体重的变异。对于人和其他生物体,变异是广泛存在的。尽管变异具有一定的随机性和偶然性,但变异是有规律的。统计学正是探讨并利用变异规律的科学,若无变异则无须统计。
1.2.2 总体与样本
总体就是根据研究目的确定的同质个体的全体,它实际上是某一指标值的集合。样本是从总体中随机抽取的部分个体,样本中的个体的数目称为样本含量。
由于直接研究总体通常是不可能或不必要的,因此实际工作中总是从总体中抽取个体组成样本,根据样本所提供的信息推断总体的特征。从总体中抽取的样本必须具有代表性、随机性和可靠性。
(1)代表性
代表性是指样本要满足总体对个体同质性的规定,属于所规定的总体的范围。
(2)随机性
随机性是指总体中任何个体都有同等机会被抽取进入样本,样本中的任何个体都有同等机会被分配到任何一个处理组中。
(3)可靠性
可靠性是指样本含量要足够大,这样根据样本推断总体得出的结论才是可靠的。在实际工作中,确定样本含量大小的原则是既要保证研究结果可靠,又要避免浪费。
1.2.3 误差
统计学所说的误差泛指测量值与真实值之差,以及样本指标与总体指标之差。根据误差产生的原因及其性质,可以将误差分为3类。
(1)系统误差
系统误差是指由确定原因(如测量仪器未校准、医生判断标准偏高或偏低等)引起的观测值与真实值呈倾向性的偏差。由于系统误差影响了原始资料的准确性,且其产生的原因是明确的,因此在收集资料的过程中必须消除系统误差。
(2)随机测量误差
随机测量误差是指由于非人为的偶然因素造成的同一个体的多次观测结果之间存在的没有固定倾向的偏差。对于这类误差应尽可能加以控制,至少将其控制在一个允许的范围内。在实际工作中,可以通过多次测量后计算平均值的方法减小甚至消除随机测量误差。
(3)抽样误差
抽样误差是指由于研究的对象是样本而非总体以及总体中个体存在变异而造成的样本指标与总体指标之间的偏差。抽样误差是不可避免的,但抽样误差是有规律的,因而是可控制的。统计推断过程正是对抽样误差进行计算后由样本估计总体的过程。
1.2.4 频率与概率
频率是指某事件出现的次数与总试验次数的比值。随着总试验次数无限增加,某事件出现的频率在某一确定值附近摆动并无限趋近于这个值,这个值就确定为该事件出现的概率。在医学统计中常将频率简称为率,如患病率、有效率等,这时频率也称为统计概率。概率是对随机事件发生可能性大小的量度,用符号P表示。概率的范围为0~1,必然发生的事件其概率为1,不可能发生的事件其概率为0。某事件的发生概率P越大,该事件发生的可能性越大。
在医学研究中,通常将P<0.05或P<0.01的事件称为小概率事件。一般认为在一次随机抽样中小概率事件基本不会发生,这就是小概率事件原理。小概率事件原理是统计推断的一个重要原理。
1.2.5 变量与资料
变量是描述研究对象某种特征的指标,变量全部或部分的测量值构成资料。例如在研究癌症患者的影响因素时,获得了癌症患者的年龄、性别、用药类型、生存时间等变量,这些变量的测量值构成资料。
统计分析中识别变量和资料的类型非常重要,这决定了统计分析方法的选择,不同类型的变量和资料要用不同的统计方法去分析。资料分为计量资料、计数资料和等级资料,变量分为定量变量和定性变量。
(1)计量资料
每个研究对象的变量值为一数值,表现出量的大小,由这样的一组研究对象的定量测量值所构成的资料即计量资料。
计量资料可以是离散变量资料,也可以是连续变量资料。离散变量(如一年中的住院患者数、新生儿数等)只能取整数值;连续变量可以取实数轴上的任何数值,“连续”是指该类型变量可以在实数轴上连续变动,如身高、体重、骨密度等。
(2)计数资料
每个研究对象的变量值为互不相容的属性(类别)之一,由这样的一组研究对象的定性变量值组成的资料即计数资料,包括二分类计数资料与多分类计数资料。
若变量值的属性(类别)为二分类,则称该资料为二分类计数资料,如性别(男或女)、疾病预后(生或死)等资料;若变量值的属性(类别)为无序多分类,则称该资料为无序多分类计数资料,如血型(O型、A型、B型、AB型)资料。
(3)等级资料
每个研究对象的变量值为互不相容的属性(类别)之一,且这些属性(类別)间有不同程度的递增或递减关系,由这样的一组研究对象的变量值组成的资料即等级资料,如结核患者的痰涂片结果(阴性、可疑、阳性)、临床检验结果(–、±、+、++、+++)等资料。
为了研究需要或数据分析方便,有时要对资料进行转换,一般是将计量资料转为计数资料或等级资料。
(4)定性变量
定性变量又名分类变量,观测的个体只能归属于几种互不相容类别中的一种时,一般是用非数字来表达其类别。
(5)定量变量
定量变量也就是通常所说的连续量,如长度、重量、产量、人口、速度和温度等,它们是由测量或计数、统计所得到的量,这些变量具有数值特征。
1.2.6 参数与统计量
参数是根据总体中个体值计算出来的描述总体特征的指标。参数一般用希腊字母表示,如总体均数、总体方差、总体率等。
统计量是根据样本中个体值计算出来的描述样本特征的指标。统计量一般用英文字母表示,如样本均数、样本方差、样本率等。
1.3 实验设计基本概念
医学实验根据研究对象的不同分为动物实验和临床试验两类。它们分别以动物或生物材料和人为研究对象,在研究过程中对研究对象进行干预或处理,观察不同干预或处理的结果是否存在差异。
1.3.1 实验设计要素
一般来说,在设计中应该明确3个要素:实验因素、实验对象和实验效应。
(1)实验因素
实验因素亦称为处理因素,是指研究者根据研究目的在实验中需要观察并阐明其效应的因素。影响实验结果的因素很多,实验设计时应该抓住实验中的主要因素,明确处理因素和非处理因素。处理因素要标准化,要选用适当的设计方案来控制重要的非处理因素的影响,以便有效地控制和估计误差。
(2)实验对象
实验对象亦称为受试对象,是处理因素作用的客体。受试对象的选择在医学实验中十分重要,对实验结果有重要影响,受试对象应满足两个基本条件:对处理因素敏感;反应必须稳定。
同时受试对象还应具有明确的标准,实验进行前还必须对研究对象的筛选条件做严格的规定,即明确纳入标准与排除标准,以保证它们的同质性。
(3)实验效应
实验效应是实验因素作用于受试对象后产生的变化。实验效应通过实验中所选用的指标来体现。反映实验效应的观测指标称为效应指标。选用的效应指标与要反映的问题之间应具有较高的关联性、有效性、精确性、客观性、特异性、敏感性和稳定性。
效应指标有主观指标与客观指标之分,主观指标由患者回答或医生定性判断来描述观察结果,客观指标则借助仪器等手段进行测量来反映观察结果。主观指标易受研究者和受试对象心理因素影响,因此,在选用指标时应尽量选用客观的、定量的指标。
1.3.2 实验设计原则
实验设计的主要作用就是有效地排除非处理因素的干扰和影响,减少误差、提高实验的效率,使随机现象的统计规律更好地显露出来。因此在设计时还必须遵守3个基本原则,即随机化原则、对照原则及重复原则。
(1)随机化原则
随机化可以使不可控制的因素在不同的处理组中的影响较为均匀,是保证非处理因素均衡一致的重要手段。
随机不是随意,也就是说,不能由受试对象自己选择,也不能由研究者主观决定,要按照随机化的实现方法,从统计学的角度来完成。
(2)对照原则
对照是在确定接受处理因素的实验组的同时设立对照组。因为有比较才有鉴别,只有通过对比分析才能判明优劣,只有正确地设立了对照,才能将处理因素的效应充分显露出来。常用的对照方法有标准对照、相互对照、自身对照、配对对照、空白对照、实验对照和安慰剂对照等。
(3)重复原则
重复是指在相同的实验条件下的受试对象要具有一定数量。由于个体差异、观测操作方法等影响因素的存在,同一种处理对不同的受试对象(甚至对同一受试对象)所产生的效应会不尽相同。只有在大量重复实验的条件下,才能减少随机测量误差,降低实验误差,真实效应才会比较准确地显露出来。
整个实验过程中实验次数的总和称为样本含量或样本大小。样本含量过小,统计规律无法显露出来;样本含量过大,会延长实验时间,浪费人力和物力,并有可能导致系统误差的出现。因此根据医学和统计学知识合理地估计样本含量是实验设计的重要内容。
除以上3个实验设计基本原则之外,在临床试验设计中还应遵从均衡性原则、盲法原则等。
1.4 SPSS统计软件简介
SPSS由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥着巨大作用。该软件还应用于经济学、数学、统计学、物流管理、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商业等多个学科与领域。
1.4.1 SPSS的发展简史及基本功能介绍
SPSS是广受认可的统计分析软件,由美国斯坦福大学的3位研究生Norman H. Nie、C. Hadlai (Tex) Hull和Dale H. Bent于1968年开发而成。当时世界上许多有影响力的报刊纷纷就SPSS的自动统计绘图、数据深入分析、使用方便、功能齐全等方面给予了高度的评价。
2009年7月28日,IBM公司宣布用12亿美元现金收购统计分析软件提供商SPSS公司,并将其更名为IBM SPSS,截至完稿时SPSS已升级至版本29.0。SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观。
SPSS采和Windows的窗口方式展示各种管理和分析数据的功能,采用对话框展示出各种功能选项。SPSS采用类似Excel表格的方式输入与管理数据,数据接口较为通用,能方便地从其他数据库中读入数据。
SPSS也是一个组合式软件包,它集数据录入、整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,促进了该软件的推广和应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等。
SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等大类,每个大类又分多个统计过程,比如回归分析又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等,而且每个统计过程又允许用户选择不同的方法和参数。SPSS有专门的绘图系统,可以根据数据绘制各种图形。
SPSS的分析结果清晰、直观、易用,而且可以直接读取Excel及DBF数据文件,现已推广到多种操作系统的计算机上,它和SAS、BMDP并称为国际上最有影响力的三大统计软件。
1.4.2 SPSS操作界面
SPSS安装完成后,在开始菜单中选择“开始”→“程序”→“SPSS for Windows”命令,即可打开SPSS。为了方便使用,用户可以设置SPSS的快捷方式:
右击“SPSS for Windows”,在弹出的菜单中选择“发送到”→“桌面快捷方式”命令,此时,计算机桌面会出现一个(SPSS 28.0)图标,双击图标即可启动SPSS。
启动SPSS后,首先会弹出一个文件选择对话框(见图1-1),该对话框中有新建文件、样本文件、新增功能、帮助与支持、教程、社区等,用户根据自己的需求选择相应的选项,即可进入SPSS的数据编辑窗口。
图1-1 文件选择对话框
若不想每次启动SPSS都看到该对话框,勾选最下方的复选框“以后不再显示此对话框”即可。
1.5 SPSS窗口及其功能
本节着重介绍SPSS 28.0中常用的窗口,包括数据编辑窗口、结果输出窗口、语法编辑窗口、脚本编辑窗口。
1.5.1 数据编辑窗口
数据编辑窗口包括两种视图,分别为数据视图、变量视图,如图1-2所示。前者是一个可以向下和向右扩展的二维表格,用于查看、录入和修改数据;后者用于输入和修改变量的定义。
数据编辑窗口包括标题栏、主菜单栏、快捷菜单栏、编辑栏、单元格信息栏、视图切换标签页和状态栏等。
(1)标题栏:显示当前的文件名。
(2)主菜单栏:包括文件、编辑、查看、数据、转换、分析、图形、实用程序、扩展、窗口、帮助等。
(3)快捷菜单栏:包含常用的快捷图标。
(4)编辑栏:用于输入和显示单元格中的数据。
(5)单元格信息栏:在数据视图中显示所有个案在各个变量中的取值,表中每一行表示一个个案,每一列表示一个变量;在变量视图中显示所有变量的信息,表中每一行表示一个变量,每一列是关于变量一个方面的信息。
(6)视图切换标签页:包含“数据视图”“变量视图”两个选项,可以相互切换。
(7)状态栏:用于查看当前程序运行的状态。
图1-2 数据编辑窗口
1.5.2 结果输出窗口
结果输出窗口是显示和管理SPSS统计分析结果(包括文本、表格及图形)的窗口,如图1-3所示。该窗口中的内容可存为以.spv为扩展名的SPSS文件。
图1-3 结果输出窗口
在第一次产生分析结果的SPSS过程结束后,结果输出窗口自动打开,若要打开新的结果输出窗口,可执行菜单栏中的“文件”→“新建”→“输出”命令。
结果输出窗口有标题窗、内容窗。前者用于显示已有的分析结果的标题和内容索引;后者用于显示统计分析的具体输出内容,包括文本、统计表和统计图。若要对内容窗中的结果进行编辑,双击选中内容即可。
1.5.3 语法编辑窗口
语法编辑窗口用于编辑和运行命令文件,如图1-4所示。该窗口不仅可以编辑对话框操作不能实现的特殊过程的命令语句,还可以将所有分析过程汇集在一个命令语句文件中,以避免处理较复杂资料时因数据的小小改动而大量重复分析过程。
图1-4 语法编辑窗口
该窗口中的内容可存为以.sps为扩展名的SPSS文件。用户可以根据自己的需求对命令文件进行修改、编辑,也可以编写针对当前数据文件的命令程序。
在任何统计分析对话框上,都可以通过单击“粘贴”按钮自动打开语法编辑窗口,将执行SPSS过程的相应命令语句写在窗口中。
若要打开新的语法编辑窗口,可执行菜单栏中的“文件”→“新建”→“语法”命令。编写好命令文件后,可以单击菜单栏上的“运行”按钮,提交系统执行,显示结果输出窗口,得到分析结果。
1.5.4 脚本编辑窗口
脚本编辑窗口提供了SPSS内置语言Sax Basic的编程环境,其不仅可以开发SPSS的便捷功能或插件,还可以编写自动化数据处理的程序,如图1-5所示。
图1-5 脚本编辑窗口
在脚本编辑窗口中,可以利用程序或对话框编辑器编写出友好的Windows界面,还可以基于DDE或OLE机制,实现与其他程序的接口。
1.6 数据类型及定义
数据是统计分析的基础,用户在进行分析之前,需要区分不同的数据类型,同时掌握定义变量的方法。
1.6.1 数据类型与变量定义
数据包括常量和变量。常量指取值在一定阶段保持不变的量,如圆周率,SPSS中的常量分为数值型、字符串型和日期型;变量指在不同的记录行取不同的值,即取值可变的量。
输入数据前首先要定义变量,定义变量时要定义变量名、变量类型、变量宽度、变量小数位数、变量标签、变量值标签和变量的显示宽度等。
1.定义变量名
SPSS默认的变量名为VAR00001、VAR00002等,用户可以根据自己的需要对变量进行命名。变量的命名有一定的规则,具体内容如下。
(1)必须以字母、汉字或字符@开头,其他字符可以是任何字母、数字或_、#、$等符号。
(2)不能使用空白字符和其他特殊字符(如“!”“?”等)。
(3)变量命名不区分大小写且必须唯一。
(4)用户定义的变量不能以“$”开头。以“$”开头的变量名特指SPSS的系统变量,系统变量不可修改,而且在程序中不可用。
(5)避免最后一个字符是“.”,因为英文句点有时会作为命令的结束标志,若这样定义变量,则容易引起歧义。
(6)避免最后一个字符是“_”,因为下画线一般作为由程序或命令自动生成的变量名的结尾。
(7)SPSS的保留字不能作为变量名,SPSS的保留字有ALL、AND、WITH、NOT、OR、BY、EQ、GE、GT、LE、LT、NE、TO等。若使用了上述保留字作为变量名,系统会自动提示。
2.定义变量类型
单击“类型”相应的单元格中的按钮,弹出“变量类型”对话框,如图1-6所示,在该对话框中选择合适的变量类型并单击“确定”按钮,即可定义变量类型。
图1-6 “变量类型”对话框
SPSS 28.0的变量类型包括数值型、字符串型、日期型,具体介绍如下。
(1)数值型变量
数值型变量的长度是用字符个数度量的数字宽度,小数点和其他分界符也计算在内,常用的数值型变量表示方法如下。
● 数字:可以定义数值的宽度和小数位数,SPSS默认宽度和小数位数分别为8、2。数值的宽度包括整数部分的位数、小数点、小数部分的位数。
● 逗号:指整数部分每3位数添加一个逗号,如“1,234.00”。
● 点:以整数形式显示的数值每3位数加一点(这里不是小数点)。也可以定义小数位数,但所显示的小数部分均为0,且小数点用逗号表示。如自定义小数位数为2,则“9.8765”显示为“98.765,00”。
● 科学记数法:指数值在数据编辑窗口中以指数形式显示。如定义数值宽度为8,小数位数为3,则“123.456”显示为1.23E+02。
● 美元:其值在显示时,有效数字前面带有“$”,输入时可以不输入“$”,显示时系统会自动加上“$”和分隔符。
● 定制货币:SPSS提供了多种货币显示形式,用户可根据需要选择,并定义数据宽度和小数位数。默认显示为整数部分每3位加一个逗号,用户可以定义数据宽度和小数位数,如9876543.21显示为9,876,543.21。
● 受限数字:指将输入的数值位数限制为所设定的数据宽度。假定数据宽度设定为4,则“112233”显示为“2233”,而“11”显示为“0011”。
(2)字符串型变量
用户可自定义字符串长度以便输入字符串,使用字符串时需注意以下几个方面。
● SPSS区分短字符串和长字符串,短字符串最长为8字节,一个长字符串大于等于8字节,长字符串变量不能定义用户缺失值。有些分析过程可以处理短字符串,但不能处理长字符串。
● 系统缺失值不能用于生成字符串型变量。
● 当生成新变量、修改原变量时,可能产生缺失值或未定义的变量值,这时系统自动赋予值为空。变量值以空格表示时,若无特别定义,不能代表缺失值。
● 字符串型变量不能参与算术运算。
● 字符串中的大小写字母是截然不同的两个字符,用户在使用时需注意。
(3)日期型变量
SPSS中的日期型变量既可以表示日期,也可以表示时间。SPSS提供了多种日期显示形式,用户可根据需要选择。
3.定义变量宽度
系统默认变量宽度为8。单击“宽度”列中的某一单元格,将出现图标,可单击上/下箭头调大/调小变量的宽度,也可直接在单元格里输入数字。当变量类型为日期型时,变量宽度的设定无效。
4.定义变量小数位数
设置变量的小数位数,方法同变量宽度的设置方法。当变量类型为日期型时,变量小数位数的设定无效。
5.定义变量标签
变量标签是对变量名的进一步描述,最多包括120个字符,且区分大小写。变量标签可以显示在结果输出窗口,便于查看结果时理解变量的实际意义。
6.定义变量值标签
变量值标签是对变量的每一个可能取值的进一步描述,当变量是定性变量或定序变量时,变量值标签的描述是非常有用的。
例如,在统计分析中经常用1代表“男”、2代表“女”等。具体操作为:单击“值”相应的单元格右侧的,弹出“值标签”对话框,如图1-7所示;在“值”中输入1,“标签”中输入男;单击“添加”按钮即完成变量值标签的定义。
图1-7 “值标签”对话框
7.定义缺失值
SPSS有两类缺失值,即系统缺失值和用户缺失值,系统缺失值默认为无。在实际工作中常会因为某种原因出现记录数据失真、没有记录等缺失现象。例如在统计过程中,一些被调查者没有回答的题目都将标记为用户缺失值。
定义缺失值的具体操作为:单击“缺失”列下面的某一单元格,弹出“缺失值”对话框,如图1-8所示,其中有以下3种定义缺失值的方法。
图1-8 “缺失值”对话框
● 无缺失值:SPSS默认方式。若当前变量的取值完整,则选择此项。
● 离散缺失值:可以指定1~3个离散的缺失值。例如可指定20、95和88为缺 失值。
● 范围加上一个可选的离散缺失值:可以指定一个缺失值范围和一个离散的缺失值。
8.定义变量的显示宽度
SPSS默认变量的显示宽度为8,用户可根据需要进行设置。
9.定义变量显示的对齐方式
SPSS有左对齐、右对齐、居中对齐3种方式,默认为右对齐。
10.定义变量的测量尺度
SPSS可选测量尺度有以下3种。
● 名义:一种分类变量,即它的取值只代表观测对象的不同类别,变量的取值之间没有内在的大小可比性。例如“性别”变量。
● 有序:一种分类变量,但是变量取值之间有内在的大小顺序或等级。例如“满意度”变量的取值为1表示很不满意、2表示比较满意、3表示非常满意,由小到大的取值代表满意度的提高。
● 度量:又称定距变量或刻度变量,一般为有刻度度量的连续变量,它的取值之间可以比较大小,且可以定义距离。例如“年龄”“年份”等。
11.定义变量的角色
角色用于定义变量在后续统计分析中的功能,SPSS提供的角色选项有输入、目标、两者、无、分区和拆分等。
1.6.2 运算符与表达式
SPSS的基本运算有3种:数学运算、关系运算和逻辑运算。对应的运算符表示方法如表1-1所示。
表1-1 运算符
数学运算符 |
|
关系运算符 |
|
逻辑运算符 |
+ |
加 |
<(LT) |
小于 |
&(AND) |
与 |
− |
减 |
>(GT) |
大于 |
→(OR) |
或 |
* |
乘 |
<=(LE) |
小于等于 |
~(NOT) |
非 |
/ |
除 |
>=(GE) |
大于等于 |
|
|
** |
幂 |
1=(EQ) |
等于 |
|
|
( ) |
括号 |
~=(NT) |
不等于 |
|
|
数学运算符也就是常用的算术运算符,可以连接数值型的常量、变量和函数,形成算术表达式,运算结果通常为数值。数学运算符的优先级从高到低为括号、函数、乘方(幂)、乘或除、加或减,同一优先级的符号,位于左侧的优先级高。
关系运算符用于建立两个量之间的比较关系,如果比较关系成立,则关系表达式的值为真(true),否则为假(false)。例如,假定表达式为“a<0”,如果a=1,则表达式“a<0”为假,表达式的值为0(假);如果a=−1,那么表达式“a<0”为真,表达式的值为1(真)。
在表1-1中,关系运算符和逻辑运算符均有两种表达方法,括号中的运算符与括号外的是等价的。
逻辑运算符、逻辑型变量或值为逻辑型的表达式(如关系表达式)都称为逻辑表达式,逻辑表达式的值为true或false。逻辑运算规则如表1-2所示。
表1-2 逻辑运算规则
逻辑表达式 |
结 果 |
|
逻辑表达式 |
结 果 |
true AND true |
ture |
true OR true |
true |
true AND false |
false |
true OR false |
true |
false AND false |
false |
false OR false |
false |
true AND missing |
missing |
true OR missing |
true |
missing AND missing |
missing |
missing OR missing |
missing |
false AND missing |
false |
false OR missing |
missing |
1.7 数据输入
数据文件 |
数据文件\chapter01\data01a.xls、data01b.txt、data01c.txt |
SPSS可以通过直接录入的方法获取数据,也可以直接读取其他格式的数据文件,如Excel、数据库和SAS等数据文件,本节着重介绍获取数据和查看数据的方法。
1.7.1 在SPSS数据编辑窗口中直接录入数据
在定义所有变量后,单击左下方“数据视图”选项,即可在出现的数据视图中输入数据。
单击某单元格,激活该单元格后即可输入数据。输入完毕后,只需将光标移动到下一个单元格继续输入数据。数据录入时可以逐行或逐列录入。
1.7.2 直接读入Excel数据文件
当Excel文件的数据结构符合SPSS的数据结构时,SPSS可以直接读入Excel数据文件。下面介绍读入一个Excel数据文件的案例。
本案例的“data01a.xls”是一个Excel文件,现在需要将其转换成SPSS数据。
(1)确认Excel文件的数据结构是否符合SPSS的要求。我们发现,该文件的每一行数据是每个人的信息,每一列是一个变量,所以其数据结构符合SPSS要求。
(2)执行菜单栏中的“文件”→“打开”→“数据”命令,在弹出的“打开数据”对话框下方的“文件类型”中选择“Excel(*.xls、*.xlsx和*.xlsm)”,如图1-9所示,当前目录下的Excel文件即可显示在对话框的文件列表中。
图1-9 “打开数据”对话框一
(3)选定目标文件“data01a.xls”,如图1-10所示,单击“打开”按钮即可进入下一级对话框。
图1-10 “打开数据”对话框二
(4)弹出“读取Excel文件”对话框,如图1-11所示,勾选复选框“从第一行数据中读取变量名称”;若Excel文件第一行就是数据值,那么不勾选此复选框。
图1-11 “读取Excel文件”对话框
若Excel文件中有多个Sheet,那么需要在“工作表”下拉列表中选择要读入的Sheet;若不选择,SPSS则默认为Sheet1。
(5)保持对话框中其他设置不变,单击“确定”按钮即可读入数据到SPSS。在SPSS数据编辑窗口显示读入的数据如图1-12所示。检查SPSS数据的变量与个案的数量是否丢失。
图1-12 在SPSS数据编辑窗口显示读入的数据
1.7.3 读入纯文本文件
纯文本文件是计算机各种软件中最通用的一种文件,其没有保存格式,因此很小。根据纯文本文件中数据的排序方式,可以将其格式分为自由格式和固定格式。
自由格式的文本文件的每个个案的变量数目、排列顺序固定,但数据项的长度可以不同,且数据项之间必须有分隔符(逗号、空格、制表符等);固定格式的文本文件要求每个个案的变量数目、排列顺序、变量取值长度都固定不变,且数据项之间不需要分隔符。两种格式对应两种不同的数据读入方法,现以案例对其进行说明。
1.以自由格式读入数据
本案例的数据文件中是纯文本数据,如图1-13所示。现要求以自由格式读入数据。
图1-13 “data01b.txt”部分数据
(1)执行菜单栏中的“文件”→“打开”→“数据”命令,弹出“打开数据”对话框,如图1-14所示,在其中选择目标文件“data01b.txt”并单击“打开”按钮打开数据文件,SPSS随即启动文本数据导入的向导。
图1-14 “打开数据”对话框
(2)弹出“文本导入向导-第1/6步”对话框。如图1-15所示,在该对话框中可以看见文本文件中的数据信息。单击“下一步”按钮进入下一步。
图1-15 “文本导入向导-第1/6步”对话框
(3)弹出“文本导入向导-第2/6步”对话框。如图1-16所示,在“变量如何排列?”“文件开头是否包括变量名?”和“小数符号是什么”选项组中分别选择“定界”“否”和“句点”。单击“下一步”按钮进入下一步。
图1-16 “文本导入向导-第2/6步”对话框
(4)弹出“文本导入向导-定界,第3/6步”对话框。如图1-17所示,按照图示填写和选择相应的内容。单击“下一步”按钮进入下一步。
图1-17 “文本导入向导-定界,第3/6步”对话框
(5)弹出“文本导入向导-定界,第4/6步”对话框。如图1-18所示,在“变量之间存在哪些定界符?”选项组中选择文本文件的分隔符,有“制表符”(即Tab键分隔符)、“空格”“逗号”“分号”和“其他”,本次选择“制表符”。单击“下一步”按钮进入下一步。
图1-18 “文本导入向导-定界,第4/6步”对话框
(6)弹出“文本导入向导-第5/6步”对话框。如图1-19所示,在此对话框中的下部是数据文件的预览,这时用户需要注意查看各变量的长度是否正确。单击“下一步”按钮进入下一步。
图1-19 “文本导入向导-第5/6步”对话框
(7)弹出“文本导入向导-第6/6步”对话框。如图1-20所示,单击“完成”即成功读入自由格式的文本文件内容。
图1-20 “文本导入向导-第6/6步”对话框
(8)SPSS顺利读入数据后,用户需要在变量视图中重新定义变量名,并进行宽度、小数位数等的设置,如图1-21所示。
图1-21 显示读入数据的变量视图
2.以固定格式读入数据
本案例的数据文件中是纯文本数据,如图1-22所示。现要求以固定格式读入数据。
图1-22 固定格式的纯文本数据
(1)执行菜单栏中的“文件”→“打开”→“数据”命令,在弹出的“打开数据”对话框中选择目标文件“data01c.txt”(见图1-23),并单击“打开”按钮打开数据文件,SPSS随即启动文本数据导入的向导。
图1-23 “打开数据”对话框
(2)弹出“文本导入向导-第1/6步”对话框。如图1-24所示,在该对话框中可以看见文本文件中的数据信息。单击“下一步”按钮进入下一步。
图1-24 “文本导入向导-第1/6步”对话框
(3)弹出“文本导入向导-第2/6步”对话框。如图1-25所示,在“变量如何排列?”“文件开头是否包括变量名?”和“小数符号是什么”选项组中分别选择“定界”“否”和“句点”。单击“下一步”按钮进入下一步。
图1-25 “文本导入向导-第2/6步”对话框
(4)弹出“文本导入向导-定界,第3/6步”对话框。如图1-26所示,按照图示填写和选择相应的内容。单击“下一步”按钮进入下一步。
图1-26 “文本导入向导-定界,第3/6步”对话框
(5)弹出“文本导入向导-定界,第4/6步”对话框。如图1-27所示,前两列数据属于第一个变量,在第二列和第三列之间单击即可添加一条分割线;利用同样的方法在第三列和第四列之间添加分割线将第二个、第三个变量分隔出来。单击“下一步”按钮进入下一步。
图1-27 “文本导入向导-定界,第4/6步”对话框
(6)弹出“文本导入向导-第5/6步”对话框。如图1-28所示,上一步已将前两列赋给第一个变量V1,中间一列赋给第二个变量V2,后面两列赋给第三个变量V3。单击“下一步”按钮进入下一步。
图1-28 “文本导入向导-第5/6步”对话框
(7)弹出“文本导入向导-第6/6步”对话框。如图1-29所示,单击“完成”按钮即成功读入固定格式的文本文件内容。
图1-29 “文本导入向导-第6/6步”对话框
(8)SPSS顺利读入数据后,用户需要在变量视图中重新定义变量名,并进行宽度、小数位数等的设置。
1.8 数据输出
SPSS可以将数据保存为SPSS(*.sav)、Excel(*.xls)、dBASE(*.dbf)、ASCⅡ(*.dat)、Access(*.mdb)及各类SAS数据文件。执行菜单栏中的“文件”→“另存为”命令,会弹出“将数据另存为”对话框,如图1-30所示。
图1-30 “将数据另存为”对话框
选择保存路径,输入文件名称,选择保存类型,单击“保存”按钮即可。若只需保存部分变量,可单击对话框中的“变量”按钮,弹出“将数据另存为:变量”对话框,如图1-31所示,选择所需保存的变量即可。
图1-31 “将数据另存为:变量”对话框
在SPSS输出的统计表格中,默认没有前导零,为保证输出统计表格中的小数显示前导零,可以进行以下设置。单击“编辑”→“选项”,即可弹出图1-32所示的“选项”对话框,在对话框中的“常规”选项卡下勾选“输出”选项组中的“对小数值显示前导零”选项。
图1-32 “选项”对话框
1.9 小结
本章主要介绍了医学统计学相关的概念,包括医学统计工作的基本步骤、医学统计学的基本概念、实验设计的基本概念,以及统计分析软件SPSS的发展简史、基本功能,包括窗口类型、数据类型及定义、数据输入与输出等。
1.10 习题
1.试将某科室不同性别医生的业务成绩导入SPSS,并对变量类型进行定义。
(数据存储于数据文件\chapter01\ex01a.xlsx中。)
2.试将某调查的医护人员薪酬收入统计导入SPSS,并对变量类型进行定义。
(数据存储于数据文件\chapter01\ex01b.xlsx中。)