大数据技术基础

978-7-115-63649-2
作者: 张成文
译者:
编辑: 秦健

图书目录:

详情

大数据技术作为处理海量数据的关键工具,在数据分析、数据计算、资源管理等领域得到广泛应用。本书从初学者的角度出发,全面系统地介绍了Python大数据分析、数据存储、离线计算与实时计算等基本概念与方法,并以大量案例帮助读者理解大数据技术的方方面面。此外,本书还介绍了Kafka、图数据处理、OLAP数据分析、分布式资源管理和大数据处理架构等知识,以帮助读者快速熟悉大数据技术,并应用大数据技术解决现实生活中的问题。 本书内容新颖,案例丰富,既可作为高等院校计算机、数据分析等相关专业的教学用书,也可供对大数据技术感兴趣的初学者,以及从事数据科学、大数据技术研究和应用开发的人员参考。

图书摘要

版权信息

书名:大数据技术基础

ISBN:978-7-115-63649-2

本书由人民邮电出版社发行数字版。版权所有,侵权必究。

您购买的人民邮电出版社电子书仅供您个人使用,未经授权,不得以任何方式复制和传播本书内容。

我们愿意相信读者具有这样的良知和觉悟,与我们共同保护知识产权。

如果购买者有侵权行为,我们可能对该用户实施包括但不限于关闭该帐号等维权措施,并可能追究法律责任。

版  权

编  著 张成文

责任编辑 秦 健

人民邮电出版社出版发行  北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

读者服务热线:(010)81055410

反盗版热线:(010)81055315

内 容 提 要

大数据技术作为处理海量数据的关键工具,在数据分析、数据计算、资源管理等领域得到广泛应用。本书从初学者的角度出发,全面系统地介绍了Python大数据分析、数据存储、离线计算与实时计算等基本概念与方法,并以大量案例帮助读者理解大数据技术的方方面面。此外,本书还介绍了Kafka、图数据处理、OLAP数据分析、分布式资源管理和大数据处理架构等知识,以帮助读者快速熟悉大数据技术,并应用大数据技术解决现实生活中的问题。

本书内容新颖,案例丰富,既可作为高等院校计算机、数据分析等相关专业的教学用书,也可供对大数据技术感兴趣的初学者,以及从事数据科学、大数据技术研究和应用开发的人员参考。

前  言

随着移动互联网、物联网、5G和生成式人工智能等信息技术的快速发展和广泛应用,我们步入了一个数据爆炸式增长的时代。这些技术不仅迅速渗透到人类的生产和生活的各个方面,而且在悄无声息之中催生了海量的数据。如今,全球的数据量已经以惊人的速度从 TB级别跃升到 PB、EB乃至 ZB级别。

在以大数据为核心要素的数字智能时代,数据的价值愈发显著。数据类型的多样化已经成为一种普遍现象,其中半结构化数据和非结构化数据的占比已经远远超越了传统的结构化数据,这种转变也为数据处理技术带来了新的挑战。数据体量的增长同样令人瞩目,生成式人工智能作为未来技术的重要发展方向,正在以惊人的速度生成大量的多模态数据(包括文本、图像、视频等),数据体量的快速增长不仅进一步扩大了数据的规模,也对传统的以关系型数据库为核心的数据存储方式构成挑战。在数据应用方面,大模型的出现进一步凸显了数据的重要性。例如 OpenAI 推出的 ChatGPT 模型和百度推出的文心大模型,都需要依赖大规模的数据集进行训练和优化。此外,元宇宙是一个以大数据和人工智能等技术为基础构建的数字世界,同样依赖海量的数据支撑其构建和持续运行。

因此,在数字化浪潮席卷全球的今天,大数据已经成为推动社会进步和科技创新的重要力量。无论是在商业决策、智慧健康、智慧城市还是人工智能领域,大数据都发挥着核心作用。面对日益增长的数据处理和分析需求,掌握大数据技术变得至关重要。

大数据技术涵盖数据的收集、存储、处理、分析和可视化等多个方面。在大数据生态系统中,Python 以其简洁易懂的语法和丰富的数据处理库,成为大数据分析的首选编程语言;Kafka 作为高性能的消息队列,为实时数据处理提供了强大的支持;在数据存储方面,则涉及关系型数据库、NoSQL 数据库以及分布式文件系统等,它们为海量数据的存储和访问提供了坚实的基础;图数据处理关注数据之间的关联关系,为社交网络、推荐系统等应用提供了全新的视角;离线计算和实时计算技术分别满足了批量数据处理和实时响应的需求;OLAP 技术为多维数据分析提供了强大的工具;分布式资源管理系统和大数据处理架构的设计与实现,是确保整个大数据系统高效、稳定运行的关键。

本书正是基于这样的技术背景和逻辑体系编写的,旨在通过系统性的介绍和丰富的实践案例,帮助读者逐步掌握大数据处理与分析的核心技术和方法。本书从 Python 大数据分析基础开始讲解,逐步深入到 Kafka、数据存储、图数据处理、离线计算、实时计算、OLAP数据分析以及分布式资源管理等关键技术,最终目标是指导读者构建一个完整的大数据处理架构。

本书特别注重理论与实践相结合,通过丰富的实验和案例来加深读者对大数据技术的深入理解并提高实际应用的能力。同时,本书紧跟大数据技术的最新发展动态,力求将最前沿的知识和技术创新融入其中。

无论你是大数据领域的初学者还是有一定基础的专业人员,相信本书都能为你提供有价值的帮助和指导。让我们携手共进,迎接大数据时代面临的挑战与机遇!

由于大数据技术发展迅速,新的技术和方法层出不穷,因此书中难免存在疏漏或错误之处,我们诚挚地希望读者在阅读过程中提出宝贵的意见和建议。此外,我也期待与广大读者共同探讨大数据技术的未来发展趋势和应用前景,共同推动大数据领域的进步与发展。

张成文

资源与支持

资源获取

本书提供如下资源:

教学大纲;

程序源码;

教学课件;

微视频;

习题答案;

配套资料包;

书中图片文件;

本书思维导图;

异步社区7天VIP 会员。

要获得以上资源,您可以扫描下方二维码,根据指引领取。

提交勘误

作者和编辑尽最大努力来确保书中内容的准确性,但难免会存在疏漏。欢迎您将发现的问题反馈给我们,帮助我们提升图书的质量。

当您发现错误时,请登录异步社区(https://www.epubit.com),按书名搜索,进入本书页面,单击“发表勘误”,输入错误信息,单击“提交勘误”按钮即可(见下页图)。本书的作者和编辑会对您提交的错误信息进行审核,确认并接受后,您将获赠异步社区的100 积分。积分可用于在异步社区兑换优惠券、样书或奖品。

与我们联系

我们的联系邮箱是 contact@epubit.com.cn。

如果您对本书有任何疑问或建议,请您发邮件给我们,并在邮件标题中注明本书书名,以便我们更高效地做出反馈。

如果您有兴趣出版图书、录制教学视频,或者参与图书翻译、技术审校等工作,可以发邮件给我们。

如果您所在的学校、培训机构或企业想批量购买本书或异步社区出版的其他图书,也可以发邮件给我们。

如果您在网上发现有针对异步社区出品图书的各种形式的盗版行为,包括对图书全部或部分内容的非授权传播,请您将怀疑有侵权行为的链接通过邮件发送给我们。您的这一举动是对作者权益的保护,也是我们持续为您提供有价值的内容的动力之源。

关于异步社区和异步图书

“异步社区”是由人民邮电出版社创办的IT 专业图书社区,于2015年8 月上线运营,致力于优质内容的出版和分享,为读者提供高品质的学习内容,为作译者提供专业的出版服务,实现作译者与读者在线交流互动,以及传统出版与数字出版的融合发展。

“异步图书”是异步社区策划出版的精品IT 图书的品牌,依托于人民邮电出版社在计算机图书领域四十余年的发展与积淀。异步图书面向各行业的信息技术用户。

第1章 大数据概述

大数据(Big Data)技术是生成式人工智能、元宇宙等领域的基础、关键和核心技术。大数据技术既得益于新一代信息技术的快速发展,也是推动信息技术向前迈进的基础技术。本章将对大数据的基本概念、相关技术和应用领域进行介绍。

1.1 基本概念

大数据通常用来形容具有海量特征的数据集合,又称为巨量数据集合。如果用常规的软件工具来处理这类数据,可能无法在规定的时间内完成数据的获取、处理和管理等任务。

研究机构Gartner给出的大数据定义为:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

1.1.1 5V特征

一般而言,大数据具有5V特征,即大规模(Volume)、多样性(Variety)、快速性(Velocity)、低价值密度(Value)和真实性(Veracity)。只有具备这些特征的数据才是大数据。

大规模。全球数据量在2010年正式进入ZB(Zetta Byte,泽字节)时代。随着时间的推移,数据的规模将越来越大,增速也在逐渐提高。

多样性。大数据的来源广泛。例如,移动互联网、物联网、AR(Augmented Reality,增强现实)、VR(Virtual Reality,虚拟现实)、MR(Mixed Reality,混合现实)、生成式人工智能等都会产生大量数据。来源的多样性导致大数据类型的多样性。

快速性。由于大数据往往以数据流的形式快速、动态地产生,因此它具有很强的时效性。由于大数据自身的状态与价值往往随时间变化而变化,因此采集、分析和处理大数据时对时间要求比较高。

低价值密度。海量数据包含大量的不相关信息。随着数据量的增加,大数据中有意义的信息并没有成比例增加。大数据的价值与其真实性及处理时间相关,需要通过算法来完成大数据价值的“提纯”。

真实性。真实性是指大数据的质量和保真性。大数据要求具有较高的信噪比。信噪比与数据源和数据类型无关。

1.1.2 数据类型

根据是否具有固定的结构和关系,可以将大数据分为以下3类。

结构化数据:可预先定义属性并且格式固定的数据。就结构化数据而言,通常是先有结构,再有数据。典型的结构化数据是通过关系型数据库进行存储和管理的。这类数据通常采用二维表结构的形式进行逻辑表达,以行为单位,一行数据表示一个实体的信息,每一行数据的属性都相同,严格遵循数据的格式与长度规范。

非结构化数据:没有固定结构的,不能通过结构化模式表示和存储的数据。典型的非结构化数据包括文本、图像、音频、视频等。

半结构化数据:介于结构化数据和非结构化数据之间的数据。就半结构化数据而言,通常是先有数据,再有结构。半结构化数据的结构不固定,同一类数据具有不同的属性,属性的数量也不固定,不像结构化数据那样会对数据的结构进行预先模式化定义。由于半结构化数据的结构和内容是混在一起的,没有明显的区分,因此也称这类结构为自描述结构。典型的半结构化数据包括XML(Extensible Markup Language,可扩展标记语言)、JSON(JavaScript Object Notation,JavaScript对象表示法)、HTML(HyperText Markup Language,超文本标记语言)等。

研究表明,全球新增数据的80%是半结构化数据和非结构化数据。非结构化数据的增速远高于结构化数据的,而且非结构化数据的占比也越来越高。

随着信息技术的快速发展,多源异构数据(多源异构数据指的是在不同设备、不同操作系统的不同数据库系统中的数据)的融合成为常态。为满足面向多种不同类型数据存储的需求,关系型存储、文件存储、对象存储、宽表存储、键值存储、时序存储、事件存储、时空存储、图存储、向量存储等多种数据存储模型应运而生。这些数据模型共同构成了多模型大数据架构。

早期的多模型大数据架构的主流产品只是将多个单模型数据库通过统一的界面组合在一起。本质上,这种多模型大数据架构是单模型大数据架构的延伸,在形式上将数据孤岛问题隐藏在统一的用户界面背后。但是,这种组合了多种单模型数据库的产品会导致数据冗余、数据一致性治理难、数据跨库分析难、资源配置难等一系列问题。

为解决这些问题,原生多模型大数据架构应运而生。该架构能够在单一场景下基于各类数据库分别支撑,在各种数据库之上搭建统一的资源调度(通过容器化编排来统一调度计算、存储、网络等基础资源)、统一的分布式存储管理(为不同的存储模型提供公共的存储管理服务,保障数据一致性,实现数据统一管理运维和高可用,避免数据孤岛)、统一的计算引擎(根据不同的存储模型自动匹配算法,不仅支持批处理、流处理等计算任务,而且支持不同模型数据的流转与关联)与统一的接口层(在一个命令中可完成各种复合跨模型数据查询,无须访问不同接口即可操作不同的数据模型),最终实现数据一致性、灵活的资源弹性、简捷的操作与运维。

1.1.3 大数据平台

大数据平台是指通过Hadoop、Spark、Flink等分布式、实时或离线计算框架运行计算任务的平台。

大数据平台的目标是服务业务需求,解决现有业务问题,具有容纳海量数据、处理速度快、兼容性好等特点。

图1-1展示了大数据平台的基本架构,其中涉及多项技术,我们会在后续章节分别介绍。

图1-1 大数据平台的基本架构

大数据平台的相关技术如下。

HDFS:它的全称为Hadoop分布式文件系统(Hadoop Distributed File System),是一种适合运行在通用或廉价硬件上的分布式文件系统,具有高度容错性,能提供高吞吐量的数据访问,适合应用于大规模数据集。

HBase:它是一个分布式的、面向列的开源数据库,适合存储非结构化数据,具有高可靠性、高性能、面向列、可伸缩等特点。

MapReduce:它是一种编程模型,用于大规模数据集的并行运算。MapReduce包括Map(映射)和Reduce(归约)两个步骤,能够让编程人员在不了解分布式并行编程的情况下在分布式系统中运行程序。

Spark:它是专为大规模数据处理而设计的类似于MapReduce的通用并行框架,它的特点是可以将中间输出结果保存在内存中,不需要读写HDFS。

Storm:它是一个分布式的、有容错性的实时计算框架,能够可靠地处理无界流数据,进行实时数据分析处理。

Spark Streaming:它是Spark API的扩展,支持可扩展、高吞吐量、强容错的实时数据流处理。

Flink:它是一个开源大数据处理框架,用于对无界数据流和有界数据流进行计算,能以内存速度和任何规模进行计算。

Hive:它是基于Hadoop的一个数据仓库工具,用于进行数据提取、转化与加载,提供存储、查询和分析大规模数据的机制。

Pig:它是基于Hadoop的大规模数据分析平台,提供Pig Latin语言,该语言的编译器会把数据分析请求转换为一系列经过优化处理的MapReduce作业。

YARN:它是一种Hadoop资源管理器,具有一个通用的资源管理系统和调度平台,可为上层应用提供统一的资源管理和调度服务。

Presto:它是一个开源的分布式SQL查询引擎,可用于交互式分析查询,其架构由关系型数据库架构演化而来。

Druid:它是一个分布式的、列存储的开源存储系统,适用于实时数据分析,具有快速聚合、灵活过滤、毫秒级查询、低延迟数据导入等数据操作特点。

Impala:它是一种数据查询系统,可以使用SQL语句快速查询存储在HDFS或HBase中的PB级大数据。

Ranger:它是一种集中式安全管理框架,用于解决授权和审计问题,可以对HDFS、YARN、Hive等进行细粒度的数据访问控制。

Hue:它的全称为Hadoop User Experience,是一种Hadoop图形化用户界面,提供集成化的大数据可视化界面。它允许用户通过一个集中的界面访问、浏览、操作主流的大数据软件,即通过Hue可以实现整个大数据生态圈的集中式浏览,给用户带来非常友好的使用体验。

Kerberos:它是一种计算机网络认证协议,旨在通过开放和不安全的网络提供可靠的身份验证。

Azkaban:它是批量工作流任务调度器,使用KV(Key-Value,键值对)文件建立任务之间的依赖关系,并提供Web界面,方便用户管理和调度工作流。

Sqoop:它是一个开源工具,用于在Hadoop与传统数据库(比如MySQL)之间进行数据传递。

1.1.4 大数据的处理流程

如图1-2所示,大数据的处理流程包括数据抽取、数据集成、数据分析、数据解释等。

图1-2 大数据的处理流程

数据抽取与数据集成:从各类数据中提取关系和实体,经过关联、聚合等操作,按照统一的格式对数据进行存储。

数据分析:大数据处理流程的核心和关键,开发者可以根据自己的需要,通过机器学习、数据挖掘、数据统计等技术对抽取与集成的数据进行处理,最终获得高价值的数据分析结果。

数据解释:正确的数据处理结果只有通过合适的展示方式才能被科研人员、政府用户、企业用户等最终用户正确理解,其中可视化和人机交互是数据解释涉及的主要技术。

1.2 相关技术

大数据技术一般包括数据采集、数据预处理、数据存储、数据挖掘与数据分析、数据可视化等技术。

图1-3以金字塔的形式从下到上描述了大数据的“提纯”过程。在金字塔顶端,通过数据可视化技术,用户可以获得最终的数据分析结果。

图1-3 大数据的“提纯”过程

1.2.1 数据采集

数据采集是指从传感器、智能设备、企业在线或离线系统、社交网络、互联网平台等渠道获取数据的过程。数据采集方法包括以下几种。

数据库采集:从关系 / 非关系型数据库获取数据。这是最常见的数据采集方法。

系统日志采集:日志对大型应用系统来说非常重要,是系统运维的关键,用户可以使用工具对日志进行统一的管理和查询,例如轻量级日志收集处理工具ELK(一种日志分析系统,由Elasticsearch、Logstash、Kibana 3个组件组成)。ELK能够提供完整的日志收集、搜索和展示功能。

网络数据采集:用户可通过网络爬虫或网站公开API(Application Program Interface,应用程序接口)等工具从网站获取数据,并从中抽取所需的属性内容。

感知设备数据采集:通过传感器、摄像头和智能终端采集信号、图片、声音或视频等数据。

在数据采集过程中,分布式发布和订阅消息系统Kafka是一种常用的系统,用户可以使用Kafka采集各个服务的日志,并以统一接口服务的方式将日志开放给其他组件。

1.2.2 数据预处理

如图1-4所示,数据预处理的步骤包括数据清洗、数据集成、数据变换和数据规约。

图1-4 数据预处理的过程

数据预处理各步骤说明如下。

1)数据清洗包括数据格式标准化、异常数据清除、数据错误纠正以及重复数据清除4个步骤。

2)数据集成是指将多个数据源中的大数据集成并统一存储,构建数据仓库。

3)数据变换是指通过平滑聚集、数据概化、规范化等方式将大数据转换为适合数据挖掘 / 数据分析的形式。

4)数据规约是指通过寻找大数据有用特征的方式,缩减大数据规模,最大限度地精减数据量。

1.2.3 数据存储

数据存储涉及将数量庞大且难以收集和处理的数据持久化存储在计算机中。为提升数据存储的性能,可以着重关注以下3个方面。

存储容量:增加硬盘容量或者调整优化硬盘阵列架构,以提升系统的存储能力。

吞吐量:提高硬盘转速、改进接口形式或增加读写缓存,以提升系统的整体吞吐量。

容错性:硬件或软件故障很容易导致数据、文件损坏或丢失等问题,系统需要能够自动将损坏的文件和数据恢复到故障发生前的状态。

常用的数据存储工具包括HDFS、HBase和Redis等。HDFS在数据冗余存储、存储策略和错误恢复等方面有着很好的性能,而且该工具针对大数据的存储、读取和复制3个方面进行了相关设计,提升了系统的整体吞吐量。对于出错的节点,HDFS可以进行检测并恢复,具有良好的容错性。而HBase则具备支持海量数据存储、快速随机访问和大量写操作的特点,适用于数据持久存储,还可以与适合作为缓存的工具Redis结合使用,以兼顾速度和可扩展性。

1.2.4 数据挖掘与数据分析

数据挖掘与数据分析都是从大数据中提取有价值信息的常用手段,下面分别介绍。

1. 数据挖掘

数据挖掘是指从大数据中挖掘未知且有价值的信息和知识的过程,是提取有价值信息的核心方法,通常需要用到统计学、人工智能、机器学习、深度学习等技术。数据挖掘的基本步骤如图1-5所示。

图1-5 数据挖掘的基本步骤

数据挖掘各基本步骤说明如下。

1)探索性分析:包括数据质量分析和数据特征分析。数据质量分析的主要任务是检查原始数据中是否存在脏数据。在完成数据质量分析后,可以通过绘制图表、计算特征量等方式进行数据特征分析。

2)特征抽取:对某一模式的测量值进行变换,以突出该模式的代表性特征,即将原有特征根据某种函数关系转换为新的特征,新的数据维度要比原来的低。

3)建立模型:根据分析的目标和数据形式,选用合适的机器学习算法,包括分类算法、回归算法、聚类算法等,建立分类预测、聚类分析、关联规则、偏差检测等模型。

4)模型评价:使用绝对误差、均方误差、混淆矩阵等方法对模型进行评价。

深度学习是数据挖掘的常用方法,它能够利用层次化的架构学习数据在不同层次上的表达,从而解决复杂且抽象的问题。

2. 数据分析

数据分析是利用适当的统计分析方法与工具对收集的数据进行加工、整理和分析,以提取有价值信息的过程。

数据分析与数据挖掘的区别体现在以下几个方面。

数据挖掘通常需要通过编程实现,而数据分析则更倾向于借助现有的分析工具进行处理。

数据分析要求对所从事的行业有较深的理解,并且能够将数据与自身的业务紧密结合。

数据分析侧重于观察数据,而数据挖掘的重点则是从数据中发现知识和规律。

数据分析主要采用对比分析、分组分析等方法,通过得到的指标统计量来量化结果,如总和、平均值等。而数据挖掘更侧重于解决分类、聚类、关联和预测4类问题,一般采用决策树、神经网络、关联规则、聚类分析、机器学习等方法进行挖掘,输出模型或规则,并且能够得到相应的模型得分或标签。

在实际开发过程中,通常使用Pig、Hive和Spark等工具进行数据分析,这些工具更侧重于分析决策,可以提供直观的数据查询结果。

针对图数据,本书也会介绍Spark GraphX。Spark GraphX能够以图作为数据模型,用于表达问题并进行数据分析。

1.2.5 数据可视化

数据可视化旨在借助图形化手段清晰有效地传达信息,它是一种能够利用人眼的感知能力对数据进行交互的可视化表达技术。

1. 定义

数据可视化可以通过图形图像的形式展示大型数据集。该方式具有如下优点。

易于理解:视觉信息相比文字信息更容易理解,使用图形图像形式来总结复杂的

数据也比文字形式更加直观。

增强互动:动态的图形图像可以及时显示数据的变化情况,提供更清晰的数据信息。

强化关联:数据可视化可以突出地显示数据之间的关联关系。

美化数据:数据可视化工具可以美化数据的表现形式,提供更好的视觉体验。

数据可视化流程主要包括数据表示与变换、可视化呈现和用户交互3个步骤。

1)数据表示与变换:是数据可视化的基础,即将原始数据转换为计算机可识别与处理的结构化数据形式,以最大限度地保留信息和知识。

2)可视化呈现:以直观的、容易理解和操作的方式呈现数据,需要选择合适的展示形式。

3)用户交互:通过可视化的手段辅助分析决策,可以用于从数据中探索新的假设,也可以验证假设与数据的一致性,还可以用于向公众展示信息。

数据可视化和数据挖掘的目标都是从数据中获取知识,但采取的手段是有差异的。数据可视化通过图形图像形式呈现数据,让用户能够交互地理解数据。而数据挖掘则是通过各种算法获取数据背后隐藏的知识,并将结果直接反馈给用户。

2. 数据可视化工具

下面介绍一些主流的数据可视化工具。

Tableau:该工具可以帮助用户快速分析、可视化并分享信息。优点是易于上手,用户只需将大量数据拖放到数字画布上,便可以创建各种图表。同时,Tableau具有强大的数据处理能力,可以处理数百万行数据。

Highcharts:该工具的图表类型非常丰富,可以制作实时更新的曲线图。Highcharts具有轻量级、性能稳定、兼容好以及图表简约美观的优点,但该工具缺乏中文版说明文档,学习门槛较高。

Echarts:该工具基于JavaScript的开源可视化库,用于常用图表的制作,具有文件体积小巧、打包方式灵活、操作自由、支持多种图表的优点。Echarts由百度开发并开源,兼容当前绝大部分浏览器,中文版说明文档较为丰富,便于学习。Echarts的缺点是自定义开发比较困难且缺乏立体效果支持。

1.3 应用领域

经过多年发展,大数据已经融入大众生活的各个领域,以下是大数据的一些应用示例。

警务大数据是公共安全大数据的重要组成部分。通过对海量数据的采集、治理与应用,实现数据赋能,为各项警务活动提供精准、高效的数据支撑。例如,以案件为中心进行基于多种行为的嫌疑对象分析,可以提升警务工作效能。

消防大数据通过利用科技信息化手段,采集并整合各类消防资源,分析各类数据并形成有价值的信息,比如安全态势感知、预测及应急处置以及分析火灾高发原因等。

医疗大数据可分为医院外部大数据和医院内部大数据。通过将两种医疗大数据打通并整合,同时借助大数据手段进行检索、查询和数据分析,可以提高医院的运营效率。医疗大数据还可以推进实现疾病预测预警、样本筛选,支持临床决策、个性化诊疗等,从而提高诊疗质量,加快诊疗速度。

工业大数据是指在工业领域通过物联网等技术获取的数量庞大并且类型复杂的数据。采用大数据相关技术,可以有效地将工业大数据服务于生产。工业大数据可以应用在产品故障诊断和预测、工业生产数据分析、生产过程优化等多个方面。

1.4 课后习题

(1)简述大数据的定义。

(2)什么是大数据的5V特征?

(3)大数据的数据类型可分为哪几类?

(4)数据预处理的步骤有哪些?

(5)列举大数据技术在生产生活中的应用。

相关图书

SPSS医学数据统计与分析
SPSS医学数据统计与分析
首席数据官知识体系指南
首席数据官知识体系指南
时序大数据平台TDengine核心原理与实战
时序大数据平台TDengine核心原理与实战
大数据安全治理与防范——流量反欺诈实战
大数据安全治理与防范——流量反欺诈实战
大数据实时流处理技术实战——基于Flink+Kafka技术
大数据实时流处理技术实战——基于Flink+Kafka技术
搜索引擎与程序化广告:原理、设计与实战
搜索引擎与程序化广告:原理、设计与实战

相关文章

相关课程