Apache Spark大数据分析:基于Azure Databricks云平台

978-7-115-61456-8
作者: 罗伯特·伊利杰森(Robert Ilijason)
译者: 袁国忠
编辑: 傅道坤
分类: Spark

图书目录:

详情

Azure Databricks是一款基于云的大数据分析和机器学习平台,用于实现基于Apache Spark的数据处理,为快速增长的海量数据的处理和决策需求分析提供了良好的支撑。《Apache Spark大数据分析:基于Azure Databricks云平台》详细介绍基于Azure Databricks云平台来使用Apache Spark完成大规模数据处理和分析的方法。本书总计11章,首先介绍大规模数据分析相关的概念;然后介绍受管的Spark及其与Databricks的关系,以及Databricks的版本差异和使用方法(涵盖工作区、集群、笔记本、Databricks文件系统、数据导入/导出等内容);接着介绍使用SQL和Python分别实现数据分析的过程,数据提取、变换、加载、存储、优化技巧等高阶数据处理方法以及外部连接工具、生产环境集成等内容;最后探讨了运行机器学习算法、合并数据更新以及通过API运行Databricks、Delta流处理等高阶主题。 作为数据分析领域的入门书,本书具有很强的实用性,可供数据工程师、数据分析师和决策分析人员等学习和参考。

图书摘要

相关图书

Spark分布式处理实战
Spark分布式处理实战
Spark大数据实时计算:基于Scala开发实战
Spark大数据实时计算:基于Scala开发实战
Spark和Python机器学习实战:预测分析核心方法(第2版)
Spark和Python机器学习实战:预测分析核心方法(第2版)
图解Spark 大数据快速分析实战
图解Spark 大数据快速分析实战
精通Spark数据科学
精通Spark数据科学
Spark机器学习实战
Spark机器学习实战

相关文章

相关课程