欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • Spark大数据技术项目实战(新一代信息技术系列教材)
      • 作者:编者:邓永生//李丽//张俊豪|责编:高樱
      • 出版社:西安电子科大
      • ISBN:9787560676029
      • 出版日期:2025/02/01
      • 页数:209
    • 售价:19.6
  • 内容大纲

        本书主要围绕大数据处理技术Spark展开讲解,旨在引导读者深入了解大数据分析处理的全流程,并剖析每个环节中所使用的关键技术及其原理。
        全书共八个实战项目。项目一介绍了如何搭建一个稳定且高效的Spark集群环境,探讨了Spark的基本概念、特点及应用场景,同时与Hadoop进行了对比分析。项目二通过实现一个完整的人事管理系统,介绍了Scala语言的基础语法与面向对象编程及函数式编程的概念,示范了如何使用Scala进行Spark应用开发。项目三至项目七运用Spark分别对电商用户行为数据、电影数据、银行客户数据、设备故障数据以及社交媒体评论数据进行了数据分析与处理,内容涵盖从数据预处理到高级统计分析的全过程。项目八通过一个综合性的案例——基于Spark MLlib的广告点击率预测,将前面所学的知识融会贯通,逐步带领读者完成大数据开发的核心流程,包括数据预处理、特征工程、模型训练与评估等步骤。本书不仅提供了丰富的理论知识,还辅以大量实战案例,旨在帮助读者全面掌握Spark大数据技术的实际应用。
        本书可作为高等院校计算机相关专业的教材,也可作为计算机领域技术人员及编程爱好者的参考书。
  • 作者介绍

  • 目录

    项目一  搭建Spark集群环境
      任务1.1  认识Spark
        1.1.1  Spark概述
        1.1.2  Spark的特点
        1.1.3  Spark的应用场景
        1.1.4  Spark和Hadoop对比
      任务1.2  搭建Spark集群
        1.2.1  安装准备
        1.2.2  Spark的部署方式
        1.2.3  Spark集群的安装与部署
      任务1.3  Spark运行架构与原理
        1.3.1  Spark集群的运行架构
        1.3.2  Spark运行的基本原理
      创新学习
      能力测试
    项目二  使用Scala实现人事管理系统
      任务2.1  搭建Scala开发环境
        2.1.1  Scala简介
        2.1.2  搭建Scala开发环境
        2.1.3  Scala代码的运行方式
      任务2.2  学习Scala基础语法
        2.2.1  基本语法和结构
        2.2.2  数据类型和操作
        2.2.3  面向对象编程
        2.2.4  函数式编程
        2.2.5  输入输出和异常处理
        2.2.6  高级特性
      任务2.3  实现人事管理系统
        2.3.1  人事管理系统需求介绍
        2.3.2  系统架构与技术设计
        2.3.3  需求功能实现
        2.3.4  编译与运行
        2.3.5  代码优化
      创新学习
      能力测试
    项目三  电商用户行为数据分析
      任务3.1  认识RDD
        3.1.1  RDD的概念
        3.1.2  RDD的特点
        3.1.3  RDD操作的分类
      任务3.2  RDD操作实践
        3.2.1  Spark Shell环境实操
        3.2.2  创建RDD的方式
        3.2.3  常用转换操作实践
        3.2.4  常用行动操作实践
      任务3.3  使用RDD实现电商用户行为分析
        3.3.1  电商用户行为数据简介
        3.3.2  功能需求分析
        3.3.3  需求实现思路分析
        3.3.4  数据预处理

        3.3.5  需求功能实现
      创新学习
      能力测试
    项目四  电影数据分析实现
      任务4.1  搭建Spark开发环境
        4.1.1  IntelliJ IDEA介绍和安装
        4.1.2  Zeppelin的安装和基本使用
      任务4.2  编写第一个Spark程序
        4.2.1  编程模型介绍
        4.2.2  Spark WordCount案例分析
        4.2.3  Spark WordCount代码实现
      任务4.3  打包并运行Spark程序
        4.3.1  打包插件介绍
        4.3.2  打包程序实操
        4.3.3  提交Spark程序到集群运行
      任务4.4  编程实现电影数据分析
        4.4.1  项目背景
        4.4.2  数据描述
        4.4.3  功能需求
        4.4.4  需求实现
      创新学习
      能力测试
    项目五  银行客户数据分析
      任务5.1  认识Spark SQL
        5.1.1  Spark SQL概述
        5.1.2  数据表示与处理
        5.1.3  SQL查询与优化
      任务5.2  Spark SQL基础
        5.2.1  DataFrame API基础操作
        5.2.2  数据源和格式
      任务5.3  Spark SQL进阶操作
        5.3.1  高级操作与功能
        5.3.2  性能优化与调优
        5.3.3  扩展与整合
      任务5.4  分析与统计银行客户数据
        5.4.1  银行客户数据简介
        5.4.2  数据预处理和准备
        5.4.3  数据探索与分析
        5.4.4  客户行为分析
      创新学习
      能力测试
    项目六  设备故障的实时监控
      任务6.1  认识Structured Streaming
        6.1.1  结构化流处理概述
        6.1.2  数据源和数据接收器
        6.1.3  实时数据处理和输出
      任务6.2  模拟生成设备数据
        6.2.1  设备数据生成工具
        6.2.2  设备数据流处理
      任务6.3  实现设备故障的实时监控

        6.3.1  设备故障监控系统架构
        6.3.2  设备故障实时监控处理
      创新学习
      能力测试
    项目七  社交媒体评论情感分析
      任务7.1  了解Spark MLlib
        7.1.1  Spark MLlib概述
        7.1.2  机器学习工作流程
        7.1.3  房产数据处理与输出
      任务7.2  数据处理与模型应用
        7.2.1  数据收集与准备
        7.2.2  特征工程与模型训练
        7.2.3  模型评估与部署
      任务7.3  对社交媒体评论数据进行情感分析
        7.3.1  社交媒体评论数据概述
        7.3.2  数据收集与预处理
        7.3.3  情感分析模型训练与评估
        7.3.4  情感分析结果展示
      创新学习
      能力测试
    项目八  基于Spark MLlib的广告点击率预测
      任务8.1  项目介绍
        8.1.1  项目背景
        8.1.2  项目任务
        8.1.3  项目实施流程
      任务8.2  准备数据集
      任务8.3  数据预处理
      任务8.4  特征工程实现
      任务8.5  模型训练与预测
      任务8.6  模型评估与优化
      创新学习
      能力测试
    参考文献