欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • Spark大数据分析技术(数据科学与大数据技术Python版微课版面向新工科专业建设计算机系列教材)
      • 作者:编者:曹洁|责编:白立军//战晓雷|总主编:张尧学
      • 出版社:清华大学
      • ISBN:9787302625520
      • 出版日期:2023/03/01
      • 页数:260
    • 售价:23.6
  • 内容大纲

        本书系统介绍Spark大数据处理框架。全书共8章,内容包括大数据技术概述、Spark大数据处理框架、Spark RDD编程、Spark SQL结构化数据处理、HBase分布式数据库、Spark Streaming流计算、Spark MLlib机器学习、数据可视化。
        本书可作为高等院校计算机科学与技术、信息管理与信息系统、软件工程、数据科学与大数据技术、人工智能等专业的大数据课程教材,也可供从事大数据开发和研究工作的工程师和科技工作者参考。
  • 作者介绍

        曹洁,博士,毕业于同济大学电子与信息工程学院计算机软件与理论专业;主要研究方向是并行分布式处理、云计算、大数据;主持和参与国家级、省部级项目5项;在《软件学报》《计算机研究与发展》《通信学报》等国内外核心刊物上发表学术论文12篇;主讲“Python语言程序设计”“大数据技术及应用”“云计算技术”等课程;主编《Python语言程序设计》(微课版),参编《数据挖掘》《Struts2+Hibermate框架技术教程》(第2版)等多部教材。
  • 目录

    第1章  大数据技术概述
      1.1  大数据的基本概念
        1.1.1  大数据的定义
        1.1.2  大数据的特征
        1.1.3  大数据思维
      1.2  代表性大数据技术
        1.2.1  Hadoop
        1.2.2  Spark
        1.2.3  Flink
      1.3  大数据编程语言
      1.4  在线资源
      1.5  拓展阅读——三次信息化浪潮的启示
      1.6  习题
    第2章  Spark大数据处理框架
      2.1  Spark概述
        2.1.1  Spark的产生背景
        2.1.2  Spark的优点
        2.1.3  Spark的应用场景
        2.1.4  Spark的生态系统
      2.2  Spark运行机制
        2.2.1  Spark基本概念
        2.2.2  Spark运行架构
      2.3  在VirtualBox上安装Linux集群
        2.3.1  Master节点的安装
        2.3.2  虚拟机克隆安装Slave1节点
      2.4  Hadoop安装前的准备工作
        2.4.1  创建hadoop用户和更新APT
        2.4.2  安装SSH、配置SSH无密码登录
        2.4.3  安装Java环境
        2.4.4  Linux系统下Scala版本的Eclipse的安装与配置
        2.4.5  Eclipse环境下Java程序开发实例
      2.5  Hadoop的安装与配置
        2.5.1  下载Hadoop安装文件
        2.5.2  Hadoop单机模式配置
        2.5.3  Hadoop伪分布式模式配置
        2.5.4  Hadoop分布式模式配置
      2.6  Spark的安装与配置
        2.6.1  下载Spark安装文件
        2.6.2  单机模式配置
        2.6.3  伪分布式模式配置
      2.7  使用PySpark编写Python代码
      2.8  安装pip工具和常用的数据分析库
      2.9  安装Anaconda和配置Jupyter Notebook
        2.9.1  安装Anaconda
        2.9.2  配置Jupyter Notebook
        2.9.3  运行Jupyter Notebook
        2.9.4  配置Jupyter Notebook实现和PySpark交互
        2.9.5  为Anaconda安装扩展库
      2.10  拓展阅读——Spark诞生的启示
      2.11  习题

    第3章  Spark RDD编程
      3.1  RDD的创建方式
        3.1.1  使用程序中的数据集创建RDD
        3.1.2  使用文本文件创建RDD
        3.1.3  使用JSON文件创建RDD
        3.1.4  使用CSV文件创建RDD
      3.2  RDD转换操作
        3.2.1  映射操作
        3.2.2  去重操作
        3.2.3  排序操作
        3.2.4  分组聚合操作
        3.2.5  集合操作
        3.2.6  抽样操作
        3.2.7  连接操作
        3.2.8  打包操作
        3.2.9  获取键值对RDD的键和值集合
        3.2.10  重新分区操作
      3.3  RDD行动操作
        3.3.1  统计操作
        3.3.2  取数据操作
        3.3.3  聚合操作
        3.3.4  迭代操作
        3.3.5  存储操作
      3.4  RDD之间的依赖关系
        3.4.1  窄依赖
        3.4.2  宽依赖
      3.5  RDD的持久化
      3.6  案例实战:利用Spark RDD实现词频统计
      3.7  实验1:RDD编程实验
      3.8  拓展阅读——中国女排精神
      3.9  习题
    第4章  Spark SQL结构化数据处理
      4.1  Spark SQL
        4.1.1  Spark SQL简介
        4.1.2  DataFrame与Dataset
      4.2  创建DataFrame对象的方法
        4.2.1  使用Parquet文件创建DataFrame对象
        4.2.2  使用JSON文件创建DataFrame对象
        4.2.3  使用SparkSession方式创建DataFrame对象
      4.3  将DataFrame对象保存为不同格式的文件
        4.3.1  通过write.xxx()方法保存DataFrame对象
        4.3.2  通过write.format()方法保存DataFrame对象
        4.3.3  将DataFrame对象转化成RDD保存到文件中
      4.4  DataFrame的常用操作
        4.4.1  行类操作
        4.4.2  列类操作
        4.4.3  DataFrame的常用属性
        4.4.4  输出
        4.4.5  筛选
        4.4.6  排序

        4.4.7  汇总与聚合
        4.4.8  统计
        4.4.9  合并
        4.4.10  连接
        4.4.11  to系列转换
      4.5  读写MySQL数据库
        4.5.1  安装并配置MySQL
        4.5.2  读取MySQL数据库中的数据
        4.5.3  向MySQL数据库写入数据
      4.6  实验2:Spark SQL编程实验
      4.7  拓展阅读——中国芯片之路
      4.8  习题
    第5章  HBase分布式数据库
      5.1  HBase概述
        5.1.1  HBase的技术特点
        5.1.2  HBase与传统关系数据库的区别
        5.1.3  HBase与Hadoop中其他组件的关系
      5.2  HBase系统架构和数据访问流程
        5.2.1  HBase系统架构
        5.2.2  HBase数据访问流程
      5.3  HBase数据表
        5.3.1  HBase数据表逻辑视图
        5.3.2  HBase数据表物理视图
        5.3.3  HBase数据表面向列的存储
        5.3.4  HBase数据表的查询方式
        5.3.5  HBase表结构设计
      5.4  HBase的安装
        5.4.1  下载安装文件
        5.4.2  配置环境变量
        5.4.3  添加用户权限
        5.4.4  查看HBase版本信息
      5.5  HBase的配置
        5.5.1  单机模式配置
        5.5.2  伪分布式模式配置
      5.6  HBase的Shell操作
        5.6.1  基本操作
        5.6.2  创建表
        5.6.3  插入与更新表中的数据
        5.6.4  查看表中的数据
        5.6.5  删除表中的数据
        5.6.6  表的启用/禁用
        5.6.7  修改表结构
        5.6.8  删除HBase表
      5.7  HBase的Java API操作
        5.7.1  HBase数据库管理API
        5.7.2  HBase数据库表API
        5.7.3  HBase数据库表行列API
      5.8  HBase案例实战
        5.8.1  在Eclipse中创建工程
        5.8.2  添加项目用到的JAR包

        5.8.3  编写Java应用程序
        5.8.4  编译运行程序
      5.9  利用Python操作HBase
        5.9.1  HappyBase的安装
        5.9.2  Connection类
        5.9.3  Table类
      5.10  拓展阅读——HBase存储策略的启示
      5.11  习题
    第6章  Spark Streaming流计算
      6.1  流计算概述
        6.1.1  流数据
        6.1.2  流计算处理流程
      6.2  Spark Streaming工作原理
      6.3  Spark Streaming编程模型
        6.3.1  编写Spark Streaming程序的步骤
        6.3.2  创建StreamingContext对象
      6.4  创建DStream
        6.4.1  创建输入源为文件流的DStream对象
        6.4.2  定义DStream的输入数据源为套接字流
        6.4.3  定义DStream的输入数据源为RDD队列流
      6.5  DStream操作
        6.5.1  DStream无状态转换操作
        6.5.2  DStream有状态转换操作
        6.5.3  DStream输出操作
      6.6  拓展阅读——Spark Streaming流处理过程的启示
      6.7  习题
    第7章  Spark MLlib机器学习
      7.1  MLlib概述
        7.1.1  机器学习
        7.1.2  PySpark机器学习库
      7.2  MLlib基本数据类型
        7.2.1  本地向量
        7.2.2  带标签的点
        7.2.3  本地矩阵
      7.3  机器学习流水线
        7.3.1  转换器
        7.3.2  评估器
        7.3.3  流水线
      7.4  基本统计
        7.4.1  汇总统计
        7.4.2  相关分析
        7.4.3  分层抽样
        7.4.4  生成随机数
        7.4.5  核密度估计
      7.5  特征提取、转换和选择
        7.5.1  特征提取
        7.5.2  特征转换
        7.5.3  特征选择
      7.6  分类算法
        7.6.1  逻辑二分类回归分析

        7.6.2  决策树分类
      7.7  回归算法
        7.7.1  循环发电场数据的多元线性回归分析
        7.7.2  回归决策树
        7.7.3  梯度提升回归树
      7.8  聚类算法
        7.8.1  聚类概述
        7.8.2  k均值聚类算法
      7.9  协同过滤推荐算法
        7.9.1  协同过滤推荐的原理
        7.9.2  交替最小二乘协同过滤推荐算法
      7.10  实验3:Spark机器学习实验
      7.11  拓展阅读——工匠精神
      7.12  习题
    第8章  数据可视化
      8.1  WordCloud
      8.2  PyeCharts
        8.2.1  绘制柱状图
        8.2.2  绘制折线图
        8.2.3  绘制饼图
        8.2.4  绘制雷达图
        8.2.5  绘制漏斗图
        8.2.6  绘制3D柱状图
        8.2.7  绘制词云图
      8.3  Plotly
        8.3.1  绘制折线图
        8.3.2  绘制柱状图
        8.3.3  绘制饼图
      8.4  拓展阅读——文化自信
      8.5  习题
    参考文献