欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 企业级大数据项目实战(用户搜索行为分析系统从0到1)
      • 作者:张伟洋|责编:王金柱
      • 出版社:清华大学
      • ISBN:9787302630906
      • 出版日期:2023/06/01
      • 页数:264
    • 售价:35.6
  • 内容大纲

        本书基于真实业务场景,以项目导向为主线,从0到1全面介绍“企业级大数据用户搜索行为分析系统”的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解“用户行为数据采集模块”的开发,第4章讲解“用户行为数据离线分析模块”的开发,第5章讲解“用户行为数据实时分析模块”的开发,这3章采用项目导向的方式,让读者参与实际开发过程;第6章讲解“数据可视化模块”的开发,并整合各模块,测试数据流转,完成项目的开发与部署。
        本书项目源自真实业务场景,目的是使读者通过实际项目来理解理论知识并提高实践能力。本书适合缺乏大数据项目经验的从业者阅读,也适合作为高等院校大数据专业的教学用书。
  • 作者介绍

        张伟洋,大数据领域资深专家,拥有多年顶尖互联网公司软件研发经验,曾在互联网旅游公司任软件研发事业部经理。目前从事大数据项目讲师工作,先后多次给各大高校举行大数据专题讲座,对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有着深入的研究。高等院校云计算与大数据专业课改教材《云计算与大数据概论》《大数据开发与应用》的主要编写者。
  • 目录

    第1章  项目需求描述
      1.1  项目需求
      1.2  项目数据流设计
      1.3  项目架构设计
      1.4  集群角色规划
      1.5  项目开发环境介绍
    第2章  项目开发环境准备
      2.1  VMware中安装CentOS 7操作系统
        2.1.1  下载CentOS 7镜像文件
        2.1.2  VMware新建虚拟机
        2.1.3  安装CentOS 7
        2.1.4  启动CentOS 7
        2.1.5  打开Shell终端
      2.2  Linux系统环境配置
        2.2.1  新建用户
        2.2.2  修改用户权限
        2.2.3  关闭防火墙
        2.2.4  设置固定IP
        2.2.5  修改主机名
        2.2.6  新建资源目录
      2.3  安装JDK
      2.4  克隆虚拟机
      2.5  配置主机IP映射
      2.6  配置集群各节点SSH无密钥登录
        2.6.1  SSH无密钥登录原理
        2.6.2  SSH无密钥登录操作步骤
      2.7  搭建Hadoop分布式集群
        2.7.1  搭建思路
        2.7.2  搭建Hadoop集群
      2.8  动手练习
    第3章  用户行为数据采集模块开发
      3.1  用户行为数据来源
        3.1.1  构建测试数据
        3.1.2  数据预处理
      3.2  使用Flume采集用户行为数据
        3.2.1  Flume采集架构
        3.2.2  Flume组件
        3.2.3  Flume的安装与测试
        3.2.4  配置Flume多节点数据采集
      3.3  使用Kafka中转用户行为数据
        3.3.1  ZooKeeper集群的搭建
        3.3.2  ZooKeeper集群的启动与连接
        3.3.3  Kafka集群的搭建
        3.3.4  Kafka集群的启动与查看
        3.3.5  Kafka主题操作
      3.4  Flume数据实时写入Kafka
        3.4.1  数据流架构
        3.4.2  配置centos03节点的Flume
        3.4.3  启动Flume
        3.4.4  测试数据流转

      3.5  使用HBase存储用户行为数据
        3.5.1  HBase集群的架构
        3.5.2  HBase集群的搭建
        3.5.3  HBase集群的启动、查看与停止
        3.5.4  测试HBase数据表操作
        3.5.5  创建HBase用户行为表结构
      3.6  Flume数据实时写入HBase
        3.6.1  数据流架构
        3.6.2  配置centos03节点的Flume
        3.6.3  Flume写入HBase原理分析
        3.6.4  用户行为日志匹配测试
        3.6.5  启动Flume
        3.6.6  测试数据流转
      3.7  动手练习
    第4章  用户行为数据离线分析模块开发
      4.1  Hive安装
        4.1.1  Hive内嵌模式安装
        4.1.2  Hive本地模式安装
        4.1.3  Hive远程模式安装
      4.2  Hive数据库操作
        4.2.1  创建数据库
        4.2.2  修改数据库
        4.2.3  选择数据库
        4.2.4  删除数据库
        4.2.5  显示数据库
      4.3  Hive表操作
        4.3.1  内部表操作
        4.3.2  外部表操作
      4.4  Hive离线分析用户行为数据
        4.4.1  创建用户行为表并导入数据
        4.4.2  统计前10个访问量最高的用户ID及访问数量
        4.4.3  分析链接排名与用户点击的相关性
        4.4.4  分析一天中上网用户最多的时间段
        4.4.5  查询用户访问最多的前10个网站域名
      4.5  Hive集成HBase分析用户行为数据
        4.5.1  Hive集成HBase的原理
        4.5.2  Hive集成HBase的配置
        4.5.3  Hive分析HBase用户行为表数据
      4.6  Spark集群的搭建
        4.6.1  应用提交方式
        4.6.2  搭建集群
      4.7  Spark应用程序的提交
        4.7.1  spark-submit工具的使用
        4.7.2  执行Spark圆周率程序
        4.7.3  SparkShell的启动
      4.8  SparkRDD算子运算
        4.8.1  SparkRDD特性
        4.8.2  创建RDD
        4.8.3  转换算子运算
        4.8.4  行动算子运算

      4.9  使用IntelliJIDEA创建Scala项目
        4.9.1  在IDEA中安装Scala插件
        4.9.2  创建Scala项目
      4.10  SparkWordCount项目的创建与运行
        4.10.1  创建Maven管理的Spark项目
        4.10.2  编写WordCount程序
        4.10.3  提交WordCount程序到集群
        4.10.4  查看SparkWebUI
        4.10.5  查看程序执行结果
      4.11  Spark RDD读写HBase
        4.11.1  读取HBase表数据
        4.11.2  写入HBase表数据
      4.12  使用Spark SQL实现单词计数
        4.12.1  Spark SQL编程特性
        4.12.2  Spark SQL的基本使用
        4.12.3  Spark SQL实现单词计数
      4.13  Spark SQL数据源操作
        4.13.1  基本操作
        4.13.2  Parquet文件
        4.13.3  JSON数据集
        4.13.4  Hive表
        4.13.5  JDBC
      4.14  Spark SQL与Hive整合分析
        4.14.1  整合Hive
        4.14.2  操作Hive
      4.15  SparkSQL整合MySQL存储分析结果
        4.15.1  MySQL数据准备
        4.15.2  读取MySQL表数据
        4.15.3  写入结果数据到MySQL表
      4.16  SparkSQL热点搜索词统计
        4.16.1  开窗函数的使用
        4.16.2  热点搜索词统计实现
      4.17  SparkSQL搜索引擎每日UV统计
        4.17.1  内置函数的使用
        4.17.2  搜索引擎每日UV统计实现
      4.18  动手练习
    第5章  用户行为数据实时分析模块开发
      5.1  Spark Streaming程序编写
        5.1.1  Spark Streaming工作原理
        5.1.2  输入DStream和Receiver
        5.1.3  第一个Spark Streaming程序
      5.2  Spark Streaming数据源
        5.2.1  基本数据源
        5.2.2  高级数据源
        5.2.3  自定义数据源
      5.3  DStream操作
        5.3.1  无状态操作
        5.3.2  状态操作
        5.3.3  窗口操作
        5.3.4  输出操作

        5.3.5  缓存及持久化
        5.3.6  检查点
      5.4  Spark Streaming按批次累加单词数量
        5.4.1  编写应用程序
        5.4.2  运行应用程序
        5.4.3  查看Spark WebUI
      5.5  Spark Streaming整合Kafka计算实时单词数量
        5.5.1  整合原理
        5.5.2  编写应用程序
        5.5.3  运行应用程序
      5.6  Structured Streaming快速实时单词计数
      5.7  Structured Streaming编程模型
      5.8  Structured Streaming查询输出
        5.8.1  输出模式
        5.8.2  外部存储系统与检查点
      5.9  Structured Streaming窗口操作
        5.9.1  事件时间
        5.9.2  窗口聚合单词计数
        5.9.3  延迟数据和水印
      5.10  Structured Streaming消费Kafka数据实现单词计数
      5.11  Structured Streaming输出计算结果到MySQL
        5.11.1  MySQL建库、建表
        5.11.2  Structured Streaming应用程序的编写
        5.11.3  打包与提交Structured Streaming应用程序
      5.12  动手练习
    第6章  数据可视化模块开发
      6.1  IDEA搭建基于SpringBoot的Web项目
        6.1.1  创建Maven项目
        6.1.2  项目集成SpringBoot
      6.2  WebSocket数据实时推送
        6.2.1  WebSocket推送原理
        6.2.2  项目集成WebSocket
        6.2.3  创建JDBC查询工具类
        6.2.4  创建WebSocket服务处理类
      6.3  使用ECharts进行前端视图展示
      6.4  多框架整合实时分析用户行为日志数据流
        6.4.1  项目实时处理工作流程
        6.4.2  模拟实时产生用户行为数据
        6.4.3  集群数据流转
      6.5  动手练习