欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 剑指大数据(Hadoop学习精要)/程序员硬核技术丛书
      • 作者:编者:尚硅谷教育|责编:李冰
      • 出版社:电子工业
      • ISBN:9787121443923
      • 出版日期:2022/11/01
      • 页数:298
    • 售价:42
  • 内容大纲

        Hadoop是使用最广泛的大数据处理框架之一,在大数据领域有着极其重要的地位,掌握Hadoop可以让学习者对大数据的理解更进一步。本书是基于Hadoop 3.1.3编写的,从大数据的特点和处理难点入手,逐步讲解Hadoop的起源和发展。从搭建Hadoop的学习环境开始,依次对Hadoop的三大功能模块进行重点讲解,并且结合大量案例,细致地讲解HDFS、MapReduce、YARN的内核原理和调优方法,还会扩展讲解Hadoop的高可用实现、在生产环境中的调优方法及源码解读。
        本书广泛适用于大数据的学习者与从业人员,是大数据学习的必备书籍。
  • 作者介绍

  • 目录

    第1章  大数据概论
      1.1  大数据的特征
      1.2  大数据的发展前景
        1.2.1  大数据的应用场景
        1.2.2  大数据的未来发展
      1.3  大数据生态体系与Hadoop
        1.3.1  Hadoop的发展史
        1.3.2  大数据生态体系
        1.3.3  Hadoop架构
      1.4  本章总结
    第2章  环境准备
      2.1  安装VMware
      2.2  安装CentOS
      2.3  安装远程终端
        2.3.1  安装Xshell
        2.3.2  安装SecureCRT
      2.4  虚拟机配置
        2.4.1  网络配置
        2.4.2  网络IP地址配置
        2.4.3  主机名配置
        2.4.4  防火墙配置
        2.4.5  一般用户配置
        2.4.6  克隆虚拟机
      2.5  本章总结
    第3章  Hadoop快速上手
      3.1  集群角色
        3.1.1  Hadoop集群的主要角色
        3.1.2  YARN的主要组成部分
      3.2  本地模式
        3.2.1  安装
        3.2.2  运行官方示例程序
      3.3  完全分布式模式
        3.3.1  SSH免密登录
        3.3.2  shell脚本准备
        3.3.3  集群配置
        3.3.4  NameNode格式化问题
        3.3.5  配置历史服务器与日志聚集功能
        3.3.6  Hadoop集群启停脚本
        3.3.7  集群时间同步
      3.4  本章总结
    第4章  分布式文件系统HDFS
      4.1  HDFS概述
        4.1.1  HDFS背景及定义
        4.1.2  HDFS的基本架构
      4.2  HDFS的shell操作
        4.2.1  命令大全
        4.2.2  命令行命令实操
      4.3  HDFS的API操作
        4.3.1  客户端环境准备
        4.3.2  HDFS文件上传案例

        4.3.3  HDFS文件下载案例
        4.3.4  HDFS文件重命名案例
        4.3.5  HDFS文件删除案例
        4.3.6  HDFS文件详情查看案例
        4.3.7  HDFS文件和文件夹判断案例
      4.4  HDFS的读/写流程
        4.4.1  HDFS中的数据块大小
        4.4.2  写数据流程
        4.4.3  读数据流程
      4.5  HDFS的工作机制
        4.5.1  NameNode和SecondaryNameNode的工作机制
        4.5.2  EditLog和FsImage文件解析
        4.5.3  检查点时间设置
        4.5.4  DataNode的工作机制
        4.5.5  数据完整性
      4.6  本章总结
    第5章  分布式计算MapReduce
      5.1  MapReduce概述
        5.1.1  MapReduce定义
        5.1.2  MapReduce核心思想
      5.2  MapReduce编程入门
        5.2.1  官方示例程序WordCount源码
        5.2.2  编程规范
        5.2.3  WordCount案例实操
      5.3  Hadoop的序列化
        5.3.1  序列化概述
        5.3.2  Writable接口
        5.3.3  序列化案例实操
      5.4  MapReduce框架原理之InputFormat数据输入
        5.4.1  切片与MapTask并行度决定机制
        5.4.2  Job提交流程源码和FileInputFormat切片源码详解
        5.4.3  FileInputFormat切片机制总结
        5.4.4  TextInputFormat
        5.4.5  CombineTextInputFormat切片机制
        5.4.6  CombineTextInputFormat案例实操
      5.5  MapReduce框架原理之shuffle机制
        5.5.1  shuffle机制
        5.5.2  分区
        5.5.3  分区案例实操
        5.5.4  WritableComparable排序
        5.5.5  WritableComparable排序案例实操(全排序)
        5.5.6  WritableComparable排序案例实操(区内排序)
        5.5.7  Combiner合并
        5.5.8  Combiner合并案例实操
      5.6  MapReduce框架原理之OutputFormat数据输出
        5.6.1  OutputFormat接口的实现类
        5.6.2  自定义OutputFormat类的案例实操
      5.7  MapReduce工作流程
      5.8  Join
        5.8.1  Reduce Join

        5.8.2  Reduce Join案例实操
        5.8.3  Map Join
        5.8.4  Map Join案例实操
      5.9  数据清洗
      5.10  Hadoop中的数据压缩
        5.10.1  数据压缩概述
        5.10.2  压缩参数配置
        5.10.3  压缩案例实操
      5.11  本章总结
    第6章  资源调度器YARN
      6.1  YARN概述
        6.1.1  基本架构
        6.1.2  工作机制
      6.2  YARN的资源调度器和调度算法
        6.2.1  FIFO调度器
        6.2.2  容量调度器
        6.2.3  公平调度器
      6.3  YARN实操
        6.3.1  常用的命令行命令
        6.3.2  核心参数
        6.3.3  核心参数配置案例
        6.3.4  容量调度器配置案例
        6.3.5  公平调度器配置案例
        6.3.6  Tool接口案例
      6.4  本章总结
    第7章  高可用HA
      7.1  ZooKeeper详解
        7.1.1  ZooKeeper入门
        7.1.2  ZooKeeper安装
        7.1.3  ZooKeeper的内部原理
        7.1.4  ZooKeeper的命令操作
      7.2  HA概述
        7.2.1  什么是HA
        7.2.2  HDFS HA的工作机制
      7.3  Hadoop HA集群的搭建
        7.3.1  HDFS HA手动故障转移
        7.3.2  HDFS HA自动故障转移
        7.3.3  YARN HA
        7.3.4  Hadoop HA集群规划
      7.4  本章总结
    第8章  生产调优手册
      8.1  HDFS的核心参数
        8.1.1  NameNode的内存生产配置
        8.1.2  NameNode心跳并发配置
        8.1.3  启用回收站功能
      8.2  HDFS集群压测
        8.2.1  测试HDFS的写性能
        8.2.2  测试HDFS的读性能
      8.3  HDFS的多目录配置
        8.3.1  NameNode的多目录配置

        8.3.2  DataNode的多目录配置
        8.3.3  集群数据均衡之磁盘之间的数据均衡
      8.4  HDFS集群的扩容及缩容
        8.4.1  添加白名单
        8.4.2  服役新服务器
        8.4.3  服务器之间的数据均衡
        8.4.4  黑名单退役服务器
      8.5  HDFS的存储优化策略
        8.5.1  纠删码
        8.5.2  异构存储
      8.6  HDFS的故障排除
        8.6.1  NameNode故障处理
        8.6.2  集群安全模式&磁盘数据损坏
        8.6.3  慢磁盘监控
        8.6.4  小文件存档
      8.7  MapReduce的生产经验
        8.7.1  MapReduce程序运行较慢的原因
        8.7.2  MapReduce的常用调优参数
        8.7.3  MapReduce的数据倾斜
      8.8  Hadoop的综合调优
        8.8.1  Hadoop的小文件优化方法
        8.8.2  测试MapReduce的计算性能
        8.8.3  企业开发场景案例
      8.9  本章总结
    第9章  源码解析
      9.1  RPC通信原理
      9.2  NameNode启动源码解析
        9.2.1  查看源码的准备工作
        9.2.2  启动9870端口服务
        9.2.3  加载镜像文件和编辑日志文件
        9.2.4  初始化RPC服务器端
        9.2.5  检查资源
        9.2.6  检测心跳信息并进行超时判断
        9.2.7  退出安全模式
      9.3  DataNode启动源码解析
        9.3.1  查看源码的准备工作
        9.3.2  初始化DataXceiverServer
        9.3.3  初始化HTTP服务
        9.3.4  初始化RPC服务器端
        9.3.5  DataNode向NameNode注册
        9.3.6  DataNode向NameNode发送心跳信息
      9.4  HDFS写数据流程的源码解析
        9.4.1  查看源码的准备工作
        9.4.2  Client向NameNode发起写请求
        9.4.3  NameNode处理Client的写请求
        9.4.4  DataStreamer启动流程
        9.4.5  向DataStreamer的队列中写数据
        9.4.6  建立管道之机架感知
        9.4.7  建立管道之socket发送
        9.4.8  建立管道之socket接收

        9.4.9  客户端接收DataNode的写数据响应
      9.5  YARN源码解析
        9.5.1  查看源码的准备工作
        9.5.2  创建YARN客户端并提交任务
        9.5.3  启动MRAppMaster
        9.5.4  调度器任务执行
      9.6  Hadoop的源码编译
        9.6.1  前期准备工作
        9.6.2  安装工具包
        9.6.3  编译源码
      9.7  本章总结