欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • Hadoop海量数据处理(技术原理与项目实践)
      • 作者:许政|责编:王中英
      • 出版社:清华大学
      • ISBN:9787302666943
      • 出版日期:2024/08/01
      • 页数:336
    • 售价:39.92
  • 内容大纲

        本书从Hadoop的基础知识讲起,逐步深入Hadoop分布式文件系统(HDFS)和MapReduce分布式编程框架的核心技术,帮助读者全面、系统、深入地理解Hadoop海量数据处理技术的精髓。本书在讲解技术原理时穿插大量的典型示例,并详解两个典型项目实战案例,帮助读者提高实际项目开发水平。
        本书共15章,分为4篇。第1篇Hadoop基础知识,包括大数据概述、Hadoop概述、Hadoop环境搭建与配置;第2篇Hadoop分布式存储技术,包括HDFS概述、HDFS基础操作、HDFS的读写原理和工作机制、Hadoop 3.x的新特性;第3篇MapReduce分布式编程框架,包括MapReduce概述、MapReduce开发基础、MapReduce框架的原理、MapReduce数据压缩、YARN资源调度器、Hadoop企业级优化;第4篇项目实战,包括Hadoop高可用集群搭建实战和统计TopN经典项目案例实战。
        本书通俗易懂、案例丰富、实用性强,适合Hadoop初学者和进阶人员阅读,也适合大数据工程师、数据分析工程师和数据科学家等大数据技术从业人员和爱好者阅读,还适合作为高等院校和相关培训机构的大数据教材。
  • 作者介绍

        许政,毕业于哈尔滨工业大学,获硕士学位。现居深圳,任某一线大厂大数据架构师。参加工作以来,带领团队完成了多个百亿级大数据平台的建设。在实时计算方面有深厚的实践经验。熟悉多种大数据技术框架,如Hadoop、Spark、Flink、Elasticsearch、Kafka、HBase、ZooKeeper等。被CSDN评为优秀博主,撰写了大数据技术相关博文100余篇,博客访问量高达240多万。运维自己的独立博客网站。在大数据实时处理技术和人工智能算法方面有深入的研究,申请发明专利10余项。
  • 目录

    第1篇  Hadoop基础知识
      第1章  大数据概述
        1.1  大数据简介
        1.2  大数据的特点
        1.3  大数据的发展前景
        1.4  大数据技术生态体系
          1.4.1  数据采集与传输类
          1.4.2  数据存储与管理类
          1.4.3  资源管理类
          1.4.4  数据计算类
          1.4.5  任务调度类
        1.5  大数据部门的组织架构
        1.6  小结
      第2章  Hadoop概述
        2.1  Hadoop简介
        2.2  Hadoop的发展历史
        2.3  Hadoop的三大发行版本
        2.4  Hadoop的优势
        2.5  Hadoop各版本之间的区别
        2.6  Hadoop的组成
          2.6.1  HDFS架构简介
          2.6.2  YARN架构简介
          2.6.3  MapReduce架构简介
        2.7  小结
      第3章  Hadoop环境搭建与配置
        3.1  搭建开发环境
          3.1.1  对操作系统的要求
          3.1.2  对软件环境的要求
          3.1.3  下载和安装JDK
          3.1.4  配置JDK环境变量
          3.1.5  下载和安装Hadoop
          3.1.6  配置Hadoop的环境变量
          3.1.7  配置Hadoop的系统参数
          3.1.8  解读Hadoop的目录结构
        3.2  配置本地运行模式
          3.2.1  在Linux环境下运行Hadoop官方的Grep案例
          3.2.2  在Linux环境下运行Hadoop官方的WordCount案例
          3.2.3  在Windows环境下搭建Hadoop
          3.2.4  在Windows环境下运行WordCount案例
        3.3  配置伪分布式模式
          3.3.1  启动HDFS井运行MapReduce程序
          3.3.2  启动YARN并运行MapReduce程序
          3.3.3  配置历史服务器
          3.3.4  配置日志的聚集功能
        3.4  配置完全分布式模式
          3.4.1  分布式集群环境准备
          3.4.2  配置完全分布式集群
          3.4.3  配置Hadoop集群单点启动
          3.4.4  测试完全分布式集群
          3.4.5  配置Hadoop集群整体启动

          3.4.6  配置Hadoop集群时间同步
        3.5  小结
    第2篇  Hadoop分布式存储技术
      第4章  HDFS概述
        4.1  HDFS的背景和定义
          4.1.1  HDFS产生的背景
          4.1.2  HDFS的定义
        4.2  HDFS的优缺点
          4.2.1  HDFS的优点
          4.2.2  HDFS的缺点
        4.3  HDFS的组成架构
        4.4  设置HDFS文件块的大小
        4.5  小结
      第5章  HDFS基础操作
        5.1  HDFS的Shell命令操作
          5.1.1  HDFS的帮助命令
          5.1.2  显示HDFS的目录信息
          5.1.3  创建HDFS目录
      ……
    第3篇  MapReduce分布式编程框架
    第4篇  项目实战