欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • Hadoop大数据技术原理与编程(数据科学与大数据技术微课版面向新工科专业建设计算机系列教材)
      • 作者:曹洁//齐平//陈明//王福成|责编:白立军//薛阳|总主编:张尧学
      • 出版社:清华大学
      • ISBN:9787302666790
      • 出版日期:2024/07/01
      • 页数:292
    • 售价:27.6
  • 内容大纲

        本书系统介绍了大数据的相关知识,全书共13章,内容包括Hadoop大数据处理架构、HDFS分布式文件系统、YARN资源管理、MapReduce分布式计算框架、HBase分布式数据库、流数据采集、典型非关系数据库的安装与使用、分布式数据分析工具Pig、Spark大数据处理框架、基于Python的Spark RDD编程、基于Python的Spark SQL结构化数据处理、Hive分布式数据仓库、典型数据可视化工具的使用。本书对大数据相关技术给出详细的编程示例,并给出详细的注解。
        本书可作为高等院校计算机、信息管理、软件工程、人工智能、数据科学与大数据技术等相关专业的大数据课程教材,也可供相关技术人员参考。
  • 作者介绍

  • 目录

    第1章  Hadoop大数据处理架构
      1.1  大数据的基本概念
        1.1.1  大数据时代
        1.1.2  大数据定义
        1.1.3  大数据的特征
        1.1.4  大数据思维
      1.2  大数据计算模式与典型系统
        1.2.1  批处理计算模式与典型系统
        1.2.2  流式计算模式与典型系统
        1.2.3  迭代计算模式与典型系统
        1.2.4  图计算模式与典型系统
        1.2.5  内存计算模式与典型系统
      1.3  Hadoop发展历程
      1.4  Hadoop优缺点
      1.5  Hadoop生态圈
      1.6  在VirtualBox上搭建Linux操作系统
        1.6.1  创建Master节点
        1.6.2  克隆虚拟电脑
      1.7  Hadoop安装前的准备工作
        1.7.1  创建hadoop用户
        1.7.2  安装SSH、配置SSH无密码登录
        1.7.3  安装Java环境
        1.7.4  Linux操作系统下Scala版本的Eclipse的安装与配置
        1.7.5  Eclipse环境下Java语言程序开发实例
      1.8  Hadoop的安装与配置
        1.8.1  下载Hadoop安装文件
        1.8.2  Hadoop单机模式配置
        1.8.3  Hadoop伪分布式模式配置
        1.8.4  Hadoop分布式模式配置
      1.9  习题
    第2章  HDFS分布式文件系统
      2.1  HDFS基本特征
      2.2  HDFS存储架构及组件功能
        2.2.1  HDFS存储架构
        2.2.2  数据块
        2.2.3  数据节点
        2.2.4  名称节点
        2.2.5  第二名称节点
        2.2.6  心跳消息
        2.2.7  客户端
      2.3  HDFS读写文件流程
        2.3.1  HDFS读文件流程
        2.3.2  HDFS写文件流程
      2.4  HDFS的Shell操作
        2.4.1  查看命令使用方法
        2.4.2  HDFS常用的Shell操作
        2.4.3  HDFS管理员命令
        2.4.4  HDFS的Java API操作
      2.5  案例实战1:修改文件名
        2.5.1  在Eclipse中创建项目

        2.5.2  为项目添加需要用到的JAR包
        2.5.3  编写Java语言应用程序
        2.5.4  编译运行程序
        2.5.5  应用程序的部署
      2.6  案例实战2:文件读取、上传和下载
        2.6.1  读取文件内容
        2.6.2  文件上传和下载
      2.7  习题
    第3章  YARN资源管理
      3.1  YARN概述
      3.2  YARN基础架构
        3.2.1  Container
        3.2.2  ResourceManager
        3.2.3  NodeManager
        3.2.4  Applleation Master
        3.2.5  Client
      ……
    第4章  MapReduce分布式计算框架
    第5章  HBase分布式数据库
    第6章  流数据采集
    第7章  典型非关系数据库的安装与使用
    第8章  分布式数据分析工具Pig
    第9章  Spark大数据处理框架
    第10章  基于Python语言的Spark RDD编程
    第11章  基于Python语言的Spark SQL结构化数据处理
    第12章  Hive分布式数据仓库
    第13章  典型数据可视化工具的使用
    参考文献