欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 大数据原理与技术(华为信息与网络技术学院指定教材)/ICT认证系列丛书
      • 作者:编者:黄史浩|责编:李静
      • 出版社:人民邮电
      • ISBN:9787115458711
      • 出版日期:2018/01/01
      • 页数:255
    • 售价:27.6
  • 内容大纲

        本书是华为ICT学院大数据技术官方教材,旨在帮助学生进一步学习大数据的基本概念、技术原理,以及大数据平台的搭建和使用。
        本书从大数据的概念和特征开始讲起,首先让读者对大数据有一个感性的认识;接下来结合大数据平台的各个功能模块,详细介绍大数据的存储、处理、分析、可视化等原理和操作;最后对大数据在各种行业中的应用加以叙述,让读者更加充分地感受到大数据应用的价值。
        除华为ICT学院的学生之外,本书同样适合正在备考HCNA-Big Data认证,或者正在参加HCNA—BigData技术培训的学员进行阅读和参考。其他有志进入ICT行业的人员和大数据技术爱好者也可以通过阅读本书,加深自己对大数据技术的理解。
  • 作者介绍

  • 目录

    第1章  大数据概述
      1.1 大数据的概念与价值
        1.1.1 什么是大数据
        1.1.2 大数据的来源
        1.1.3 大数据有什么价值
        1.1.4 如何挖掘企业大数据的价值
      1.2 大数据的关键技术
        1.2.1 大数据采集、预处理与存储管理
        1.2.2 大数据分析与挖掘
        1.2.3 数据可视化
      1.3 大数据产业
        1.3.1 数据提供
        1.3.2 技术提供
        1.3.3 服务提供
      1.4 大数据应用场景
      1.5 本章总结
      练习题
    第2章  Hadoop大数据处理平台
      2.1 Hadoop平台概述
        2.1.1 Hadoop简介
        2.1.2 Hadoop的特性
        2.1.3 Hadoop应用现状
        2.1.4 Hadoop版本及相关平台
      2.2 Hadoop生态系统
        2.2.1 Hadoop存储系统(HDFS & HBase)
        2.2.2 Hadoop计算框架(MapReduce & YARN)
        2.2.3 Hadoop数据仓库(Hive)
        2.2.4 Hadoop数据转换与日志处理(Sqoop & Flume)
        2.2.5 Hadoop应用协调与工作流(ZooKeeper & Oozie)
        2.2.6 大数据安全技术(Kerberos & LDAP)
        2.2.7 大数据即时查询与搜索(Impala & Solr)
        2.2.8 大数据消息订阅(Kafka)
      2.3 Hadoop安装部署
        2.3.1 Hadoop规划部署
        2.3.2 Hadoop的安装方式
      2.4 华为FusionInsight HD安装部署
        2.4.1 FusionInsight HD简介
        2.4.2 FusionInsight HD集成设计
        2.4.3 FusionInsight HD安装部署
        2.4.4 FusionInsight HD重要参数配置
      2.5 本章总结
      练习题
    第3章  大数据存储技术(HDFS)
      3.1 概述
        3.1.1 分布式文件系统的概念与作用
        3.1.2 HDFS概述
      3.2 HDFS的相关概念
        3.2.1 块
        3.2.2 NameNode
        3.2.3 Secondary NameNode

        3.2.4 DataNode
      3.3 HDFS体系架构与原理
        3.3.1 HDFS体系架构
        3.3.2 HDFS的高可用机制
        3.3.3 HDFS的目录结构
        3.3.4 HDFS的数据读写过程
      3.4 HDFS接口及其在FusionInsight HD编程中的实践
        3.4.1 HDFS常用Shell命令
        3.4.2 HDFS的Web界面
        3.4.3 HDFS的Java接口及应用实例
      3.5 本章总结
      练习题
    第4章  大数据离线计算框架(MapReduce & YARN)
      4.1 MapReduce技术原理
        4.1.1 MapReduce概述
        4.1.2 Map函数与Reduce函数
      4.2 YARN技术原理
        4.2.1 YARN的概述与应用
        4.2.2 YARN的架构
        4.2.3 MapReduce的计算过程
        4.2.4 YARN的资源调度
      4.3 FusionInsight HD中MapReduce的应用
        4.3.1 WordCount实例分析
        4.3.2 MapReduce编程实践
      4.4 本章总结
      练习题
    第5章  大数据数据库(HBase)
      5.1 HBase概述
        5.1.1 HBase简介
        5.1.2 HBase与关系型数据库的区别
        5.1.3 HBase的应用场景
      5.2 HBase的架构原理
        5.2.1 HBase的数据模型
        5.2.2 表和Region
        5.2.3 HBase的系统架构与功能组件
        5.2.4 HBase的读写流程
        5.2.5 HBase的Compaction过程
      5.3 FusionInsight HD中HBase的编程实践
        5.3.1 FusionInsight HD中HBase的常用参数配置
        5.3.2 HBase的常用Shell命令
        5.3.3 HBase常用的Java API及应用实例
      5.4 本章总结
      练习题
    第6章  大数据数据仓库(Hive)
      6.1 Hive概述
        6.1.1 Hive简介和应用
        6.1.2 Hive的特性
        6.1.3 Hive与传统数据仓库的区别
      6.2 Hive的架构和数据存储
        6.2.1 Hive的架构原理

        6.2.2 Hive的数据存储模型
        6.2.3 HiveQL编程
      6.3 FusionInsight HD中Hive应用实践
        6.3.1 FusionInsight HD中Hive的常用参数配置
        6.3.2 加载数据到
        6.3.3 使用HiveQL进行数据分析
      6.4 本章总结
      练习题
    第7章  大数据数据转换(Sqoop与Loader)
      7.1 Sqoop概述
        7.1.1 Sqoop简介与应用
        7.1.2 Sqoop的功能与特性
        7.1.3 Sqoop与传统ETL的区别
      7.2 FusionInsight HD中Loader的应用实践
        7.2.1 FusionInsight HD中Loader与Sqoop的对比
        7.2.2 FusionInsight HD中Loader的参数配置
        7.2.3 使用Loader进行数据转换
        7.2.4 Loader的常用Shell命令
        7.2.5 Loader应用实践
      7.3 本章总结
      练习题
    第8章  大数据日志处理(Flume)
      8.1 Flume概述
        8.1.1 Flume简介与应用
        8.1.2 Flume的功能与特性
        8.1.3 Flume与其他主流开源日志收集系统的区别
      8.2 FusionInsight HD中Flume的应用实践
        8.2.1 FusionInsight HD中Flume的常用参数配置
        8.2.2 Flume常用的Shell命令
        8.2.3 Flume与Kafka结合进行日志处理
      8.3 本章总结
      练习题
    第9章  大数据实时计算框架(Spark)
      9.1 Spark概述
        9.1.1 Spark的概述与应用
        9.1.2 Scala语言介绍
        9.1.3 Spark生态系统组件
        9.1.4 Spark与Hadoop的对比
      9.2 Spark技术架构
        9.2.1 Spark的运行原理
        9.2.2 RDD概念与原理
        9.2.3 Spark的三种部署方式
        9.2.4 使用开发工具测试Spark
      9.3 FusionInsight HD中Spark应用实践
        9.3.1 运行Spark Shell
        9.3.2 进行Spark RDD操作
        9.3.3 使用Spark客户端工具运行Spark程序
      9.4 Spark Streaming
        9.4.1 Spark Streaming的设计思想
        9.4.2 Spark Streaming的应用实例

      9.5 Spark SQL
        9.5.1 Spark SQL的功能
        9.5.2 FusionInsight HD中Spark SQL的应用实例
      9.6 Spark MLlib
        9.6.1 机器学习简介
        9.6.2 Spark MLlib的功能
      9.7 Spark GraphX
        9.7.1 图计算简介
        9.7.2 Spark GraphX功能简介
      9.8 本章总结
      练习题
    第10章  大数据流计算
      10.1 流计算概述
        10.1.1 静态数据和流数据
        10.1.2 流计算的概念
        10.1.3 MapReduce和流计算
        10.1.4 流计算框架
      10.2 流计算的处理流程
        10.2.1 数据实时采集
        10.2.2 数据实时计算
        10.2.3 数据实时查询
      10.3 Streaming流计算
        10.3.1 Streaming简介
        10.3.2 Streaming的特点
        10.3.3 Streaming在FusionInsight HD上的应用实践
        10.3.4 Spark Streaming与Streaming的差异
      10.4 本章总结
      练习题
    第11章  数据可视化
      11.1 可视化概述
        11.1.1 数据可视化简介
        11.1.2 数据可视化的重要性
        11.1.3 可视化的发展历程
        11.1.4 数据可视化的过程
      11.2 可视化工具
        11.2.1 入门级工具(Excel)
        11.2.2 普通工具(R语言)
        11.2.3 高级工具(Tableau和QlikView)
      11.3 可视化的典型应用
        11.3.1 可视化在医学上的应用
        11.3.2 可视化在工程中的应用
        11.3.3 可视化在互联网的应用
      11.4 本章总结
      练习题
    第12章  大数据行业应用
      12.1 大数据在金融行业的应用
      12.2 大数据在电信行业的应用
      12.3 大数据在公安系统的应用
      12.4 大数据在互联网行业的应用
      12.5 本章总结

      练习题
    术语表
    参考文献