-
内容大纲
本书按照高等院校计算机专业课程基本要求,注重理论和实践相结合,采用先实践再总结的方式,突出计算机课程的实践性特点。本书共包括9个单元:大数据概述,大数据必备Linux知识,Hadoop伪分布式安装及其部署,HDFS原理详解,MapReduce计算框架详解,搭建Hadoop完全分布式环境,资源调度框架(YARN)与运用,Hive初识,项目实战。
本书内容安排合理,结构清晰,通俗易懂,实例丰富,可作为各类高等院校、培训机构的教材,也可供大数据程序开发人员学习和参考。 -
作者介绍
-
目录
单元一 大数据概述
1.1 大数据基本概念
1.1.1 大数据与生活
1.1.2 大数据的特征
1.1.3 大数据的发展史
1.1.4 云计算、大数据和人工智能
1.1.5 大数据平台——Hadoop
1.2 学习Hadoop的环境准备工作
单元小结
单元自测
单元二 大数据必备Linux知识
2.1 Linux目录结构
2.2 Linux运行级别
2.3 Linux常用命令
2.3.1 帮助命令
2.3.2 显示当前目录绝对路径命令
2.3.3 列出目录命令
2.3.4 切换目录命令
2.3.5 创建目录命令
2.3.6 删除文件或目录命令
2.3.7 创建空文件
2.3.8 复制命令
2.3.9 移动/重命名命令
2.3.10 查看内容命令
2.3.11 分屏显示文件内容命令
2.3.12 输出重定向命令
2.3.13 输出内容到控制台命令
2.3.14 软链接命令
2.3.15 查看历史执行命令
2.3.16 显示当前时间命令
2.3.17 查看日历命令
2.3.18 tar文件解压命令
2.3.19 在指定的目录下查找命令
2.3.20 全局查找命令
2.3.21 在文本中查找命令
2.4 Linux用户管理
2.4.1 添加用户命令
2.4.2 创建用户组命令
2.4.3 添加用户并指定所属组命令
2.4.4 修改用户所属组命令
2.4.5 删除用户命令
2.4.6 删除用户组命令
2.4.7 设置用户密码命令
2.4.8 查看用户信息命令
2.4.9 切换用户命令
2.4.10 查看登录用户信息命令
2.4.11 用户、用户组的相关文件
2.5 Linux组和权限管理
2.5.1 Linux中的权限
2.5.2 修改文件/目录的所有者命令
2.5.3 修改文件/目录的所属组命令
2.5.4 修改文件所有者和所属组命令
2.5.5 修改权限命令
2.6 Linux磁盘管理
2.6.1 查看系统整体磁盘情况命令
2.6.2 查看指定目录的磁盘占用情况命令
2.7 Linux网络
2.7.1 修改IP地址
2.7.2 修改主机名
2.8 Linux进程管理
2.8.1 显示系统执行的进程命令
2.8.2 显示子父进程的关系命令
2.8.3 终止进程命令
2.9 Linux服务管理
2.10 Linux RPM和YUM
2.10.1 RPM相关命令
2.10.2 YUM相关命令
2.11 Linux vim编辑器
2.11.1 vim的普通模式
2.11.2 vim的编辑模式
2.11.3 vim的命令模式
单元小结
单元自测
单元三 Hadoop伪分布式安装及其部署
3.1 前期知识准备
3.2 Linux环境配置
3.2.1 修改主机名和计算机名
3.2.2 配置静态IP地址
3.2.3 配置SSH无密码连接
3.2.4 远程连接配置
3.3 JDK配置
3.3.1 卸载Open JDK
3.3.2 下载Oracle JDK
3.3.3 安装Oracle JDK(root用户权限执行)
3.4 安装与部署Hadoop
3.4.1 安装CDH
3.4.2 修改hadoop-env.sh
3.4.3 修改core-site.xml
3.4.4 修改hdfs-site.xml
3.4.5 修改slaves文件
3.4.6 追加HADOOP_HOME到环境变量中
3.4.7 格式化HDFS
3.4.8 启动Hadoop并验证安装
3.4.9 安装验证
单元小结
单元自测
单元四 HDFS原理详解
4.1 HDFS概述以及设计目标
4.1.1 HDFS概述
4.1.2 HDFS设计理念
4.1.3 HDFS目标
4.1.4 HDFS缺点
4.2 HDFS架构
4.3 HDFS副本机制
4.3.1 数据复制
4.3.2 副本存放机制
4.4 HDFS读取文件和写入文件
4.4.1 通过HDFS读取文件
4.4.2 通过HDFS写入文件
4.5 HDFS的基本文件操作
4.5.1 -help[cmd]
4.5.2 -mkdir
4.5.3 -ls(r)
4.5.4 -put
4.5.5 -du(s)
4.5.6 -count[-q]
4.5.7 -mv
4.5.8 -cp
4.5.9 -rm(r)
4.5.10 -moveFromLocal/-moveToLocal
4.5.11 -get[-ignorecrc]
4.5.12 -cat
单元小结
单元自测
单元五 MapReduce计算框架详解
5.1 认识MapReduce
5.1.1 什么是MapReduce
5.1.2 MapReduce的特点
5.2 MapReduce编程思想
5.3 MapReduce执行流程
5.3.1 MapReduce流程分解
5.3.2 MapReduce详解
5.4 Java版中wordcount功能的实现
5.5 Combiner应用程序开发
5.5.1 MapReduce中Combiner的作用
5.5.2 Combiner的原理
5.5.3 代码实现
5.6 Partitioner应用程序开发
5.6.1 MapReduce中Partitioner的作用
5.6.2 代码实现
单元小结
单元自测
单元六 搭建Hadoop完全分布式环境
6.1 Hadoop的集群规划
6.2 前置安装
6.3 安装JDK
6.4 Hadoop集群的部署
6.5 作业提交到Hadoop集群上运行
单元小结
单元自测
单元七 资源调度框架(YARN)与运用
7.1 YARN产生的背景
7.2 YARN架构
7.3 YARN的执行流程
7.4 YARN的环境搭建
7.5 提交作业到YARN上执行
单元小结
单元自测
单元八 Hive初识
8.1 认识Hive
8.2 Hive的安装和配置
8.2.1 安装MySQL
8.2.2 安装Hive
8.2.3 验证安装
8.3 Hive操作快速入门
单元小结
单元自测
单元九 电商用户行为分析项目实战
9.1 背景知识
9.2 项目基本介绍
9.2.1 用户日志分析
9.2.2 常用的电商术语
9.2.3 用户行为日志的意义
9.3 项目需求分析
9.3.1 需求分析
9.3.2 数据处理流程
9.4 实现项目功能
9.4.1 各省份浏览量统计功能实现
9.4.2 页面浏览统计功能实现
9.4.3 ETL的介绍和实现
9.4.4 功能升级
9.4.5 打包上传服务器运行
9.5 项目功能优化
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...