-
内容大纲
本书以使用Kettle工具实现ETL流程为目标,将ETL知识点与项目任务相结合,配合真实案例,按照ETL的流程,循序渐进地介绍ETL数据整合与处理的相关内容。全书共6个项目,项目1介绍ETL概念和ETL工具等;项目2以获取食品销售源数据为例,介绍获取不同类型源数据的方法,并说明它们之间的差别;项目3以整合和处理某大型供应链集团的食品销售数据为例,介绍从获取多份源数据开始,使用排序、合并、剪切、拆分、删除、过滤、替换和输出等一系列与ETL流程相匹配的处理方法,整合和处理出一份符合项目阶段目标要求的数据的方法,帮助读者快速理解和掌握ETL;项目4以项目3的阶段目标数据作为源数据,介绍进行数据计算和统计的方法,以及将统计结果输出到不同类型的数据文件中的方式,帮助读者从业务上理解数据计算和统计的要求,以及输出结果的方法;项目5介绍Kettle的任务执行方式,构建任务流程,设定调度时间,自动执行项目3中整合和处理食品销售数据的任务;项目6介绍无人售货机项目,通过项目案例的形式,帮助读者将所学知识融会贯通。
本书可以作为高校大数据相关专业的教材,也可以作为ETL爱好者的自学用书。 -
作者介绍
-
目录
项目1 开启ETL之旅
任务1.1 认识ETL
1.1.1 了解ETL
1.1.2 选择ETL工具
任务1.2 配置Kettle运行环境
1.2.1 安装JDK
1.2.2 安装MySQL数据库
1.2.3 配置Kettle
任务1.3 熟悉Kettle的基本操作
1.3.1 认识Kettle界面
1.3.2 了解转换和任务
1.3.3 运行工程并查看执行结果
小结
实训
实训1 安装MySQL数据库
实训2 安装Kettle
课后习题
项目2 获取食品销售源数据
任务2.1 创建数据库连接
2.1.1 新建数据库连接
2.1.2 设置数据库连接参数
2.1.3 测试和浏览数据库连接
2.1.4 建立/停止共享数据库连接
任务2.2 获取数据库的食品销售数据
2.2.1 创建“表输入”组件
2.2.2 设置组件参数
2.2.3 预览获取的数据
任务2.3 获取CSV文件的食品销售数据
2.3.1 创建“CSV文件输入”组件
2.3.2 设置组件参数
2.3.3 预览获取的数据
任务2.4 获取Excel文件的食品销售数据
2.4.1 创建“Microsoft Excel input”组件
2.4.2 设置组件参数
2.4.3 预览获取的数据
小结
实训
实训1 获取数据库的日化销售数据
实训2 获取CSV文件的日化销售数据
实训3 获取Excel文件的日化销售数据
课后习题
项目3 整合和处理食品销售数据
任务3.1 处理多文件销售数据
3.1.1 排序文件数据
3.1.2 连接销售数据文件
3.1.3 字段选择
3.1.4 删除不规范的“销售时间”字段
3.1.5 替换“包装单位”字段的NULL值
任务3.2 合并销售数据
3.2.1 合并数据
3.2.2 合并所有的销售数据
任务3.3 剪切“平台”字段的字符串
3.3.1 创建“剪切字符串”组件
3.3.2 设置组件参数
3.3.3 预览结果数据
任务3.4 拆分“经营单位”字段
3.4.1 创建“拆字字段”组件
3.4.2 设置组件参数
3.4.3 预览结果数据
任务3.5 删除数据中的多余字段和重复记录
3.5.1 删除多余字段
3.5.2 删除重复记录
任务3.6 过滤并替换不规范的字段数据
3.6.1 设定条件过滤记录
3.6.2 规范字段数据
任务3.7 输出销售数据到数据库表
3.7.1 创建“表输出”组件
3.7.2 设置组件参数
3.7.3 预览结果数据
小结
实训
实训1 合并D平台的日化销售数据
实训2 处理B、C平台的日化销售数据
实训3 整合和处理A、B、C、D平台的日化销售数据
课后习题
项目4 统计食品销售数据
任务4.1 计算订单利润和利润率
4.1.1 创建计算订单利润和利润率的组件
4.1.2 设置组件参数
4.1.3 预览结果数据
任务4.2 计算单价
4.2.1 创建“计算器”组件
4.2.2 设置组件参数
4.2.3 预览结果数据
任务4.3 聚合统计销售额数据
4.3.1 聚合统计销售额
4.3.2 输出聚合统计结果
任务4.4 统计平台食品销售数据
4.4.1 分组统计
4.4.2 输出结果到数据库
任务4.5 统计分公司食品销售数据
4.5.1 评出“优秀经营单位”
4.5.2 插入结果到数据库
任务4.6 统计商品品牌食品销售数据
4.6.1 创建“SQL文件输出”组件
4.6.2 设置组件参数
4.6.3 预览结果数据
任务4.7 对销售额进行离散化统计
4.7.1 对销售额大小进行分段
4.7.2 分段统计并输出结果到Excel文件
小结
实训
实训1 计算日化销售数据中各个订单的利润、利润率
实训2 统计平台日化销售数据
实训3 统计分公司日化销售数据
实训4 统计各个商品品牌的日化销售数据
课后习题
项目5 执行整合与处理食品销售数据任务
任务5.1 开始任务
5.1.1 创建“Start”组件
5.1.2 设置组件参数
5.1.3 运行任务
任务5.2 检查输入源数据文件
5.2.1 检查源数据文件是否存在
5.2.2 等待文件上传
任务5.3 检查输出数据表
5.3.1 检查输出数据表是否存在
5.3.2 使用“SQL”组件生成输出数据表
任务5.4 执行数据整合与处理转换工程任务
5.4.1 创建“执行数据整合与处理工程”组件
5.4.2 设置组件参数
5.4.3 运行任务
任务5.5 添加日志文件
5.5.1 创建“添加文件到结果文件中”组件
5.5.2 设置组件参数
5.5.3 运行任务
任务5.6 发送日志邮件
5.6.1 创建“发送邮件”组件
5.6.2 设置组件参数
5.6.3 运行任务
任务5.7 结束任务
5.7.1 创建“成功”组件
5.7.2 设置组件参数
5.7.3 运行任务
小结
实训
实训1 执行日化销售数据整合与处理任务
实训2 执行统计日化销售数据任务
课后习题
项目6 无人售货机项目实战
任务6.1 了解无人售货机项目背景与目标
6.1.1 了解项目背景
6.1.2 熟悉项目目标
6.1.3 熟悉数据字段
任务6.2 统计客户订单数据
6.2.1 分析任务数据和数据处理需求
6.2.2 熟悉任务流程
6.2.3 实现客户订单数据的统计
任务6.3 统计商品销售数据
6.3.1 分析任务数据和数据处理需求
6.3.2 熟悉任务流程
6.3.3 实现商品销售数据的统计
任务6.4 统计无人售货机日销售数据
6.4.1 分析任务数据和数据处理需求
6.4.2 熟悉任务流程
6.4.3 实现无人售货机日销售数据的统计
任务6.5 统计无人售货机销售盈利数据
6.5.1 分析任务数据和数据处理需求
6.5.2 熟悉任务流程
6.5.3 实现无人售货机销售盈利数据的统计
小结
课后习题
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
