-
内容大纲
在人工智能时代,不论是否从事大数据开发,掌握大数据的原理和架构早已成为每个工程师的必备技能。本书结合作者多年大数据开发、应用的经验,深入浅出地阐述大数据的完整知识体系,帮助读者从不同视角找到大数据方向的突破口,真正从普通开发者晋升为拥有大数据思维并能解决复杂问题的技术专家。
本书一共分为7章,分别是大数据的前世今生与应用场景、Hadoop大数据原理与架构、大数据生态体系主要产品原理与架构、大数据开发实践、大数据平台与系统集成、大数据分析与运营、大数据算法与机器学习。
本书既可作为初学者了解大数据技术的入门指南,也可作为有一定经验的工程师深入理解大数据思维的有益参考。 -
作者介绍
李智慧,资深架构专家,同程旅行交通首席架构师,曾在NEC、阿里巴巴、Intel等知名企业担任架构师,也曾在WiFi万能钥匙等企业担任CTO。 长期从事大数据、大型网站的架构和研发工作,领导设计过多个日活用户在千万级以上的互联网系统架构,实战经验丰富。曾设计、开发过Web服务器防火墙、分布式NoSQL系统、大数据仓库引擎、反应式编程框架等各种类型的软件系统。 Apache Spark代码贡献者,腾讯云TVP,著有畅销书《大型网站技术架构》,同时也是极客时间《从0开始学大数据》《后端技术面试38讲》等专栏的作者。 -
目录
1 大数据的前世今生与应用场景
大数据的前世今生:大数据简史与大数据生态体系概述
从搜索引擎到人工智能:大数据应用发展史
大数据应用的搜索引擎时代
大数据应用的数据仓库时代
大数据应用的数据挖掘时代
大数据应用的机器学习时代
数据驱动一切:大数据全领域应用场景分析
大数据在医疗健康领域的应用
大数据在社交媒体领域的应用
大数据在金融领域的应用
大数据在新零售领域的应用
大数据在交通领域的应用
2 Hadoop大数据原理与架构
移动计算比移动数据更划算
从RAID看垂直伸缩到水平伸缩的演化
新技术层出不穷,HDFS依然是存储的王者
为什么说MapReduce既是编程模型又是计算框架
MapReduce如何让数据完成一次旅行
MapReduce作业启动和运行机制
MapReduce数据合并与连接机制
为什么把Yarn称为资源调度框架
程序员应该如何学好大数据技术
3 大数据生态体系主要产品原理与架构
Hive是如何让MapReduce实现SQL操作的
用MapReduce实现SQL数据分析的原理
Hive的架构
Hive如何实现join操作
人们并没有觉得MapReduce速度慢,直到Spark出现
同样的本质,为何Spark可以更高效
Spark的计算阶段
Spark的作业管理
Spark的执行过程
BigTable的开源实现:HBase
HBase可伸缩架构
HBase可扩展数据模型
HBase的高性能存储
流式计算的代表:Storm、Spark Streaming、Flink
Storm
Spark Streaming
Flink
ZooKeeper是如何保证数据一致性的
分布式一致性原理
Paxos算法与ZooKeeper架构
大数据技术应用场景分析
4 大数据开发实践
如何自己开发一个大数据SQL引擎
Panthera架构
Panthera的SQL语法转换
比如这条SQL
Panthera程序设计
Spark的性能优化案例分析
Apache开源社区的组织和参与方式
软件性能优化
大数据开发的性能优化
Spark性能优化
案例1:Spark任务文件初始化调优
案例2:Spark任务调度优化
案例3:Spark应用配置优化
案例4:操作系统配置优化
案例5:硬件优化
大数据基准测试可以带来什么好处
大数据基准测试的应用
大数据基准测试工具HiBench
从大数据性能测试工具Dew看如何快速开发大数据系统
Dew设计与开发
Akka的原理与应用
大数据开发实践的启示
5 大数据平台与系统集成
大数据平台=互联网产品+大数据产品
数据采集
数据处理
数据输出与展示
大数据任务调度
大数据平台Lamda架构
数据在大数据平台中的流转
大数据从哪里来
从数据库导入
从日志文件导入
前端埋点采集
爬虫系统
数据的熵
知名大厂如何搭建大数据平台
淘宝大数据平台
美团大数据平台
滴滴大数据平台
学架构就是学架构模式
盘点可供中小企业参考的商业大数据平台
大数据解决方案提供商
大数据云计算服务商
大数据SaaS服务商
大数据开放平台
当大数据遇上物联网
物联网应用场景分析
物联网平台架构
大数据技术在物联网中的应用
6 大数据分析与运营
老板想要监控什么运营指标
互联网运营的常用数据指标
数据可视化图表与数据监控
一个用户新增下降的数据分析案例
数据分析案例
数据分析方法
A/B测试与灰度发布必知必会
A/B测试的过程
A/B测试的系统架构
灰度发布
如何利用大数据成为“增长黑客”
Hotmail的增长黑客故事
AARRR用户增长模型
利用大数据增长用户数量
为什么说数据驱动运营
7 大数据算法与机器学习
如何对数据进行分类和预测
k近邻分类算法
数据的距离
文本的特征值
贝叶斯分类
如何发掘数据的关系
搜索排序
关联分析
聚类
如何预测用户的喜好
基于人口统计的推荐
基于商品属性的推荐
基于用户的协同过滤推荐
基于商品的协同过滤推荐
机器学习的数学原理是什么
样本
模型
算法
为什么学机器学习要学数学
从感知机到神经网络
感知机
神经网络
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...