-
内容大纲
本书由斯坦福大学“Web挖掘”课程的内容总结而成,主要关注极大规模数据的挖掘。书中包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统、社会网络图挖掘和大规模机器学习等主要内容。第3版新增了决策树、神经网络和深度学习等内容。几乎每节都有对应的习题,以此来巩固所讲解的内容。读者还可以从网上获取相关拓展资料。
本书适合作为本科生、研究生数据挖掘课程的教材,也适合对数据挖掘感兴趣的技术人员阅读。 -
作者介绍
-
目录
第1章 数据挖掘基本概念
1.1 数据挖掘的定义
1.1.1 建模
1.1.2 统计建模
1.1.3 机器学习
1.1.4 建模的计算方法
1.1.5 数据概括
1.1.6 特征抽取
1.2 数据挖掘的统计限制
1.2.1 整体情报预警
1.2.2 邦弗朗尼原理
1.2.3 邦弗朗尼原理的一个例子
1.2.4 习题
1.3 相关知识
1.3.1 词语在文档中的重要性
1.3.2 哈希函数
1.3.3 索引
1.3.4 二级存储器
1.3.5 自然对数的底e
1.3.6 幂定律
1.3.7 习题
1.4 本书概要
1.5 小结
1.6 参考文献
第2章 MapReduce和新软件栈
2.1 分布式文件系统
2.1.1 计算节点的物理结构
2.1.2 大规模文件系统的结构
2.2 MapReduce
2.2.1 Map任务
2.2.2 按键分组
2.2.3 Reduce任务
2.2.4 组合器
2.2.5 MapReduce的执行细节
2.2.6 节点故障的处理
2.2.7 习题
2.3 使用MapReduce的算法
2.3.1 基于MapReduce的矩阵-向量乘法实现
2.3.2 向量v无法放入内存时的处理
2.3.3 关系代数运算
2.3.4 基于MapReduce的选择运算
2.3.5 基于MapReduce的投影运算
2.3.6 基于MapReduce的并、交和差运算
2.3.7 基于MapReduce的自然连接运算
2.3.8 基于MapReduce的分组和聚合运算
2.3.9 矩阵乘法
2.3.10 基于单步MapReduce的矩阵乘法
2.3.11 习题
2.4 MapReduce的扩展
2.4.1 工作流系统
2.4.2 Spark
2.4.3 Spark实现
2.4.4 TensorFlow
2.4.5 MapReduce的递归扩展版本
2.4.6 整体同步系统
2.4.7 习题
……
第3章 相似项发现
第4章 数据流挖掘
第5章 链接分析
第6章 频繁项集
第7章 聚类
第8章 Web广告
第9章 推荐系统
第10章 社会网络图挖掘
第11章 降维处理
第12章 大规模机器学习
第13章 神经网络与深度学习
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...