-
内容大纲
本书所涵盖的主题包括:数据、分类、关联分析、聚类分析、异常检测和避免错误发现。通过介绍每个主题的基本概念和算法,为读者提供将数据挖掘应用于实际问题所需的必要背景。其中,分类、关联分析和聚类分析各自组织成两章的内容,一章讲述基本概念、代表性算法和评估技术,另一章深入讨论高级概念和算法。
本书适用于数据挖掘专业高年级本科生和研究生教学,也可供相关技术人员参考。 -
作者介绍
陈封能(Pang-Ning Tan)密歇根州立大学计算机科学与工程系教授,主要研究方向是数据挖掘、数据库系统、网络空间安全、网络分析等。 -
目录
出版者的话
译者序
前言
第1章 绪论
1.1 什么是数据挖掘
1.2 数据挖掘要解决的问题
1.3 数据挖掘的起源
1.4 数据挖掘任务
1.5 本书组织结构
文献注释
参考文献
习题
第2章 数据
2.1 数据类型
2.1.1 属性与度量
2.1.2 数据集的类型
2.2 数据质量
2.2.1 测量和数据收集问题
2.2.2 关于应用的问题
2.3 数据预处理
2.3.1 聚集
2.3.2 抽样
2.3.3 维归约
2.3.4 特征子集选择
2.3.5 特征创建
2.3.6 离散化和二元化
2.3.7 变量变换
2.4 相似性和相异性的度量
2.4.1 基础
2.4.2 简单属性之间的相似度和相异度
2.4.3 数据对象之间的相异度
2.4.4 数据对象之间的相似度
2.4.5 邻近度度量的例子
2.4.6 互信息
*2.4.7 核函数
*2.4.8 Bregman散度
2.4.9 邻近度计算问题
2.4.10 选择正确的邻近度度量
文献注释
参考文献
习题
第3章 分类:基本概念和技术
3.1 基本概念
3.2 一般的分类框架
3.3 决策树分类器
3.3.1 构建决策树的基本算法
3.3.2 表示属性测试条件的方法
3.3.3 选择属性测试条件的方法
3.3.4 决策树归纳算法
3.3.5 示例:Web机器人检测
3.3.6 决策树分类器的特征
3.4 模型的过拟合
3.5 模型选择
3.5.1 验证集应用
3.5.2 模型复杂度合并
3.5.3 统计范围估计
3.5.4 决策树的模型选择
3.6 模型评估
3.6.1 保持方法
3.6.2 交叉验证
3.7 超参数的使用
3.7.1 超参数选择
3.7.2 嵌套交叉验证
3.8 模型选择和评估中的陷阱
3.8.1 训练集和测试集之间的重叠
3.8.2 使用验证错误率作为泛化错误率
*3.9 模型比较
3.9.1 估计准确率的置信区间
3.9.2 比较两个模型的性能
文献注释
参考文献
习题
第4章 分类:其他技术
第5章 关联分析:基本概念和算法
第6章 关联分析:高级概念
第7章 聚类分析:基本概念和算法
第8章 聚类分析:其他问题与算法
第9章 异常检测
第10章 避免错误发现
索引
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...