-
内容大纲
本书旨在帮助读者从零开始,系统掌握数据科学核心技术,并通过实战案例深化理解。本书共分为8章,包括数据科学技术简介,数据可视化技术,数据科学任务完整流程,初步探索性数据分析(EDA),数据工程(数据分析+数据处理),模型训练、评估与推理,模型发布、部署与监控,模型项目整体性分析、反思与优化,同时涵盖了数据采集、处理、可视化、建模及评估的全流程,配备详尽理论讲解与代码示例,助力读者在数据驱动的世界中游刃有余,解决实际问题,实现数据价值优化。本书相关代码可扫描封底二维码获得。
无论是想要转行数据科学的职场人士,还是对数据科学充满好奇的学生和爱好者,这本书都将是宝贵资源。 -
作者介绍
牛亚运(网名:一个处女座的程序猿),机器学习和大模型算法专家,国内知名AI博主,入选关键对话“50位顶尖创业者和技术人”榜单,担任达摩院评测官及多个头部社区的专家博主。累计获得20余项专业资质,包括AI认证、软件著作权、国家发明专利及国际期刊SCI等。AI领域粉丝超200万,文章浏览量突破6000万。 -
目录
前言
第1部分 数据科学技术实战
第1章 数据科学技术简介
1.1 数据科学技术概述
1.2 数据科学生命周期简介
1.2.1 数据科学生命周期概述
1.2.2 CRISP-DM模型简介
1.2.3 TDSP模型简介
1.2.4 五大模型对比与总结
第2章 数据可视化技术
2.1 基础图简介及代码实现
2.1.1 单维度可视化
2.1.2 多维度可视化
2.1.3 其他图的简介
2.2 多图组合的简介及代码实现
2.2.1 单关系图(Jointplot/JointGrid函数)
2.2.2 多变量关系矩阵图(pairplot/PairGrid函数)
2.2.3 数据分组矩阵图(FacetGrid函数)
2.3 三维图简介及其代码实现
2.3.1 三维散点图、三维柱状图、三维折线图
2.3.2 三维标签图——八象空间三维图
2.4 动态图简介及其代码实现
2.4.1 动态趋势图
2.4.2 动态轨迹图
2.5 常用的图可视化相关库
2.5.1 常用库的概述
2.5.2 不同库的对比
第3章 数据科学任务完整流程
3.1 数据科学任务流程概述
3.2 问题定义
3.3 数据认知
3.3.1 数据认知概述
3.3.2 数据收集
3.3.3 数据渠道
3.3.4 数据存储
3.3.5 数据采样
3.3.6 数据不均衡
3.3.7 特征初筛
3.4 机器学习核心流程
3.5 决策支持
第2部分 机器学习流程五大阶段详解
第4章 初步探索性数据分析(EDA)
4.1 EDA概述
4.2 载入数据
4.2.1 载入数据概述
4.2.2 载入数据代码实战
4.3 初步概览数据集信息
4.3.1 初步概览数据集信息概述
4.3.2 初步概览数据集信息代码实战
4.4 划分特征类型
4.4.1 相关术语解释
4.4.2 四大特征类型概述
4.4.3 划分特征类型代码实战
4.5 分离特征与标签
4.5.1 分离特征与标签概述
4.5.2 分离特征与标签代码实战
第5章 数据工程(数据分析+数据处理)
5.1 数据工程概述
5.2 数据清洗
5.2.1 数据对齐——针对原生“类别型”特征
5.2.2 缺失值的分析与处理
5.2.3 异常值的分析与处理
5.2.4 特殊值的分析与处理
5.3 数据分析与处理
5.3.1 数据分析与处理概述
5.3.2 校验两份数据集是否同分布
5.3.3 目标变量的分析与处理
5.3.4 “类别型”特征分析与处理
5.3.5 “数值型”特征分析与处理
5.3.6 组合关联统计分析
5.4 构造特征
5.4.1 基于常识经验和领域知识构造特征
5.4.2 基于纯技术构造特征
5.4.3 基于业务规则和意义构造特征
5.4.4 利用深度学习技术自动构造特征
5.4.5 相关库和框架
5.5 特征三化
5.5.1 特征三化概述
5.5.2 “数值型”特征归一化
5.5.3 “类别型”特征编码化
5.5.4 特征向量化
5.6 优化特征集
5.6.1 优化特征集概述
5.6.2 特征删除
5.6.3 特征筛选
5.6.4 特征降维(狭义)
5.7 特征导出(可选)
第6章 模型训练、评估与推理
6.1 模型训练、评估与推理概述
6.2 数据集划分
6.3 模型选择与训练
6.3.1 选择算法
6.3.2 模型训练
6.4 模型评估与调优
6.4.1 模型评估
6.4.2 模型调优
6.5 模型预测结果剖析
6.5.1 Bad-case分析
6.5.2 特征重要性挖掘
6.6 模型可解释性分析
6.6.1 模型可解释相关图的简介
6.6.2 模型可解释性分析代码实战
6.7 模型导出并推理
6.7.1 模型导出
6.7.2 模型推理(基于无标签的新数据)
6.7.3 模型导出并推理代码实战
第7章 模型发布、部署与监控
7.1 模型发布、部署与监控概述
7.2 模型发布
7.2.1 模型发布概述
7.2.2 模型发布代码实战
7.3 模型部署
7.3.1 模型部署概述
7.3.2 模型部署的实现
7.3.3 模型部署的流程
7.3.4 模型部署代码实战
7.4 模型监控
7.4.1 模型监控概述
7.4.2 模型监控常用工具
7.4.3 模型监控代码实战
第8章 模型项目整体性分析、反思与优化
8.1 模型项目整体性分析、反思与优化概述
8.2 模型过拟合/欠拟合问题
8.2.1 模型过拟合/欠拟合问题概述
8.2.2 L1正则化和L2正则化对比
8.2.3 模型过拟合/欠拟合问题代码实战
8.3 数据层面优化
8.3.1 数据层面优化概述
8.3.2 数据增强
8.3.3 数据稀疏及其优化
8.3.4 数据泄露及其优化
8.3.5 数据降内存
8.4 算法层面优化
8.4.1 算法层面优化概述
8.4.2 单算法优化
8.4.3 多算法模型融合——模型提效技巧点
8.5 系统优化
8.5.1 系统优化概述
8.5.2 系统优化的常用思路和方法
8.5.3 机器学习系统架构设计简介
8.6 代码优化
8.6.1 代码优化概述
8.6.2 代码优化代码实战
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
