-
内容大纲
本书详细阐述了与数据科学面试相关的基本解决方案,主要包括探索现代数据科学领域、在数据科学领域寻找工作、Python编程、数据可视化与数据叙述、使用SQL查询数据库、Linux中的Shell和Bash脚本编写、使用Git进行版本控制、用概率和统计挖掘数据、理解特征工程和为建模准备数据、精通机器学习概念、用深度学习构建网络、用MLOps实现机器学习解决方案、掌握面试环节、协商薪酬等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。
本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。 -
作者介绍
-
目录
第1篇 进入数据科学领域
第1章 探索现代数据科学领域
1.1 数据科学是什么
1.2 探索数据科学过程
1.2.1 数据收集
1.2.2 数据探索
1.2.3 数据建模
1.2.4 模型评估
1.2.5 模型部署和监控
1.3 分析数据科学的不同类型
1.3.1 数据工程师
1.3.2 仪表板和可视化专家
1.3.3 机器学习专家
1.3.4 领域专家
1.4 审视数据科学的职业路径
1.4.1 传统型数据科学家
1.4.2 领域专家型数据科学家
1.4.3 非传统路径数据科学家
1.5 解决经验瓶颈问题
1.5.1 学术经验
1.5.2 工作经验
1.6 理解预期的技能和能力
1.6.1 硬技能(技术技能)
1.6.2 软技能(沟通技能)
1.7 探索数据科学的演变
1.7.1 新模型
1.7.2 新环境
1.7.3 新计算
1.7.4 新应用
1.8 本章小结
1.9 参考文献
第2章 在数据科学领域寻找工作
2.1 寻找第一份数据科学工作
2.1.1 准备前行
2.1.2 寻找招聘板
2.1.3 构建出色的作品集
2.1.4 申请工作
2.2 制作金牌简历
2.2.1 完美简历的神话
2.2.2 理解自动化简历筛选
2.2.3 打造有效的简历
2.2.4 格式和组织
2.2.5 使用正确的术语
2.3 准备获得面试机会
2.3.1 摩尔定律
2.3.2 研究、研究、再研究
2.3.3 品牌塑造
2.4 本章小结
2.5 参考文献
第2篇 操控和管理数据
第3章 Python编程
3.1 变量、数据类型和数据结构
3.2 Python中的索引
3.3 字符串操作
3.3.1 初始化字符串
3.3.2 字符串索引
3.4 使用Python控制语句和列表推导
3.4.1 条件语句
3.4.2 循环语句
3.4.3 列表推导
3.5 使用用户定义的函数
3.5.1 用户定义的函数的语法
3.5.2 使用用户定义的函数进行操作
3.5.3 熟悉lambda函数
3.5.4 创建优秀的函数
3.6 在Python中处理文件
3.7 使用pandas整理数据
3.7.1 处理缺失数据
3.7.2 选择数据
3.7.3 排序数据
3.7.4 合并数据
3.7.5 使用groupby()进行聚合
3.8 本章小结
3.9 参考文献
第4章 数据可视化与数据叙述
4.1 理解数据可视化
4.1.1 条形图
4.1.2 折线图
4.1.3 散点图
4.1.4 直方图
4.1.5 密度图
4.1.6 分位数-分位数图(Q-Q图)
4.1.7 箱线图
4.1.8 饼图
4.2 调查行业工具
4.2.1 PowerBI
4.2.2 Tableau
4.2.3 Shiny
4.2.4 ggplot2(R)
4.2.5 Matplotlib(Python)
4.2.6 Seaborn(Python)
4.3 开发仪表板、报告和关键绩效指标
4.4 开发图表和图形
4.4.1 条形图——Matplotlib
4.4.2 条形图——Seaborn
4.4.3 散点图——Matplotlib
4.4.4 散点图——Seaborn
4.4.5 直方图——Matplotlib
4.4.6 直方图——Seaborn
4.5 应用基于情景的叙事
4.6 本章小结
第5章 使用SQL查询数据库
5.1 介绍关系数据库
5.2 掌握SQL基础知识
5.2.1 SELECT语句
5.2.2 WHERE子句
5.2.3 ORDERBY子句
5.3 使用GROUPBY和HAVING聚合数据
5.3.1 GROUPBY子句
5.3.2 HAVING子句
5.4 使用CASEWHEN创建字段
5.5 分析子查询和CTE
5.5.1 SELECT子句中的子查询
5.5.2 FROM子句中的子查询
5.5.3 WHERE子句中的子查询
5.5.4 HAVING子句中的子查询
5.5.5 区分公用表表达式(CTE)和子查询
5.6 使用连接合并表格
5.6.1 内连接
5.6.2 左连接和右连接
5.6.3 全外连接
5.6.4 多表连接
5.7 计算窗口函数
5.7.1 OVER、ORDERBY、PARTITION和SET
5.7.2 LAG和LEAD
5.7.3 ROW_NUMBER
5.7.4 RANK和DENSE_RANK
5.7.5 使用日期函数
5.8 处理复杂查询
5.9 本章小结
第6章 Linux中的Shell和Bash脚本编写
6.1 操作系统简介
6.2 导航系统目录
6.2.1 介绍基本命令行提示符
6.2.2 理解目录类型
6.3 文件和目录操作
6.4 使用Bash进行脚本编写
6.5 介绍控制语句
6.6 创建函数
6.7 数据处理和管道
6.8 使用cron
6.9 本章小结
第7章 使用Git进行版本控制
7.1 介绍仓库
7.2 创建仓库
7.2.1 克隆现有的远程仓库
7.2.2 从头开始创建本地仓库
7.2.3 将本地仓库和远程仓库关联
7.3 详解数据科学家的Git工作流程
7.4 在数据科学中使用Git标签
7.4.1 理解Git标签
7.4.2 作为数据科学家使用标签
7.5 理解常见操作
7.6 本章小结
第3篇 探索人工智能
第8章 用概率和统计挖掘数据
8.1 用描述性统计描述数据
8.1.1 测量中心趋势
8.1.2 测量变异性
8.2 介绍总体和样本
8.2.1 定义总体和样本
8.2.2 代表性样本
8.2.3 减少抽样误差
8.3 理解中心极限定理
8.3.1 中心极限定理
8.3.2 证明正态性假设
8.4 用抽样分布塑造数据
8.4.1 概率分布
8.4.2 均匀分布
8.4.3 正态分布和学生t分布
8.4.4 二项分布
8.4.5 泊松分布
8.4.6 指数分布
8.4.7 几何分布
8.4.8 威布尔分布
8.5 假设检验
8.5.1 理解单样本t检验
8.5.2 理解双样本t检验
8.5.3 理解配对样本t检验
8.5.4 理解方差分析和多元方差分析
8.5.5 卡方检验
8.5.6 A/B测试
8.6 理解Ⅰ型错误和Ⅱ型错误
8.6.1 Ⅰ型错误(假阳性)
8.6.2 Ⅱ型错误(假阴性)
8.6.3 寻求平衡
8.7 本章小结
8.8 参考文献
第9章 理解特征工程和为建模准备数据
9.1 理解特征工程
9.1.1 避免数据泄漏
9.1.2 处理缺失数据
9.1.3 数据缩放
9.2 应用数据转换
9.2.1 引入数据转换
9.2.2 对数转换
9.2.3 幂次转换
9.2.4 Box-Cox转换
9.2.5 指数转换
9.3 处理分类数据和其他特征
9.3.1 独热编码
9.3.2 标签编码
9.3.3 目标编码
9.3.4 计算字段
9.4 执行特征选择
9.4.1 特征选择的类型
9.4.2 递归特征消除
9.4.3 L1正则化
9.4.4 基于树的特征选择
9.4.5 方差膨胀因子
9.5 处理不平衡数据
9.5.1 理解不平衡数据
9.5.2 处理不平衡数据
9.6 降低维度
9.6.1 主成分分析
9.6.2 奇异值分解
9.6.3 t-SNE
9.6.4 自编码器
9.7 本章小结
第10章 精通机器学习概念
10.1 介绍机器学习工作流程
10.1.1 问题陈述
10.1.2 模型选择
10.1.3 模型调整
10.1.4 模型预测
10.2 监督机器学习
10.2.1 回归与分类
10.2.2 线性回归——回归
10.2.3 逻辑回归
10.2.4 k-最近邻(k-NN)
10.2.5 随机森林
10.2.6 极端梯度提升(XGBoost)
10.3 无监督机器学习
10.3.1 K-means
10.3.2 具有噪声的基于密度的聚类应用(DBSCAN)
10.3.3 其他聚类算法
10.3.4 评估聚类
10.4 总结其他值得注意的机器学习模型
10.5 理解偏差-方差权衡
10.6 超参数调整
10.6.1 网格搜索
10.6.2 随机搜索
10.6.3 贝叶斯优化
10.7 本章小结
第11章 用深度学习构建网络
11.1 介绍神经网络和深度学习
11.2 讨论权重和偏差
11.2.1 权重介绍
11.2.2 偏差介绍
11.3 使用激活函数激活神经元
11.3.1 常见激活函数
11.3.2 选择合适的激活函数
11.4 剖析反向传播
11.4.1 梯度下降
11.4.2 什么是反向传播
11.4.3 损失函数
11.4.4 梯度下降步骤
11.4.5 梯度消失问题
11.5 使用优化器
11.5.1 优化算法
11.5.2 网络调整
11.6 理解嵌入
11.6.1 词嵌入
11.6.2 训练嵌入
11.7 列出常见的网络架构
11.7.1 常见网络
11.7.2 工具和包
11.8 介绍GenAI和LLM
11.8.1 揭示语言模型
11.8.2 Transformer和自注意力
11.8.3 迁移学习
11.8.4 GPT应用
11.9 本章小结
第12章 用MLOps实现机器学习解决方案
12.1 引入MLOps
12.2 理解数据采集
12.3 学习数据存储的基础知识
12.4 审查模型开发
12.5 模型部署的打包
12.5.1 确定要求
12.5.2 虚拟环境
12.5.3 环境管理的工具和方法
12.6 使用容器部署模型
12.7 验证和监控模型
12.7.1 验证模型部署
12.7.2 模型监控
12.7.3 思考治理
12.8 使用AzureML的MLOps
12.9 本章小结
第4篇 获得工作
第13章 掌握面试环节
13.1 掌握与招聘人员的早期互动
13.2 掌握不同的面试阶段
13.2.1 招聘经理阶段
13.2.2 技术面试
13.2.3 编码问题
13.2.4 小组面试阶段
13.3 本章小结
13.4 参考文献
第14章 协商薪酬
14.1 理解薪酬格局
14.2 谈判报价
14.2.1 谈判考虑因素
14.2.2 回应报价
14.2.3 最大可谈判薪酬和情境价值
14.3 本章小结
14.4 最后的话
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
