欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 机器学习实践教程(高等职业教育人工智能工程技术系列教材)
      • 作者:编者:吕焱飞|责编:潘娅
      • 出版社:电子工业
      • ISBN:9787121469237
      • 出版日期:2024/01/01
      • 页数:197
    • 售价:17.2
  • 内容大纲

        机器学习是计算机人工智能的重要研究领域和应用方向,本书是学习和实践机器学习的入门教材,基于Python语言,介绍如何使用机器学习的相关算法对数据进行分析。本书在内容上涵盖机器学习相关基础知识,在组织编排上循序渐进。全书共11章,分为3个部分:第一部分(第1~3章)为机器学习基础知识,包括数值计算基础、数据分析、数据可视化;第二部分(第4~9章)为机器学习算法,包括线性模型、朴素贝叶斯、支持向量机、决策树、聚类分析和集成学习;第三部分(第10~11章)为实践项目,包括房价预测和手写数字识别。
  • 作者介绍

  • 目录

    第1章  数值计算基础
      1.1  Python基础
        1.1.1  列表与元组
        1.1.2  切片
        1.1.3  列表推导
        1.1.4  生成器表达式
      1.2  NumPy数组
        1.2.1  创建NumPy数组
        1.2.2  数组的属性
        1.2.3  reshape
        1.2.4  Python列表与NumPy数组
        1.2.5  创建特定数组
        1.2.6  创建单调数组
        1.2.7  生成随机数
      1.3  NumPy索引
        1.3.1  切片索引
        1.3.2  布尔索引
        1.3.3  更复杂的布尔索引
        1.3.4  整数数组索引
        1.3.5  索引赋值
      1.4  多维索引
        1.4.1  定位单个元素
        1.4.2  多维切片
        1.4.3  newaxis
        1.4.4  Ellipsis
        1.4.5  整数数组索引
      1.5  广播
        1.5.1  一个实例
        1.5.2  广播的条件
        1.5.3  如何广播
        1.5.4  几个操作实例
        1.5.5  原地修改
      1.6  图像处理
        1.6.1  导入
        1.6.2  翻转
        1.6.3  截取下半部分
        1.6.4  缩小
        1.6.5  纵向拉伸
        1.6.6  遮罩
        1.6.7  添加两条对角线
    第2章  数据分析
      2.1  Series
        2.1.1  简单的Series
        2.1.2  指定索引
        2.1.3  索引的使用
        2.1.4  将Python字典转换为Series
        2.1.5  自定义索引
        2.1.6  判断NA值
        2.1.7  索引自动对齐
      2.2  DataFrame

        2.2.1  构建DataFrame
        2.2.2  获取指定列
        2.2.3  获取指定行
        2.2.4  对列赋值
        2.2.5  索引对齐
        2.2.6  删除列
        2.2.7  内部的ndarray
      2.3  数据的选择
        2.3.1  数据开放平台
        2.3.2  导入数据
        2.3.3  选择列
        2.3.4  选择行
        2.3.5  选择指定区域
        2.3.6  布尔型数组
        2.3.7  多个条件的选择
        2.3.8  loc与iloc
      2.4  概要与映射
        2.4.1  查看数据头部
        2.4.2  查看所有的列名
        2.4.3  查看数据概要
        2.4.4  计算数值的频率
        2.4.5  与平均值的差
        2.4.6  map的用法
        2.4.7  apply的用法
        2.4.8  map与apply的区别
      2.5  分组与排序
        2.5.1  导入数据
        2.5.2  分组统计
        2.5.3  分组最小值
        2.5.4  用lambda函数做分组统计
        2.5.5  更复杂的分组
        2.5.6  同时使用多个聚合函数
        2.5.7  分组后的排序
        2.5.8  区分不同的apply函数
        2.5.9  带“max”的函数
      2.6  空值
        2.6.1  FIFA数据集
        2.6.2  查看空值的数量
        2.6.3  计算空值的百分比
        2.6.4  清除空值
        2.6.6  清除带有空值的列
        2.6.6  填充空值
        2.6.7  用平均值来填充空值
        2.6.8  返回值
      2.7  不一致数据的处理
        2.7.1  TheFuzz库
        2.7.2  数据集
        2.7.3  unique
        2.7.4  清除大写与空格
        2.7.5  模糊匹配

        2.7.6  字段替换
    第3章  数据可视化
      3.1  Matplotlib基本概念
        3.1.1  导入与设置
        3.1.2  剖析图形
        3.1.3  两种风格
      3.2  作图基础
        3.2.1  绘制直线
        3.2.2  绘制折线
        3.2.3  格式字符串
        3.2.4  绘制散点图
        3.2.5  绘制类别数据
        3.2.6  绘制文本
        3.2.7  绘制注解
      3.3  MACD指标分析
        3.3.1  加载贵州茅台股价数据
        3.3.2  收盘价趋势图
        3.3.3  计算MACD和signal序列
        3.3.4  绘制MACD指标图
        3.3.5  金叉与死叉
        3.3.6  计算收益
      3.4  沪深300收益计算
        3.4.1  加载历史数据
        3.4.2  绘制趋势图
        3.4.3  计算收益率
        3.4.4  计算年化收益率
        3.4.5  计算年化波动率
        3.4.6  计算最大回撤率
        3.4.7  计算卡玛比率
      3.5  日历策略
        3.5.1  指标计算函数
        3.5.2  只在每月前5日交易的策略
        3.5.3  准备数据
        3.5.4  标记出每月前5日
        3.5.5  计算收益率
        3.5.6  绘制两条收益曲线
        3.5.7  比较收益指标
        3.5.8  每月后5日的策略
    第4章  线性模型
      4.1  机器学习
        4.1.1  传统软件与机器学习
        4.1.2  特征与标签
        4.1.3  机器学习算法的分类
        4.1.4  CRISP-DM
      4.2  线性回归
        4.2.1  模型公式
        4.2.2  scikit-learn
        4.2.3  线性回归的用法
        4.2.4  线性回归的参数
        4.2.5  残差

        4.2.6  均方误差与平均绝对误差
        4.2.7  Bootstrap统计方法
      4.3  岭回归
        4.3.1  bootstrap函数
        4.3.2  系数分布
        4.3.3  alpha参数
        4.3.4  最佳alpha参数
      4.4  LASSO回归
        4.4.1  基本用法
        4.4.2  非零的系数
        4.4.3  最佳alpha参数
        4.4.4  特征选择
      4.5  逻辑回归
        4.5.1  iris数据集
        4.5.2  训练集与测试集
        4.5.3  LogisticRegression类
        4.5.4  混淆矩阵
        4.5.5  预测的概率
    第5章  朴素贝叶斯
      5.1  贝叶斯原理
        5.1.1  患癌的概率
        5.1.2  贝叶斯公式
        5.1.3  朴素贝叶斯
        5.1.4  sklearn中的朴素贝叶斯
      5.2  TF-IDF
        5.2.1  词项频率与文档频率
        5.2.2  逆文档频率
        5.2.3  TF-IDF
        5.2.4  TfidfVectorizer
      5.3  中文文档分类
        5.3.1  中文分类数据集
        5.3.2  jieba分词
        5.3.3  加载文本
        5.3.4  停用词表
        5.3.5  计算TF-IDF权重
        5.3.6  朴素贝叶斯分类器
    第6章  支持向量机
      6.1  支持向量
        6.1.1  鸢尾花数据集
        6.1.2  线性SVC
      6.2  特征缩放
        6.2.1  特殊的数据点
        6.2.2  标准缩放
        6.2.3  Pipeline类
      6.3  多项式特征
        6.3.1  生成数据集
        6.3.2  添加多项式特征
        6.3.3  应用实例
      6.4  核函数
        6.4.1  常用核函数

        6.4.2  多项式核函数
        6.4.3  高斯核函数
    第7章  决策树
      7.1  决策树原理
        7.1.1  熵
        7.1.2  信息增益
        7.1.3  计算实例
        7.1.4  基尼指数
      7.2  DecisionTreeClassifier类
        7.2.1  基本用法
        7.2.2  展示决策树
      7.3  决策树调参
        7.3.1  GridSearchCV类
        7.3.2  搜索结果
        7.3.3  最大深度
    第8章  聚类分析
      8.1  聚类的基本概念
        8.1.1  距离
        8.1.2  K均值算法的核心思想
        8.1.3  轮廓系数
      8.2  K均值算法
        8.2.1  生成数据集
        8.2.2  KMeans类
        8.2.3  样本点到中心点的距离
        8.2.4  轮廓系数
        8.2.5  最佳中心点个数
    第9章  集成学习
      9.1  集成学习原理
        9.1.1  常用架构
        9.1.2  提升法
        9.1.3  装袋法
        9.1.4  集成方法
      9.2  随机森林
        9.2.1  糖尿病数据集
        9.2.2  分层抽样
        9.2.3  RandomForestRegressor
        9.2.4  特征重要性
      9.3  BaggingRegressor
        9.3.1  基本用法
        9.3.2  参数说明
        9.3.3  搜索最佳参数
        9.3.4  最佳参数的效果
      9.4  梯度提升决策树
        9.4.1  房价数据集
        9.4.2  初始参数集
        9.4.3  最佳参数
        9.4.4  最佳模型
        9.4.5  增加预估器数量
    第10章  房价预测
      10.1  探索数据

        10.1.1  加载数据
        10.1.2  查看空值
        10.1.3  属性的直方图
        10.1.4  对收入中位数进行分组
        10.1.5  分组统计
        10.1.6  分层抽样
      10.2  数据可视化与相关性
        10.2.1  根据地理位置展示数据
        10.2.2  相关关系
        10.2.3  相关系数
        10.2.4  3个新属性
      10.3  空值的处理
        10.3.1  列出有NaN的行
        10.3.2  处理NaN
        10.3.3  SimpleImputer类
      10.4  文本属性与流式处理
        10.4.1  文本属性
        10.4.2  OrdinalEncoder转换器
        10.4.3  OneHotEncoder类
        10.4.4  流式处理
        10.4.5  自定义Pipeline
        10.4.6  ColumnTransformer
      10.5  模型选择
        10.5.1  分离标签
        10.5.2  数值处理Pipeline
        10.5.3  线性回归
        10.5.4  决策树
        10.5.5  随机森林
        10.5.6  模型微调
        10.5.7  最佳参数模型
    第11章  手写数字识别
      11.1  MNIST数据集
        11.1.1  下载数据集
        11.1.2  查看数据集
        11.1.3  绘制数字图像
        11.1.4  不易辨认的数字图像
        11.1.5  识别数字5的分类器
      11.2  精度与召回率
        11.2.1  类型转换
        11.2.2  二类分类器
        11.2.3  非5分类器
        11.2.4  混淆矩阵
        11.2.5  计算精度与召回率
        11.2.6  F1分数
      11.3  阈值分类器
        11.3.1  分类器评分
        11.3.2  阈值的用法
        11.3.3  计算精度与召回率
        11.3.4  90%精度的分类器
      11.4  ROC曲线

        11.4.1  TPR与FPR
        11.4.2  绘制ROC曲线
        11.4.3  ROC曲线下的面积
        11.4.4  RandomForestClassifier
        11.4.5  比较ROC曲线
        11.4.6  比较精度与召回率
        11.4.7  比较F1分数
      11.5  多类分类器
        11.5.1  训练集与测试集
        11.5.2  RandomForestClassifier
        11.5.3  标准缩放
        11.5.4  混淆矩阵
        11.5.5  突出错误率