欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 数据挖掘原理算法与应用(Python语言描述)/大数据应用人才能力培养新形态系列
      • 作者:编者:刘吉华//周静|责编:孙澍
      • 出版社:人民邮电
      • ISBN:9787115641960
      • 出版日期:2025/08/01
      • 页数:234
    • 售价:23.92
  • 内容大纲

        本书系统地介绍了数据挖掘算法、原理及基于Python的实现方法,将算法原理与案例相结合,帮助读者建立数据挖掘领域的理论基础,提升基本的实践技能。本书共15章,主要包括数据挖掘概述、Python环境的搭建、数据预处理、数据集划分与交叉验证评分、回归、分类、集成学习、参数调优、降维、特征选择与特征联合、流水线、聚类、关联规则、PageRank算法、人工神经网络。
        本书可作为高校大数据技术、大数据管理与应用等相关专业的教材,也可以作为数据挖掘、数据分析相关爱好者的自学用书。
  • 作者介绍

  • 目录

    第1章  数据挖掘概述
      1.1  数据挖掘简介
        1.1.1  数据挖掘的定义与目标
        1.1.2  数据挖掘的应用
        1.1.3  数据挖掘的算法
        1.1.4  数据挖掘的相关概念
        1.1.5  数据挖掘的流程
      1.2  常用的数据挖掘工具
        1.2.1  SAS Data Mining
        1.2.2  RapidMiner
        1.2.3  IBM SPSS Modeler
        1.2.4  Oracle Data Mining
        1.2.5  Apache Spark
        1.2.6  R
        1.2.7  Python数据挖掘工具包
      1.3  常用数据集
        1.3.1  常用数据集网站
        1.3.2  Python工具包提供的数据集
      小结
      课后习题
    第2章  Python环境的搭建
      2.1  Python的安装与配置
        2.1.1  Python的安装
        2.1.2  Python第三方包的管理
      2.2  Jupyter Notebook的安装与配置
        2.2.1  Jupyter Notebook的安装
        2.2.2  Jupyter Notebook的配置
        2.2.3  Jupyter Notebook的使用
      2.3  JupyterLab的安装与配置
        2.3.1  JupyterLab的安装
        2.3.2  JupyterLab的使用
        2.3.3  插件的安装
      2.4  JupyterHub的安装与配置
        2.4.1  JupyterHub的安装
        2.4.2  JupyterHub的配置
        2.4.3  JupyterHub的启动与管理
      2.5  Anaconda的安装与配置
        2.5.1  Anaconda及相关包的安装
        2.5.2  Anaconda的配置与使用
      小结
      课后习题
    第3章  数据预处理
      3.1  缺失值处理
        3.1.1  填补法
        3.1.2  删除法
      3.2  数据标准化
        3.2.1  Z-Score标准化
        3.2.2  Min-Max标准化
        3.2.3  RobustScaler标准化
        3.2.4  sklearn中标准化对象的方法

      3.3  特征编码
        3.3.1  用map函数编码
        3.3.2  标签编码
        3.3.3  独热编码
        3.3.4  哑元编码
        3.3.5  离散化
      3.4  离群值检测与处理
        3.4.1  3σ法
        3.4.2  箱线图法
        3.4.3  基于近邻检测离群值法
        3.4.4  聚类法
        3.4.5  基于模型检测法
        3.4.6  离群值处理
      3.5  案例:加拿大轻型汽车燃料消耗等级和二氧化碳排放量数据集预处理
      小结
      课后习题
    第4章  数据集划分与交叉验证评分
      4.1  数据集划分
        4.1.1  train_test_split()方法
        4.1.2  K折交叉划分法
        4.1.3  分层K折交叉划分法
        4.1.4  乱序K次划分法
        4.1.5  留一法
        4.1.6  留P法
        4.1.7  自助法
      4.2  交叉验证评分
      4.3  案例:房价数据集划分
      小结
      课后习题
    第5章  回归
      5.1  回归分析
        5.1.1  线性回归
        5.1.2  非线性回归
      5.2  回归模型评价
        5.2.1  决定系数
        5.2.2  均方误差
        5.2.3  平均绝对误差
        5.2.4  其他评价方法
      5.3  案例:波士顿房价预测
      小结
      课后习题
    第6章  分类
      6.1  分类算法
        6.1.1  逻辑回归
        6.1.2  K近邻
        6.1.3  决策树
        6.1.4  朴素贝叶斯
        6.1.5  支持向量机
      6.2  分类模型评价
        6.2.1  常用评价指标

        6.2.2  P-R曲线
        6.2.3  ROC曲线
      6.3  案例:汽车满意度预测
      小结
      课后习题
    第7章  集成学习
      7.1  装袋法
        7.1.1  将装袋法用于解决分类问题
        7.1.2  将装袋法用于解决回归问题
        7.1.3  随机森林
      7.2  提升法
        7.2.1  自适应提升分类算法
        7.2.2  梯度提升树
        7.2.3  极致梯度提升
      7.3  堆叠法
      7.4  投票法
      7.5  案例:通过随机森林实现鸢尾花分类
      小结
      课后习题
    第8章  参数调优
      8.1  人工循环搜索
      8.2  网格搜索
      8.3  随机搜索
      8.4  贝叶斯搜索
      8.5  案例:汽车满意度预测模型参数调优
      小结
      课后习题
    第9章  降维
      9.1  矩阵分解降维
        9.1.1  主成分分析
        9.1.2  核PCA
        9.1.3  非负矩阵分解
        9.1.4  因子分析
        9.1.5  独立主成分分析
      9.2  判别分析
        9.2.1  线性判别分析
        9.2.2  二次判别分析
      9.3  基于流形学习的数据降维方法
        9.3.1  局部线性嵌入
        9.3.2  多维尺度变换
        9.3.3  t分布随机邻域嵌入
      9.4  案例:Fashion-MNIST数据集的降维与可视化
      小结
      课后习题
    第10章  特征选择与特征联合
      10.1  特征选择
        10.1.1  过滤法
        10.1.2  装袋法
        10.1.3  嵌入法
      10.2  案例:对中学教育学生成绩数据集进行特征选择

      10.3  多项式特征
      10.4  案例:为同心圆数据集构建多项式特征
      10.5  特征联合
      10.6  案例:基于波士顿房价数据集实现特征联合
      小结
      课后习题
    第11章  流水线
      11.1  流水线结构
      11.2  预处理流水线
      11.3  带学习器的流水线
      11.4  采用网格搜索寻找流水线中模型的最优参数
      11.5  采用网格搜索选择流水线中的模型
      11.6  复杂流水线
      11.7  案例:乳腺癌数据集的分类模型的选择
      小结
      课后习题
    第12章  聚类
      12.1  样本距离计算
        12.1.1  欧氏距离
        12.1.2  曼哈顿距离
        12.1.3  切比雪夫距离
        12.1.4  闵可夫斯基距离
        12.1.5  余弦相似度
        12.1.6  相关距离
        12.1.7  杰卡德距离
        12.1.8  汉明距离
      12.2  常用的聚类方法
        12.2.1  K均值聚类
        12.2.2  层次聚类
        12.2.3  带噪声的基于密度的聚类
        12.2.4  均值漂移聚类
        12.2.5  谱聚类
      12.3  聚类模型评价
        12.3.1  轮廓系数
        12.3.2  兰德指数
      12.4  案例:汽车车型聚类
      小结
      课后习题
    第13章  关联规则
      13.1  基本概念
        13.1.1  项与项集
        13.1.2  事务
        13.1.3  频繁项集
        13.1.4  关联规则
      13.2  评价准则
        13.2.1  支持度
        13.2.2  置信度
        13.2.3  强关联规则与弱关联规则
        13.2.4  杠杆率
        13.2.5  确信度

        13.2.6  提升度
      13.3  关联规则算法
        13.3.1  Apriori算法
        13.3.2  FP-Growth算法
      13.4  案例:使用Apriori算法实现超市购物车数据集分析
      13.5  案例:使用FP-Growth算法实现超市购物车数据集分析
      小结
      课后习题
    第14章  PageRank算法
      14.1  PageRank算法简介
      14.2  PageRank值的计算
      14.3  案例:机场排名
      14.4  案例:邮件集人物关系
      小结
      课后习题
    第15章  人工神经网络
      15.1  感知机
        15.1.1  单层感知机
        15.1.2  多层感知机
      15.2  常用的人工神经网络
        15.2.1  全连接前馈神经网络
        15.2.2  卷积神经网络
        15.2.3  循环神经网络
        15.2.4  其他神经网络
      15.3  常用的激活函数
        15.3.1  sigmoid函数
        15.3.2  tanh函数
        15.3.3  ReLU函数
        15.3.4  Leaky ReLU函数
        15.3.5  ELU函数
        15.3.6  Maxout函数
        15.3.7  Softmax 函数
      15.4  常用的损失函数
        15.4.1  均方误差
        15.4.2  平均绝对误差
        15.4.3  二元交叉熵
        15.4.4  多分类交叉熵
        15.4.5  稀疏多分类交叉熵
      15.5  神经网络模型实现
        15.5.1  构建神经网络模型
        15.5.2  编译神经网络模型
        15.5.3  训练神经网络模型
        15.5.4  评价模型
        15.5.5  用模型进行预测
      15.6  案例:保险费用预测
      15.7  案例:手写数字识别
      小结
      课后习题