欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • Python数据挖掘实践(高等学校数据科学与大数据技术专业系列教材)
      • 作者:编者:鲁江坤//汪林林|责编:马凡//雷鸿俊
      • 出版社:西安电子科大
      • ISBN:9787560657899
      • 出版日期:2021/01/01
      • 页数:232
    • 售价:14
  • 内容大纲

        本书以Python 3.8.1为工具,借助Pycharm开发平台和Anaconda3完成数据分析与挖掘实践。全书分为两个部分:第一部分为理论篇,包括第1~5章,介绍数据挖掘、Python、网络爬虫、数据探索与数据预处理、数据挖掘算法等基础知识,每个知识点均有案例支持,为后续数据挖掘奠定实践基础;第二部分为实践篇,包括第6~10章,介绍决策树预测NBA获胜球队、航空公司客户价值分析、商业零售行业中的购物篮分析、数据挖掘在中文文本分类中的应用和重庆市主城区二手房可视化分析,以网络爬虫为切入点引入数据集,以常用数据挖掘算法应用为主线进行数据挖掘实践。
        本书内容翔实,案例丰富,既可作为应用型本科及高职高专大数据、计算机等相关专业的教材,亦可供Python数据挖掘爱好者自学使用。
  • 作者介绍

  • 目录

    第一部分  理论篇
      第1章  数据挖掘概述
        1.1  数据挖掘的概念
        1.2  数据挖掘的基本任务
        1.3  数据挖掘建模过程
          1.3.1  定义挖掘目标
          1.3.2  数据采集与抽样
          1.3.3  数据探索
          1.3.4  数据预处理
          1.3.5  数据挖掘建模
          1.3.6  模型评价
        1.4  常用数据挖掘工具
        1.5  数据挖掘现状及应用前景
        本章小结
      第2章  Python概述
        2.1  初识Python
          2.1.1  Python的版本
          2.1.2  Python的应用领域
        2.2  搭建Python开发环境
          2.2.1  下载与安装Python
          2.2.2  下载与安装PyCharm
          2.2.3  下载与安装Anaconda
        2.3  基于Python编写简单案例
        2.4  Python中与数据挖掘相关的第三方库
          2.4.1  Numpy
          2.4.2  Scipy
          2.4.3  Matplotlib
          2.4.4  Pandas
          2.4.5  StatsModels
          2.4.6  Scikit.Learn
        本章小结
      第3章  Python快速入门
        3.1  数据结构及方法
          3.1.1  列表
          3.1.2  元组
          3.1.3  字典
        3.2  控制流
          3.2.1  if分支
          3.2.2  for循环
          3.2.3  while循环
        3.3  字符串处理方法
          3.3.1  字符串的常用方法
          3.3.2  正则表达式
        3.4  自定义函数
          3.4.1  自定义函数语法
          3.4.2  自定义函数的几种参数
        3.5  网络爬虫的原理
          3.5.1  理论概述
          3.5.2  爬虫的工作流程
        3.6  爬虫所用库及框架介绍

          3.6.1  Requests库介绍及用法
          3.6.2  BeautifulSoup库介绍及用法
          3.6.3  Re库介绍
        3.7  网络爬虫的设计与实现
          3.7.1  网络爬虫的总体设计
          3.7.2  网络爬虫具体实现过程
          3.7.3  爬虫结果
        本章小结
      第4章  数据探索与数据预处理
        4.1  数据探索核心内容
          4.1.1  数据质量分析
          4.1.2  数据特征分析
          4.1.3  Python主要探索函数
        4.2  数据预处理核心内容
          4.2.1  数据清洗
          4.2.2  数据变换
          4.2.3  数据规约
          4.2.4  Python主要的数据预处理函数
        本章小结
      第5章  常用数据挖掘算法
        5.1  分类与预测算法
          5.1.1  分类与预测算法概述
          5.1.2  分类与预测算法实现过程
          5.1.3  决策树算法
          5.1.4  贝叶斯分类
          5.1.5  人工神经网络
          5.1.6  分类与预测算法评价
        5.2  聚类分析算法
          5.2.1  聚类分析算法概述
          5.2.2  K.Means算法
          5.2.3  聚类分析算法评价
        5.3  关联规则算法
          5.3.1  关联规则算法概述
          5.3.2  Apriori算法
      本章小结
    第二部分  实践篇
      第6章  决策树预测NBA获胜球队
        6.1  加载数据集
          6.1.1  使用网络爬虫采集数据
          6.1.2  用Pandas加载数据集
          6.1.3  NBA球赛数据清洗
          6.1.4  提取新特征
        6.2  决策树应用
          6.2.1  决策树中的参数
          6.2.2  使用决策树
        6.3  NBA比赛结果预测
        6.4  随机森林
          6.4.1  决策树的集成效果
          6.4.2  随机森林算法的参数
          6.4.3  使用随机森林算法

          6.4.4  创建新特征
        本章小结
      第7章  航空公司客户价值分析
        7.1  背景与挖掘目标
        7.2  案例建模流程
        7.3  航空公司数据加载
          7.3.1  数据抽取
          7.3.2  数据探索分析
        7.4  航空公司数据预处理
        7.5  航空公司模型构建
        本章小结
      第8章  商业零售行业中的购物篮分析
        8.1  背景与挖掘目标
        8.2  加载商业零售数据集
        8.3  商业零售数据预处理
        8.4  初步探索数据
          8.4.1  查看各数据项的取值
          8.4.2  性别和婚姻状况
          8.4.3  年龄
          8.4.4  职业
          8.4.5  居住时间
          8.4.6  城市
        8.5  二次探索数据
          8.5.1  畅销产品
          8.5.2  年龄与产品类型的关系
          8.5.3  居住时间与产品类型的关系
          8.5.4  性别、婚姻状况与产品类型的关系
          8.5.5  城市与产品类型的关系
        8.6  构建随机森林模型
          8.6.1  特征工程
          8.6.2  模型训练
          8.6.3  模型优化
        本章小结
      第9章  数据挖掘在中文文本分类中的应用
        9.1  背景与挖掘目标
        9.2  加载文本分类数据集
          9.2.1  待加载数据集
          9.2.2  加载文本数据
          9.2.3  文本分类数据清洗
          9.2.4  提取新特征与文本向量化表示
        9.3  文本分类模型构建
        9.4  Python编程实现
        本章小结
      第10章  重庆市主城区二手房可视化分析
        10.1  背景与挖掘目标
        10.2  数据采集与数据清洗
          10.2.1  数据采集
          10.2.2  数据清洗
        10.3  数据可视化分析
          10.3.1  主城区二手房数据加载

          10.3.2  数据整体质量分析
          10.3.3  重庆主城区二手房基本信息可视化分析
          10.3.4  重庆主城区二手房房屋属性可视化分析
        10.4  主城区二手房模型构建
          10.4.1  K值的选定
          10.4.2  初始的K个质心选定
          10.4.3  离群点处理
          10.4.4  数据的标准化
          10.4.5  聚类结果分析
        本章小结
      参考文献