欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 大数据分析方法及应用--基于Python实现(面向新工科高等院校大数据专业系列教材)
      • 作者:编者:殷丽凤//王斐|责编:解芳//章承林
      • 出版社:机械工业
      • ISBN:9787111782919
      • 出版日期:2025/08/01
      • 页数:288
    • 售价:31.6
  • 内容大纲

        本书全面且系统地阐述了基于Python语言的大数据分析方法及技术,整体结构紧凑,逻辑清晰。全书共10章,前5章旨在为读者打下坚实的理论与实践基础。该部分始于大数据的基本概念,随后逐步深入Python基础知识、数据预处理技术、大数据可视化手段及基于Python的数据处理与预处理技术,确保读者能够全面掌握数据分析所需的基本工具与方法。后5章则深入探索大数据分析的核心技术领域,涵盖关联分析、回归分析、分类分析、聚类分析及离群点分析等关键内容。全书每一章均配有精心设计的典型案例与Python代码实例,通过实战演练的形式,直观展现大数据分析原理在实际中的具体运用,读者在巩固理论知识的同时,能够亲身体验实际操作过程,进而深化对大数据分析流程的理解与认识。
        本书在内容的专业性与阅读体验之间取得了良好的平衡,既可作为高校大数据技术课程的教材,也适合大数据技术爱好者进行自学。无论读者是初学者,还是已具备一定基础的从业者,本书均能提供宝贵的启示与实用的知识,助力读者在大数据分析的道路上不断前行。
  • 作者介绍

  • 目录

    前言
    第1章  大数据分析概述
      1.1  大数据介绍
        1.1.1  大数据概念
        1.1.2  大数据的5个“V”
        1.1.3  大数据的处理方法
      1.2  大数据关键技术
        1.2.1  数据采集
        1.2.2  数据预处理
        1.2.3  数据存储与管理
        1.2.4  数据分析与挖掘
        1.2.5  数据展现与可视化
      1.3  大数据分析在不同领域的应用
        1.3.1  商业与市场营销
        1.3.2  医疗与健康
        1.3.3  金融与保险
        1.3.4  社交网络与媒体
      1.4  Python介绍
        1.4.1  安装Python解释器
        1.4.2  安装PyCharm
        1.4.3  安装 Anaconda
      1.5  本章小结
      1.6  习题
    第2章  Python大数据分析基础
      2.1  Python基础语法
        2.1.1  关键字和标识符
        2.1.2  常量与变量
        2.1.3  基本数据类型
        2.1.4  运算符和表达式
      2.2  程序控制结构
        2.2.1  顺序结构
        2.2.2  分支结构
        2.2.3  循环结构
        2.2.4  跳转语句
      2.3  组合数据类型
        2.3.1  列表
        2.3.2  元组
        2.3.3  字典
        2.3.4  集合
      2.4  函数
        2.4.1  函数的定义
        2.4.2  函数的参数
        2.4.3  函数的作用域
        2.4.4  递归函数
      2.5  面向对象程序设计
        2.5.1  Python中的面向对象
        2.5.2  成员可见性
        2.5.3  方法
        2.5.4  类的继承
      2.6  Python数据分析工具

      2.7  本章小结
      2.8  习题
    第3章  大数据预处理
      3.1  大数据预处理流程
      3.2  数据清洗
        3.2.1  缺失值处理
        3.2.2  噪声过滤
      3.3  数据集成
        3.3.1  实体识别
        3.3.2  冗余属性识别
      3.4  数据规约
        3.4.1  属性规约
        3.4.2  数值规约
      3.5  数据变换
        3.5.1  数据规范化
        3.5.2  连续属性离散化
      3.6  本章小结
      3.7  习题
    第4章  大数据可视化分析
      4.1  大数据可视化基础
        4.1.1  可视化的重要性
        4.1.2  可视化设计原则
      4.2  Matplotlib基础——NumPy
        4.2.1  创建数组
        4.2.2  数组的常见属性
        4.2.3  数组的常见操作
        4.2.4  数组的统计分析
      4.3  Matplotlib
        4.3.1  pyplot绘图基础
        4.3.2  绘制散点图
        4.3.3  绘制折线图
        4.3.4  绘制柱状图
        4.3.5  绘制直方图
        4.3.6  绘制饼图
        4.3.7  绘制箱线图
      4.4  实践——中国GDP分析
        4.4.1  数据准备
        4.4.2  散点图分析
        4.4.3  折线图分析
        4.4.4  柱状图分析
        4.4.5  饼图分析
        4.4.6  箱线图分析
      4.5  本章小结
      4.6  习题
    第5章  pandas数据处理与分析
      5.1  认识pandas
        5.1.1  pandas简介
        5.1.2  pandas的安装与使用
      5.2  pandas语法
        5.2.1  Series类型

        5.2.2  DataFrame类型
        5.2.3  DataFrame数据计算
      5.3  pandas读写数据
        5.3.1  pandas读数据
        5.3.2  pandas写数据
      5.4  使用pandas进行数据预处理
        5.4.1  合并数据
        5.4.2  缺失值处理
        5.4.3  排序和汇总
      5.5  统计分析
        5.5.1  分组聚合运算
        5.5.2  创建透视表与交叉表
      5.6  本章小结
      5.7  习题
    第6章  关联分析
      6.1  关联分析基础
        6.1.1  啤酒与尿布的故事
        6.1.2  关联分析的定义
        6.1.3  常用关联分析算法
      6.2  Apriori算法
        6.2.1  相关概念
        6.2.2  挖掘频繁项集
        6.2.3  挖掘关联规则
        6.2.4  Apriori算法的缺点
      6.3  FP-growth算法
        6.3.1  创建FP树
        6.3.2  利用FP树挖掘频繁项集
        6.3.3  FP-growth算法的伪代码
      6.4  ECLAT算法
        6.4.1  使用垂直数据格式挖掘频繁项集
        6.4.2  ECLAT算法的伪代码
      6.5  关联规则评估指标
      6.6  实践——商品零售购物篮分析
        6.6.1  背景与挖掘目标
        6.6.2  数据初步探析
        6.6.3  构建关联分析模型
        6.6.4  评估关联分析模型
      6.7  本章小结
      6.8  习题
    第7章  回归分析
      7.1  回归分析的基础
        7.1.1  回归分析的概念
        7.1.2  回归分析的步骤
      7.2  一元线性回归
        7.2.1  一元线性回归模型
        7.2.2  参数w和b的推导过程
        7.2.3  参数w和b求解的代码实现
      7.3  多元线性回归
        7.3.1  多元线性回归模型和参数求解
        7.3.2  参数W求解的代码实现

      7.4  正则化回归
        7.4.1  岭回归模型
        7.4.2  最小绝对收缩与选择算子
        7.4.3  弹性网络
      7.5  回归模型的评价指标
      7.6  实践——回归分析
        7.6.1  数据的初步探析
        7.6.2  利用一元线性回归预测房屋完成单位数量模型
        7.6.3  利用多元线性回归预测房屋完成单位数量模型
        7.6.4  利用正则化回归预测房屋完成单位数量模型
      7.7  本章小结
      7.8  习题
    第8章  分类分析
      8.1  分类分析的基础
        8.1.1  二元分类和多元分类
        8.1.2  分类的步骤
      8.2  决策树
        8.2.1  决策树归纳
        8.2.2  属性选择度量
        8.2.3  实例分析
        8.2.4  树剪枝处理
      8.3  贝叶斯分类
        8.3.1  相关概念
        8.3.2  朴素贝叶斯分类器
        8.3.3  朴素贝叶斯实例分析
        8.3.4  拉普拉斯修正
        8.3.5  朴素贝叶斯算法伪代码
      8.4  支持向量机
        8.4.1  数据线性可分情况
        8.4.2  最大边缘超平面
        8.4.3  硬间隔支持向量机
        8.4.4  软间隔支持向量机
        8.4.5  核支持向量机
      8.5  分类的评价指标
        8.5.1  二元分类的评价指标
        8.5.2  多元分类的评价指标
      8.6  实践——分类分析
        8.6.1  利用决策树构建银行客户流失模型
        8.6.2  利用朴素贝叶斯构建垃圾邮件分类模型
        8.6.3  利用SVM构建印第安人糖尿病分类模型
      8.7  本章小结
      8.8  习题
    第9章  聚类分析
      9.1  聚类分析基础
        9.1.1  聚类分析的概念
        9.1.2  相似性度量
        9.1.3  聚类的评价指标
      9.2  基于划分的聚类分析
        9.2.1  K-Means聚类
        9.2.2  K-Means++聚类

      9.3  基于层次的聚类分析
        9.3.1  自底向上聚类算法
        9.3.2  自顶向下聚类算法
      9.4  基于密度的聚类分析
        9.4.1  DBSCAN算法
        9.4.2  OPTICS算法
      9.5  实践——聚类分析
        9.5.1  基于划分聚类实现能源效率信息聚类
        9.5.2  基于层次聚类完成用户行为数据聚类
        9.5.3  利用DBSCAN进行人口信息聚类
      9.6  本章小结
      9.7  习题
    第10章  离群点分析
      10.1  离群点分析基础
        10.1.1  离群点分析的定义
        10.1.2  离群点分析的作用
      10.2  基于统计的离群点分析
        10.2.1  均值与标准差方法
        10.2.2  箱线图方法
      10.3  基于距离的离群点分析
        10.3.1  欧氏距离
        10.3.2  曼哈顿距离
      10.4  基于密度的离群点分析
        10.4.1  局部离群因子(LOF)方法
        10.4.2  基于密度的空间聚类(DBSCAN)方法
      10.5  实践——异常小麦种子分析
        10.5.1  数据读入
        10.5.2  数据初步分析
        10.5.3  数据预处理
        10.5.4  构建离群点模型
        10.5.5  评估离群点模型
        10.5.6  离群点分析的意义
      10.6  本章小结
      10.7  习题
    参考文献