欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 大数据采集预处理与可视化(微课版)/大数据应用人才能力培养新形态系列
      • 作者:编者:葛继科//张晓琴//陈祖琴|责编:王宣
      • 出版社:人民邮电
      • ISBN:9787115614353
      • 出版日期:2023/07/01
      • 页数:279
    • 售价:27.92
  • 内容大纲

        为了适应数字经济时代的新发展趋势,培养新时代大数据专业人才,编者通过总结多年的教学经验,借鉴国内外相关领域的教学优势,详细剖析大数据采集、预处理与可视化的基础理论、关键技术、相关工具和应用案例,进而编成本书。
        本书是集理论与实践于一体的应用型教材。全书共7章,包括大数据概述、Python程序设计、大数据采集、大数据预处理技术、Excel数据获取与预处理、Python数据预处理、数据可视化技术。本书在编写中着重介绍基本原理,同时突出工程应用,并以清晰、容易理解的方式展现大数据采集、预处理与可视化的基础知识、基本任务、常用方法、实用场景和主要流程,力图做到基本概念准确、阐述条理清晰、主体内容精练、重点难点突出、理论联系实际。此外,本书还将反映相关领域新技术的发展情况。
        本书可作为计算机、人工智能、大数据、电子商务、电气、电子、统计学、会计学等相关专业的大数据技术类课程的教材,也可供相关领域的科技人员参考使用,还可作为数据分析及应用类认证培训课程用书。
  • 作者介绍

  • 目录

    第1章  大数据概述
      1.1  大数据时代
      1.2  大数据的相关概念及特征
        1.2.1  大数据的概念
        1.2.2  大数据的发展历程
        1.2.3  大数据的特征
        1.2.4  大数据的作用
        1.2.5  大数据的应用领域
        1.2.6  大数据的关键技术
      1.3  大数据系统简介
        1.3.1  Hadoop生态系统
        1.3.2  Spark生态系统
      1.4  大数据思维
        1.4.1  传统思维方式
        1.4.2  大数据思维方式
      1.5  大数据伦理
        1.5.1  大数据伦理的由来
        1.5.2  大数据的伦理问题
        1.5.3  大数据的伦理原则
      1.6  大数据安全
        1.6.1  数据全生命周期安全
        1.6.2  大数据安全防护技术
      1.7  本章小结
      1.8  习题
    第2章  Python程序设计
      2.1  Python的安装与运行
        2.1.1  Python的特点
        2.1.2  Python的下载与安装
        2.1.3  Python程序的运行
        2.1.4  第三方软件包的安装
        2.1.5  Python编程规范
      2.2  数据类型与运算符
        2.2.1  数字和字符串
        2.2.2  列表和元组
        2.2.3  字典和集合
        2.2.4  运算符
      2.3  程序控制结构
        2.3.1  程序流程图
        2.3.2  顺序结构
        2.3.3  选择结构
        2.3.4  循环结构
      2.4  函数与模块
        2.4.1  函数的使用
        2.4.2  函数的参数传递
        2.4.3  全局变量与局部变量
        2.4.4  匿名函数
        2.4.5  模块
      2.5  文件
        2.5.1  文件的打开与关闭
        2.5.2  文件的读取与写入

        2.5.3  文件的定位
      2.6  本章小结
      2.7  习题
    第3章  大数据采集
      3.1  大数据采集概述
        3.1.1  大数据采集的概念
        3.1.2  大数据采集的数据源
        3.1.3  大数据采集方法
        3.1.4  大数据采集平台
      3.2  网络爬虫技术
        3.2.1  网络爬虫概述
        3.2.2  常用网络爬虫方法
        3.2.3  网页数据采集的实现
        3.2.4  常用网络爬虫工具
        3.2.5  电影评论爬取
      3.3  数据抽取技术
        3.3.1  数据抽取概述
        3.3.2  Kettle简介与其安装
        3.3.3  文本数据抽取
        3.3.4  网页数据抽取
      3.4  案例:网络租房信息采集
        3.4.1  网络爬虫采集数据
        3.4.2  抽取租房信息
      3.5  本章小结
      3.6  习题
    第4章  大数据预处理技术
      4.1  数据预处理概述
        4.1.1  数据质量
        4.1.2  数据预处理的主要任务
      4.2  数据清洗
        4.2.1  缺失值处理方法
        4.2.2  噪声数据处理方法
        4.2.3  冗余数据处理方法
        4.2.4  数据格式与内容处理方法
      4.3  数据集成
        4.3.1  实体识别问题
        4.3.2  冗余问题
        4.3.3  数据值冲突的检测与处理
      4.4  数据变换
        4.4.1  数据规范化
        4.4.2  通过离散化变换数据
      4.5  数据归约
        4.5.1  过滤法
        4.5.2  包装法
        4.5.3  嵌入法
      4.6  数据脱敏
        4.6.1  数据脱敏类型
        4.6.2  数据脱敏方法
      4.7  案例:汽车行驶工况数据预处理
        4.7.1  案例背景

        4.7.2  数据描述
        4.7.3  数据预处理
      4.8  本章小结
      4.9  习题
    第5章  Excel数据获取与预处理
      5.1  Excel数据获取
        5.1.1  获取文本数据
        5.1.2  获取网站数据
        5.1.3  获取数据库中的数据
      5.2  Excel数据清洗与转换
        5.2.1  常用数据分析函数
        5.2.2  删除重复行
        5.2.3  文本查找与替换
        5.2.4  字符串截取
        5.2.5  数据的转置
        5.2.6  数据的查询和引用
        5.2.7  字母与数字的转换
      5.3  Excel数据抽取与合并
        5.3.1  值的抽取
        5.3.2  数据合并
        5.3.3  字段合并
      5.4  案例:房价行情的对比分析
        5.4.1  数据获取
        5.4.2  数据预处理与分析
      5.5  本章小结
      5.6  习题
    第6章  Python数据预处理
      6.1  Python数据预处理基础
        6.1.1  科学计算库NumPy
        6.1.2  数据分析库pandas
      6.2  数据的分组、分割、合并和变形
        6.2.1  数据分组
        6.2.2  数据分割
        6.2.3  数据合并
        6.2.4  数据变形
      6.3  缺失值、异常值和重复值处理
        6.3.1  缺失值处理
        6.3.2  异常值处理
        6.3.3  重复值处理
      6.4  时间序列数据处理
        6.4.1  时间序列的基本操作
        6.4.2  固定频率的时间序列
        6.4.3  时间周期及其计算
      6.5  文本数据分析
        6.5.1  字符串处理方法
        6.5.2  文本数据分析工具
        6.5.3  正则表达式
        6.5.4  文本预处理
      6.6  案例:IMDb5000电影数据预处理
        6.6.1  数据分析及代码实现

        6.6.2  完整代码
      6.7  本章小结
      6.8  习题
    第7章  数据可视化技术
      7.1  数据可视化概述
        7.1.1  数据可视化的定义
        7.1.2  数据可视化的发展历程
        7.1.3  数据可视化的作用
      7.2  数据可视化的理论基础
        7.2.1  数据可视化的流程
        7.2.2  数据可视化的设计要素
        7.2.3  数据可视化的基础图表
        7.2.4  数据可视化的常见工具
      7.3  Python数据可视化方法
        7.3.1  Matplotlib绘制基础图表
        7.3.2  seaborn绘制统计图
        7.3.3  wordcloud绘制词云图
        7.3.4  NetworkX绘制网络图
        7.3.5  案例:重庆公开庭审数据可视化
      7.4  pyecharts数据可视化方法
        7.4.1  pyecharts简介
        7.4.2  pyecharts应用
        7.4.3  案例:2020年东京奥运会奖牌看板
      7.5  本章小结
      7.6  习题
    参考文献