欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 大数据采集与预处理技术(普通高等院校数据科学与大数据技术专业十三五规划教材)
      • 作者:编者:刘丽敏//廖志芳//周筠|责编:韩雪
      • 出版社:中南大学
      • ISBN:9787548734116
      • 出版日期:2018/12/01
      • 页数:176
    • 售价:16.8
  • 内容大纲

        本书以大数据关键技术为主线,重点介绍了大数据采集技术和数据预处理技术。本书共7章。第1章为大数据概述,重点阐述了大数据的概念、大数据关键技术以及大数据采集和数据预处理的重要性,并对本书内容进行了概述;第2章在阐述传统数据采集相关技术基础上,从数据发展出发,剖析了大数据采集的特点和相关技术;第3章介绍了常用的大数据采集架构;第4章介绍了针对系统数据来源复杂、数据量大的企业数据的大数据迁移技术;第5章介绍了互联网数据抓取与处理技术;第6章介绍了数据预处理技术,包括数据清洗、数据集成、数据变换和数据归约等技术;第7章首先阐述了Hadoop相关理论基础,然后以淘宝网数据为例,介绍了大数据从数据采集、数据预处理、数据分析以及数据可视化的综合应用实例。本书可作为高等院校大数据相关专业的教学用书,也可以作为从事大数据相关工作的工程技术人员的参考用书。
  • 作者介绍

  • 目录

    第1章  大数据概述
      1.1  大数据的概念
      1.2  大数据关键技术
      1.3  大数据采集与数据预处理技术
        1.3.1  大数据采集技术
        1.3.2  数据预处理技术
      1.4  小结
      习题
    第2章  数据采集基础
      2.1  传统数据采集技术
        2.1.1  数据采集概述
        2.1.2  数据采集系统架构
        2.1.3  数据采集关键技术
      2.2  大数据采集基础
        2.2.1  数据的发展
        2.2.2  大数据来源
        2.2.3  大数据采集技术
      2.3  小结
      习题
    第3章  大数据采集架构
      3.1  概述
      3.2  chukwa数据采集
      3.3  Flume数据采集
      3.4  scribe数据采集
      3.5  Kafka数据采集
      3.6  小结
      习题
    第4章  大数据迁移技术
      4.1  数据迁移概念
      4.2  数据迁移相关技术
        4.2.1  基于主机的迁移方式
        4.2.2  基于存储的迁移方式
        4.2.3  备份恢复的方式
        4.2.4  基于主机逻辑卷的数据迁
        4.2.5  基于数据库的迁移技术
        4.2.6  服务器虚拟化的迁移
        4.2.7  其他数据迁移技术
      4.3  数据迁移工具
        4.3.1  Apache Sqoop
        4.3.2  ETL
      4.4  Kettle数据迁移实例
      4.5  小结
      习题
    第5章  互联网数据抓取与处理技术
      5.1  网络爬虫概述
        5.1.1  网络爬虫的概念
        5.1.2  网络爬虫的抓取策略
        5.1.3  网页更新策略
      5.2  常用网络爬虫方法
        5.2.1  批量型爬虫

        5.2.2  增量型爬虫
        5.2.3  垂直型爬虫
        5.2.4  通用网络爬虫
        5.2.5  聚焦网络爬虫
        5.2.6  深层网络爬虫
        5.2.7  分布式网络爬虫
      5.3  网络爬虫工具
        5.3.1  Googlebot
        5.3.2  百度蜘蛛
        5.3.3  Apache Nutch
        5.3.4  火车采集器
        5.3.5  集搜客
        5.3.6  八爪鱼采集器
      5.4  Python爬虫技术
        5.4.1  Python概述
        5.4.2  Python爬虫基础
        5.4.3  Python安装
        5.4.4  Python爬虫实例
      5.5  文本数据处理
        5.5.1  文本分词概速
        5.5.2  中文分词算法
        5.5.3  MMSEG分词算法
        5.5.4  常用中文分词工具
        5.5.5  网页分析算法
      5.6  小结
      习题
    第6章  数据预处理技术
      6.1  数据的描述
        6.1.1  数据对象与属性类型
        6.1.2  数据的统计描述
        6.1.3  数据相似性和相异性的度量方法
      6.2  数据预处理概述
        6.2.1  数据质量
        6.2.2  数据预处理的主要任务
      6.3  数据清洗
        6.3.1  缺失值处理
        6.3.2  光滑噪声数据处理
        6.3.3  检测偏差与纠正偏差
      6.4  数据集成
        6.4.1  模式识别和对象匹配
        6.4.2  冗余问题
        6.4.3  元组重复
        6.4.4  数据值冲突的检测与处理
      6.5  数据归约
        6.5.1  小波变换
        6.5.2  主成分分析
        6.5.3  属性子集选择
        6.5.4  回归和对数线性模型
        6.5.5  直方图
        6.5.6  聚类

        6.5.7  抽样
        6.5.8  数据立方体聚集
      6.6  数据变换
        6.6.1  通过规范化变换数据
        6.6.2  通过离散化变换数据
        6.6.3  标称数据的概念分层变换
      6.7  小结
      习题
    第7章  大数据分析实例
      7.1  Hadoop相关理论知识
        7.1.1  Hadoop生态系统
        7.1.2  HDFS
        7.1.3  MapReduce
        7.1.4  HBase
        7.1.5  Hive
        7.1.6  Yarn
        7.1.7  ZooKeeper和Sqoop
      7.2  实验内容
        7.2.1  技术方案与实验环境
        7.2.2  实验环境搭建
        7.2.3  实验过程
        7 3小结
      习题
    参考文献