欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • Java数据科学实战/图灵程序设计丛书
      • 作者:(美)迈克尔·R.布茹斯托维奇|责编:温雪|译者:姜建锦//赵绪营//张岩
      • 出版社:人民邮电
      • ISBN:9787115533302
      • 出版日期:2020/04/01
      • 页数:186
    • 售价:23.6
  • 内容大纲

        本书基于清晰的、面向对象的Java代码,讨论了数据科学研究的一些基本原理。考虑到项目所需的可伸缩性、稳健性以及便利性,Java是一门理想的语言。本书解释了数据科学过程每个步骤背后的基本数学原理,以及如何将这些概念应用于Java。本书内容涉及数据输入与输出、线性代数、统计学、数据操作、学习与预测,以及Hadoop MapReduce在这个过程中所扮演的关键角色。书中还提供了在应用程序中使用的代码示例。
        本书适合数据科学工作者以及希望提高数据科学技能的Java软件工程师阅读。
  • 作者介绍

  • 目录

    前言
    第1章  数据的输入与输出
      1.1  究竟何谓数据
      1.2  数据模型
        1.2.1  一维数组
        1.2.2  多维数组
        1.2.3  数据对象
        1.2.4  矩阵和向量
        1.2.5  JSON
      1.3  处理实际数据
        1.3.1  空值
        1.3.2  空格
        1.3.3  解析错误
        1.3.4  异常值
      1.4  管理数据文件
        1.4.1  首先理解文件内容
        1.4.2  读取文本文件
        1.4.3  读取JSON文件
        1.4.4  读取图像文件
        1.4.5  写入文本文件
      1.5  掌握数据库操作
        1.5.1  命令行客户端
        1.5.2  结构化查询语言
        1.5.3  Java数据库连接
      1.6  通过绘图将数据可视化
        1.6.1  创建简单图形
        1.6.2  混合类型图的绘制
        1.6.3  把图存入文件
    第2章  线性代数
      2.1  构造向量和矩阵
        2.1.1  数组存储
        2.1.2  块存储
        2.1.3  映射存储
        2.1.4  访问元素
        2.1.5  处理子阵
        2.1.6  随机化
      2.2  向量与矩阵的运算
        2.2.1  缩放
        2.2.2  转置
        2.2.3  加与减
        2.2.4  长度
        2.2.5  距离
        2.2.6  相乘
        2.2.7  内积
        2.2.8  外积
        2.2.9  逐项积
        2.2.10  复合运算
        2.2.11  仿射变换
        2.2.12  映射函数
      2.3  矩阵分解

        2.3.1  Cholesky分解
        2.3.2  LU分解
        2.3.3  QR分解
        2.3.4  奇异值分解
        2.3.5  特征分解
        2.3.6  行列式
        2.3.7  矩阵逆
      2.4  求解线性方程组
    第3章  统计学
      3.1  数据的概率起源
        3.1.1  概率密度
        3.1.2  累积概率
        3.1.3  统计矩
        3.1.4  熵
        3.1.5  连续分布
        3.1.6  离散分布
      3.2  数据集的特征
        3.2.1  矩的计算
        3.2.2  描述性统计
        3.2.3  多元统计
        3.2.4  协方差与相关系数
        3.2.5  回归
      3.3  处理大数据集
        3.3.1  累积统计
        3.3.2  统计结果的归并
        3.3.3  回归
      3.4  数据库内置函数的应用
    第4章  数据操作
      4.1  转换文本数据
        4.1.1  从文档中提取标记
        4.1.2  利用字典
        4.1.3  文档向量化
      4.2  数值数据的缩放与归一化
        4.2.1  对列进行缩放
        4.2.2  对行进行缩放
        4.2.3  矩阵的缩放算子
      4.3  将数据降维至主成分
        4.3.1  协方差方法
        4.3.2  SVD方法
      4.4  创建训练集、验证集及测试集
        4.4.1  基于索引的重新采样
        4.4.2  基于列表的重新采样
        4.4.3  小批量
      4.5  标签的编码
        4.5.1  泛型编码器
        4.5.2  一位有效编码
    第5章  学习与预测
      5.1  学习算法
        5.1.1  迭代学习过程
        5.1.2  梯度下降优化方法

      5.2  评估学习过程
        5.2.1  损失函数最小化
        5.2.2  方差和的最小化
        5.2.3  轮廓系数
        5.2.4  对数似然性
        5.2.5  分类器的准确率
      5.3  无监督型学习
        5.3.1  K均值聚类
        5.3.2  DBSCAN
        5.3.3  高斯混合
      5.4  监督型学习
        5.4.1  朴素贝叶斯
        5.4.2  线性模型
        5.4.3  深度网络
    第6章  Hadoop MapReduce
      6.1  Hadoop分布式文件系统
      6.2  MapReduce体系结构
      6.3  编写MapReduce应用
        6.3.1  剖析MapReduce任务
        6.3.2  Hadoop数据类型
        6.3.3  映射器
        6.3.4  归约器
        6.3.5  JSON字符串作为文本的简单性
        6.3.6  部署技巧
      6.4  MapReduce示例
        6.4.1  单词计数
        6.4.2  定制单词计数
        6.4.3  稀疏线性代数
    附录A  数据集
    作者简介
    关于封面