欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 初识数据科学
      • 作者:(美国)山姆·刘//约瑟夫·冈萨雷斯//德博拉·诺兰|责编:张烨|译者:门佳
      • 出版社:东南大学
      • ISBN:9787576612905
      • 出版日期:2026/03/01
      • 页数:563
    • 售价:75.2
  • 内容大纲

        作为一名有抱负的数据科学家,你理解为什么组织机构的重要决策都依赖于数据——无论是设计网站的公司、决定如何改善服务的城市,还是致力于阻止疾病传播的科学家组织。你需要具备将一堆杂乱的数据提炼成可操作的洞见所需的技能。我们称之为数据科学生命周期:收集、整理、分析数据并从中得出结论的过程。
        本书是第一本兼顾编程和统计学基础技能的书籍,内容涵盖了整个数据科学生命周期。它面向那些希望成为数据科学家或与数据科学家合作的读者,以及希望跨越“技术/非技术”界限的数据分析师。如果具备基本的Python编程知识,你将学到如何使用像pandas这样的行业标准工具来处理数据。
  • 作者介绍

  • 目录

    前言
    第一部分  数据科学生命周期
      第1章  何为数据科学生命周期?
        1.1  生命周期的各个阶段
        1.2  生命周期实例
        1.3  小结
      第2章  数据与数据范围
        2.1  大数据和新机遇
          示例:Google流感趋势
        2.2  目标总体、接触框、样本
          2.2.1  示例:是什么让在线社区成员变得活跃?
          2.2.2  示例:谁会赢得选举?
          2.2.3  示例:环境危害如何影响个人健康?
        2.3  工具与方案
        2.4  测量自然现象
          示例:空气中的CO2浓度是多少?
        2.5  准确性
          2.5.1  偏差类型
          2.5.2  变异类型
        2.6  小结
      第3章  模拟与数据设计
        3.1  瓮模型
          3.1.1  抽样设计
          3.1.2  统计量的抽样分布
          3.1.3  模拟抽样分布
          3.1.4  超几何分布模拟
        3.2  示例:模拟选举投票的偏差和方差
          3.2.1  宾夕法尼亚州的瓮模型
          3.2.2  带有偏差的瓮模型
          3.2.3  开展更大规模的民调
        3.3  示例:模拟疫苗的随机化试验
          3.3.1  数据范围
          3.3.2  随机分配的瓮模型
        3.4  示例:测量空气质量
        3.5  小结
      第4章  使用汇总统计量建模
        4.1  常数模型
        4.2  损失最小化
          4.2.1  平均绝对误差
          4.2.2  均方误差
          4.2.3  选择损失函数
        4.3  小结
      第5章  案例研究:为什么我的公交车总是晚点?
        5.1  问题与范围
        5.2  数据整理
        5.3  分析公交车时间
        5.4  候车时间建模
        5.5  小结
    第二部分  表格型数据
      第6章  使用pandas处理DataFrame

        6.1  子集
          6.1.1  数据范围和问题
          6.1.2  DataFrame和索引
          6.1.3  切片
          6.1.4  过滤行
          6.1.5  示例:Luna这个名字是什么时候流行起来的?
        6.2  聚合
          6.2.1  基本分组聚合
          6.2.2  多列分组
          6.2.3  自定义聚合函数
          6.2.4  透视
        6.3  连接
          6.3.1  内连接
          6.3.2  左连接、右连接和外连接
          6.3.3  示例:婴儿名字类别的流行度变化
        6.4  数据变换
          6.4.1  .apply()方法
          6.4.2  示例:“L”开头名字的流行度
          6.4.3  .apply()的代价
        6.5  DataFrame与其他数据表示方式有何不同?
          6.5.1  DataFrame与电子表格
          6.5.2  DataFrame与矩阵
          6.5.3  DataFrame与关系表
        6.6  小结
      ……
    第三部分  理解数据
    第四部分  其他数据源
    第五部分  线性建模
    第六部分  分类
    延伸阅读
    数据源