欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • Python数据科学项目实战
      • 作者:(美)伦纳德·阿佩尔辛|责编:王军|译者:殷海英//史跃东
      • 出版社:清华大学
      • ISBN:9787302618140
      • 出版日期:2022/11/01
      • 页数:578
    • 售价:55.6
  • 内容大纲

        数据科学项目有很多灵活的部分,需要练习和技巧才能让所有代码、算法、数据集、格式和可视化协调工作。本书将引导你完成5个真实项目,包括根据新闻标题跟踪疾病暴发、分析社交网络以及在广告点击数据中寻找相关模式。
        《Python数据科学项目实战》并不止于表面理论和简单示例。在完成每个项目时,你将学习如何解决常见问题,例如数据丢失、混乱的数据以及与构建模型不匹配的算法。你将了解详细的设置说明和常见故障的全面解决方案。最后,通过完成这些项目,你将对自己的技能充满信心。
        主要内容:
        网页抓取;
        使用聚类算法组织数据集;
        可视化复杂的多变量数据集;
        训练决策树机器学习算法。
        阅读门槛
        本书适用于了解Python基础知识的读者,不要求预先掌握数据科学或机器学习技能。
  • 作者介绍

        伦纳德·阿佩尔辛(Leonard Apeltsin)是Anomaly的数据科学主管,他的团队应用高级分析技术来识别医疗欺诈、浪费和滥用情况。
  • 目录

    案例研究1  在纸牌游戏中寻找制胜策略
      第1章  使用Python计算概率
        1.1  样本空间分析:一种用于测量结果不确定性的无方程方法
        1.2  计算非平凡概率
          1.2.1  问题1:分析一个有4个孩子的家庭
          1.2.2  问题2:分析掷骰子游戏
          1.2.3  问题3:使用加权样本空间计算掷骰概率
        1.3  计算区间范围内的概率
        1.4  本章小结
      第2章  使用Matplotlib绘制概率图
        2.1  基本的Matplotlib图
        2.2  绘制抛硬币概率
        2.3  本章小结
      第3章  在NumPy中运行随机模拟
        3.1  使用NumPy模拟随机抛硬币和掷骰子实验
        3.2  使用直方图和NumPy数组计算置信区间
          3.2.1  通过直方图合并显示邻近值
          3.2.2  利用直方图进行概率推导
          3.2.3  缩小较高置信区间的范围
          3.2.4  NumPy中计算直方图
        3.3  使用置信区间分析一副有偏纸牌
        3.4  使用排列来洗牌
        3.5  本章小结
      第4章  案例研究1的解决方案
        4.1  对红牌进行预测
        4.2  使用10张牌的样本空间来优化策略
        4.3  本章小结
    案例研究2  评估在线广告点击的显著性
      第5章  使用SciPy进行基本概率和统计分析
        5.1  使用SciPy探索数据和概率之间的关系
        5.2  将均值作为中心性的度量
        5.3  悔方差作为离散性的度量
        5.4  本章小结
      第6章  使用中心极限定理和SciPy进行预测
        6.1  使用SciPy处理正态分布
        6.2  通过随机采样确定总体的均值和方差
        6.3  使用均值和方差进行预测
          6.3.1  计算正态曲线下方的面积
          6.3.2  对计算的概率进行解释
        6.4  本章小结
      第7章  统计假设检验
        7.1  评估样本均值和总体均值之间的差异
        7.2  数据捕捞:过采样将导致错误的结论
        7.3  有放回的自举法:当总体方差未知时检验假设
      ……
    案例研究3  利用新闻标题跟踪疾病暴发
    案例研究4  使用在线招聘信息优化简历
    案例研究5  利用社交网络数据发现新朋友