欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 社交媒体数据挖掘与分析/数据科学与工程技术丛书
      • 作者:(美)加博尔·萨博//格尔·波拉特坎//P.奥斯卡·柏金//(英)安东尼奥斯·查基奥普洛斯|责编:梁华杰|译者:李凯//吕天阳
      • 出版社:机械工业
      • ISBN:9787111643685
      • 出版日期:2020/01/01
      • 页数:219
    • 售价:31.6
  • 内容大纲

        本书由工作在大规模社交媒体数据处理一线的研发人员撰写,旨在以更为友好、基础、实用的方式帮助你理解在线社交媒体。本书围绕着如何探索和理解社交媒体系统的基本组成部分进行组织,从用户角度深入剖析收集和应用社交媒体数据的机制,并通过建立在真实数据集上的代码及分析案例详细阐述相关数据挖掘方法、技术和工具。
        全书共7章,第1章介绍典型用户在社交媒体服务上的行为及其在不同服务中的普遍相似性;第2章主要讨论创造了社交网络的用户之间的连接;第3章主要探讨时间在社交系统中所扮演的角色,并且介绍帮助你理解其作用的工具;第4章回顾自然语言处理技术;第5章介绍分析大型数据集的挑战;第6章展示如何用机器学习技术预测人们喜欢哪类电影,并对预测结果进行评估;第7章由浅入深地分析全书中用于分析不同问题的通用统计模式,以及如何使用类似的分析技术去理解它们。
  • 作者介绍

  • 目录

    译者序
    前言
    致谢
    作者简介
    技术编辑简介
    第1章  用户:谁参与社交媒体
      1.1  测量Wikipedia中用户行为的变化
        1.1.1  用户活动的多样性
        1.1.2  人类活动中的长尾效应
      1.2  随处可见的长尾效应:80/20定律
      1.3  Twitter上的在线行为
        1.3.1  检索用户的Tweet
        1.3.2  对数分区
        1.3.3  Twitter上的用户活动
      1.4  总结
    第2章  网络:社交媒体如何运行
      2.1  社交网络的类型和属性
        2.1.1  用户何时创建连接:显式网络
        2.1.2  有向图与无向图
        2.1.3  节点和边的属性
        2.1.4  加权图
        2.1.5  由活动构建图:隐式网络
      2.2  网络可视化
      2.3  度:赢家通吃
        2.3.1  连接计数
        2.3.2  用户连接的长尾分布
        2.3.3  理想网络模型
      2.4  捕获相关:三角结构、簇和同配性
        2.4.1  局部三角结构和簇
        2.4.2  同配性
      2.5  总结
    第3章  时序过程:用户何时使用社交媒体
      3.1  传统模型如何描述事件发生的时间
      3.2  事件间隔时间
        3.2.1  与无记忆过程的对比
        3.2.2  自相关
        3.2.3  与无记忆过程的偏离
        3.2.4  用户活动中的时间周期
      3.3  个体行为的爆发
      3.4  预测长期指标
        3.4.1  发现趋势
        3.4.2  发现季节性
        3.4.3  利用ARIMA预测时间序列
      3.5  总结
    第4章  内容:社交媒体中有什么
      4.1  定义内容:聚焦于文本和非结构数据
        4.1.1  从文本生成特征:自然语言处理基础
        4.1.2  文本中词条的基本统计
      4.2  使用内容特征识别主题
        4.2.1  话题的流行度

        4.2.2  用户个体兴趣有多么多样化
      4.3  从高维文本中抽取低维信息
      4.4  总结
    第5章  处理大型数据集
      5.1  MapReduce:组织并行和串行操作
        5.1.1  单词计数
        5.1.2  偏斜:后一个Reducer的诅咒
      5.2  多阶段MapReduce流
        5.2.1  扇出
        5.2.2  归并数据流
        5.2.3  连接两个数据源
        5.2.4  连接小数据集
        5.2.5  大规模MapReduce模型
      5.3  MapReduc程序设计模式
        5.3.1  静态MapReduce作业
        5.3.2  迭代MapReduce作业
        5.3.3  增量MapReduce作业
        5.3.4  时间相关的MapReduce作业
        5.3.5  处理长尾分布社交媒体数据的挑战
      5.4  抽样和近似:以较少计算得到结果
        5.4.1  HyperLogLog
        5.4.2  Bloom过滤器
        5.4.3  Count-Min Sketch
      5.5  在Hadoop集群上运行
        5.5.1  在Amazon EC2上安装CHD集群
        5.5.2  为合作者提供IAM存取
        5.5.3  根据需要增加集群处理能力
      5.6  总结
    第6章  学习、映射和推荐
      6.1  在线社交媒体服务
        6.1.1  搜索引擎
        6.1.2  内容参与
        6.1.3  与现实世界的互动
        6.1.4  与人的互动
      6.2  问题阐述
      6.3  学习和映射
        6.3.1  矩阵分解
        6.3.2  学习和训练
        6.3.3  电影评分示范
      6.4  预测与推荐
        6.4.1  评估
        6.4.2  方法概述
      6.5  总结
    第7章  结论
      7.1  人类互动模式出乎意料的稳定性
      7.2  均值、标准差和抽样
      7.3  移除异常值