- Python数据处理分析可视化与数据化运营(高等院校十三五规划教材)/Python系列
- - 作者：编者:宋天龙|责编:孙燕燕
  - 出版社：人民邮电
  - ISBN：9787115527592
  - 出版日期：2020/09/01
  - 页数：234
- 售价：19.92

内容大纲
本书的编写主要围绕Python在企业中的数据分析工作实践，着眼于构建完整的数据分析框架、方法和技能的培养和训练。全书共10章，其中第1章和第2章介绍了进行Python数据分析的准备工作和Python基础知识；第3～9章介绍了数据对象的读写、数据清洗和预处理、数据可视化、基本数据统计分析和高级数据建模分析、自然语言理解和文本挖掘、数据分析部署和应用等完整工作技能和方法；第10章介绍了数据分析在数据化运营中的完整应用思路、维度和框架。本书内容深入浅出，均以企业真实需求引导学习，具有很强的实用性和操作性。
本书可以作为普通高等院校本科、专科统计、商务分析、大数据等专业的课程教材，也可以作为从事数据分析工作的人员的参考用书。
作者介绍
目录
第1章  认识Python
  1.1  Python与数据分析
    1.1.1  Python的概念
    1.1.2  数据分析与Python
  1.2  如何准备Python程序环境
    1.2.1  如何安装Python程序
    1.2.2  如何安装第三方库
  1.3  Python数据分析库
    1.3.1  Pandas
    1.3.2  Scipy
    1.3.3  Numpy
    1.3.4  Scikit-Learn
    1.3.5  Statsmodels
    1.3.6  Gensim
  1.4  Python交互环境Jupyter
    1.4.1  启动Jupyter
    1.4.2  Jupyter的功能区
    1.4.3  Jupyter的常用操作
    1.4.4  Jupyter的魔术命令
    1.4.5  Jupyter的配置
  1.5  执行第一个Python程序
  1.6  新手常见误区
    1.6.1  随意升级库到最新版本
    1.6.2  纠结于使用Python2还是Python3
    1.6.3  纠结于选择32位还是64位版本
  实训：打印自己的名字
  思考与练习
第2章  Python语言基础
  2.1  基础规则
    2.1.1  Python解释器
    2.1.2  编码声明
    2.1.3  缩进和执行域
    2.1.4  长语句断行
    2.1.5  单行和多行注释
    2.1.6  变量的命名和赋值规则
  2.2  数据类型
    2.2.1  数字型数据
    2.2.2  字符型数据
    2.2.3  日期型数据
    2.2.4  数据类型的判断与转换
  2.3  数据结构
    2.3.1  列表和列表推导式
    2.3.2  元组和元组推导式
    2.3.3  字典和字典推导式
    2.3.4  集合和集合推导式
    2.3.5  数据结构的判断与转换
  2.4  条件表达式与判断
    2.4.1  单层条件判断
    2.4.2  嵌套条件判断
    2.4.3  多条件判断中的and和or

    2.4.4  多条件判断中的链式比较、all和any
    2.4.5  基于条件表达式的赋值
  2.5  循环和流程控制
    2.5.1  for循环和条件表达式
    2.5.2  while循环和条件表达式
    2.5.3  循环嵌套
    2.5.4  无限循环
    2.5.5  break和continue控制
  2.6  运算符
    2.6.1  算术运算符
    2.6.2  赋值运算符
    2.6.3  比较运算符
    2.6.4  逻辑运算符
    2.6.5  成员运算符
    2.6.6  身份运算符
    2.6.7  运算符优先级
  2.7  字符串处理和正则表达式
    2.7.1  字符串格式化的3种方法
    2.7.2  字符串的编译执行
    2.7.3  内置字符串处理方法
    2.7.4  正则表达式应用
  2.8  功能模块的封装
    2.8.1  函数
    2.8.2  匿名函数
    2.8.3  类
  2.9  高阶计算函数的应用
    2.9.1  map
    2.9.2  reduce
    2.9.3  filter
  2.10  导入Python库
    2.10.1  导入标准库和第三方库
    2.10.2  导入自定义库
    2.10.3  使用库的别名
    2.10.4  不同库的导入顺序
  2.11  Pandas库基础
    2.11.1  创建数据对象
    2.11.2  查看数据信息
    2.11.3  数据切片和切块
    2.11.4  数据筛选和过滤
    2.11.5  数据预处理操作
    2.11.6  数据合并和匹配
    2.11.7  数据分类汇总
    2.11.8  高级函数使用
  2.12  新手常见误区
    2.12.1  错误的缩进导致功能范围混乱
    2.12.2  混淆赋值和条件判断符号
    2.12.3  列表长度与初始索引、终止索引误用
    2.12.4  表达式或功能缺少冒号
    2.12.5  变量名的冲突问题
    2.12.6  混淆int和round对浮点数的取整

  实训：对列表中的元素按不同逻辑处理
  思考与练习
第3章  数据对象的读写
  3.1  目录与文件操作
    3.1.1  获取目录信息
    3.1.2  目录的基本操作
    3.1.3  路径与目录的组合与拆分
    3.1.4  目录的判断
    3.1.5  遍历目录
    3.1.6  文件的基本操作
  3.2  数据文件的读取与写入
    3.2.1  读写普通文件
    3.2.2  读写csv、txt、tsv等数据文件
    3.2.3  读写Excel文件
    3.2.4  读写JSON文件
    3.2.5  读写XML文件
    3.2.6  读写SPSSStatistics/SAS/Stata数据文件
    3.2.7  读写R数据文件
  3.3  数据库的读取与写入
    3.3.1  读写结构化数据库MySQL
    3.3.2  读写非结构化数据库MongoDB
  3.4  数据对象持久化
    3.4.1  使用pickle读写持久化对象
    3.4.2  使用sklearn读写持久化对象
  3.5  新手常见误区
    3.5.1  不注意工作路径导致无法找到文件
    3.5.2  忽视不同操作系统下路径的表示方法问题
    3.5.3  文件对象未正常关闭导致数据或程序异常
    3.5.4  pickle读写对象无法执行read和write方法
    3.5.5  默认读取的多段落数据末尾有\n而不处理
    3.5.6  文件write写入的对象不是字符串
  实训：多条件数据库读写操作
  思考与练习
第4章  数据清洗和预处理
  4.1  数据审核
    4.1.1  查看数据状态
    4.1.2  审核数据类型
    4.1.3  分析数据分布趋势
  4.2  缺失值处理
    4.2.1  查看缺失值记录
    4.2.2  查看缺失值列
    4.2.3  NA值处理
  4.3  异常值处理
    4.3.1  基于经验值的判断和选择
    4.3.2  基于均值标准差的判断和选择
    4.3.3  基于分位数的判断和选择
  4.4  重复值处理
    4.4.1  判断缺失值
    4.4.2  去除重复值
  4.5  数据抽样

    4.5.1  随机抽样
    4.5.2  分层抽样
  4.6  数据格式与值变换
    4.6.1  字符串转日期
    4.6.2  提取日期和时间
    4.6.3  提取时间元素
  4.7  数据标准化和归一化
    4.7.1  Z-SCORE数据标准化
    4.7.2  MaxMin数据归一化
  4.8  数据离散化和二元化
    4.8.1  基于自定义区间的离散化
    4.8.2  基于分位数法离散化
    4.8.3  基于指定条件的二元化
  4.9  分类特征处理
    4.9.1  分类特征转数值索引
    4.9.2  OneHotencode转换
  4.10  特征选择
  4.11  分词
  4.12  文本转向量
  4.13  新手常见误区
    4.13.1  没有先做NA值处理导致后续清洗工作频繁报错
    4.13.2  直接抛弃异常值
    4.13.3  用数值索引代替分类字符串参与模型计算
    4.13.4  使用分位数法离散化并做不同周期的数据对比
    4.13.5  把抽样当作一个必备工作环节
  实训：综合性数据预处理
  思考与练习
第5章  数据可视化
  5.1  可视化应用概述
    5.1.1  常用数据可视化库
    5.1.2  如何选择恰当的可视化方式
  5.2  简单数据信息的可视化
    5.2.1  使用条形图和柱形图表达数据差异
    5.2.2  使用折线图和柱形图展示趋势
    5.2.3  使用饼图和面积图展示成分或结构信息
    5.2.4  使用散点图或蜂窝图展示数据间关系
  5.3  复杂数据信息的可视化
    5.3.1  使用成对关系图对多组数据同时做关系可视化
    5.3.2  使用带回归拟合线的散点图做回归拟合的可视化
    5.3.3  使用热力图做相关关系可视化
    5.3.4  使用日历图展示不同时间下的销售分布
    5.3.5  使用箱型图和散点图查看数据分布规律
    5.3.6  使用分类柱形图展示多个维度细分值分布
    5.3.7  使用等高线绘制核密度分布
    5.3.8  使用坡度图绘制数据变化差异
    5.3.9  使用漏斗图展示不同转化环节的完成情况
    5.3.10  使用关系图展示不同元素见的关联关系
    5.3.11  使用雷达图展示多个元素在不同属性上的差异
    5.3.12  用词云展示关键字分布
  5.4  新手常见误区

    5.4.1  没有明确的可视化目标
    5.4.2  通过特殊图形设置误导受众
    5.4.3  选择过于“花哨”的图形却忽略了可视化的本质
    5.4.4  缺乏根据信息表达目标选择“最佳”图形的意识
    5.4.5  信息过载
  实训：综合性数据可视化
  思考与练习
第6章  基本数据统计分析
  6.1  描述性统计分析
    6.1.1  通用描述信息
    6.1.2  集中性趋势
    6.1.3  离散性趋势
  6.2  交叉对比和趋势分析
    6.2.1  交叉对比分析
    6.2.2  交叉趋势分析
  6.3  结构与贡献分析
    6.3.1  占比分析
    6.3.2  二八法则分析
    6.3.3  ABC分析法
    6.3.4  长尾分析
  6.4  分组与聚合分析
    6.4.1  使用分位数聚合分析
    6.4.2  基于均值和标准差的聚合分析
  6.5  相关性分析
    6.5.1  Pearson相关性分析
    6.5.2  Spearman相关性分析
    6.5.3  Kendall相关性分析
  6.6  主成分分析与因子分析
    6.6.1  主成分分析
    6.6.2  因子分析
  6.7  漏斗、路径与归因分析
    6.7.1  漏斗分析
    6.7.2  路径分析
    6.7.3  归因分析
  6.8  新手常见误区
    6.8.1  把数据陈述当作数据结论
    6.8.2  通过单一指标得出数据结论
    6.8.3  注重分析过程但没有分析结论
    6.8.4  忽视数据分析的落地性
  实训：基本数据统计分析思维训练
  思考与练习
第7章  高级数据建模分析
  7.1  使用KMeans聚类算法挖掘用户潜在特征
    7.1.1  算法引言
    7.1.2  案例背景
    7.1.3  数据源概述
    7.1.4  案例过程
    7.1.5  用户特征分析
  7.2  使用CART预测用户是否会产生转化
    7.2.1  算法引言

    7.2.2  案例背景
    7.2.3  数据源概述
    7.2.4  案例过程
    7.2.5  分析用户的转化可能性
  7.3  使用主成分分析+岭回归预测广告UV量
    7.3.1  算法引言
    7.3.2  案例背景
    7.3.3  数据源概述
    7.3.4  案例过程
    7.3.5  获得广告UV量
    7.3.6  拓展思考
  7.4  使用Apriori关联分析提高商品销量
    7.4.1  算法引言
    7.4.2  案例背景
    7.4.3  数据源概述
    7.4.4  案例过程
    7.4.5  通过关联分析结果提高销量
  7.5  使用Prefixspan序列关联找到用户下一个访问页面
    7.5.1  算法引言
    7.5.2  案例背景
    7.5.3  数据源概述
    7.5.4  案例过程
    7.5.5  通过序列模式引导用户页面访问行为
    7.5.6  拓展思考
  7.6  使用autoARIMA时间序列预测线下门店销量
    7.6.1  算法引言
    7.6.2  案例背景
    7.6.3  数据源概述
    7.6.4  案例过程
    7.6.5  得到未来7天的销售量
  7.7  使用IsolationForest异常检测找到异常广告流量
    7.7.1  算法引言
    7.7.2  案例背景
    7.7.3  数据源概述
    7.7.4  案例过程
    7.7.5  分析异常检测结果
  7.8  新手常见误区
    7.8.1  认为某种算法适用于所有应用场景
    7.8.2  并不是模型拟合程度越高效果越好
    7.8.3  应用回归模型时忽略自变量是否产生变化
    7.8.4  关联分析可以跨维度做分析
    7.8.5  很多时候模型得到的异常未必是真的异常
  实训
    实训1  预测用户是否流失
    实训2  预测目标用户的总订单金额
    实训3  找到整体用户频繁购买的商品
  思考与练习
第8章  自然语言理解和文本挖掘
  8.1  使用结巴分词提取用户评论关键字
    8.1.1  算法引言

    8.1.2  案例背景
    8.1.3  数据源概述
    8.1.4  案例过程
    8.1.5  分析用户评论关键字
  8.2  使用LDA主题模型做新闻主题分析
    8.2.1  算法引言
    8.2.2  案例背景
    8.2.3  数据源概述
    8.2.4  案例过程
    8.2.5  分析主题结果
  8.3  使用随机森林预测用户评分倾向
    8.3.1  算法引言
    8.3.2  案例背景
    8.3.3  数据源概述
    8.3.4  案例过程
    8.3.5  预测新用户的评分
  8.4  使用TextRank自动生成文章摘要和关键短语
    8.4.1  算法引言
    8.4.2  案例背景
    8.4.3  数据源概述
    8.4.4  案例过程
  8.5  新手常见误区
    8.5.1  混淆中文分词与英文分词引擎
    8.5.2  只用词频计算词的重要性
    8.5.3  忽略文本预处理环节
  实训：提取关键字、关键短语和摘要信息
  思考与练习
第9章  数据分析部署和应用
  9.1  批量合并数据文件
    9.1.1  应用背景
    9.1.2  工作需求
    9.1.3  实现过程
  9.2  从数据库中抽取数据并生成结果文件
    9.2.1  应用背景
    9.2.2  工作需求
    9.2.3  实现过程
  9.3  发送普通Email并附带数据文件
    9.3.1  应用背景
    9.3.2  工作需求
    9.3.3  实现过程
  9.4  发送HTML富媒体样式的邮件
    9.4.1  应用背景
    9.4.2  工作需求
    9.4.3  实现过程
  9.5  系统自动执行Python脚本和数据任务
    9.5.1  应用背景
    9.5.2  工作需求
    9.5.3  实现过程
  9.6  新手常见误区
    9.6.1  不注重自动化的工作方式

    9.6.2  数据输出物的美观度也是一种数据价值
    9.6.3  缺乏对自动化作业任务的监控
  实训：将日常发送邮件工作自动化
  思考与练习
第10章  数据分析与数据化运营
  10.1  数据报告矩阵
    10.1.1  临时分析
    10.1.2  实时分析
    10.1.3  日常报告
    10.1.4  专题分析
    10.1.5  项目分析
  10.2  分析指标矩阵
    10.2.1  会员运营
    10.2.2  商品运营
    10.2.3  广告运营
    10.2.4  网站运营
  10.3  探索维度矩阵
    10.3.1  目标端
    10.3.2  媒体端
    10.3.3  用户端
    10.3.4  网站端
    10.3.5  竞争端
  10.4  应用场景矩阵
    10.4.1  效果预测
    10.4.2  结论定义
    10.4.3  数据探究
    10.4.4  业务执行
  10.5  新手常见误区
    10.5.1  把数据陈列当作数据结论
    10.5.2  数据结论产生于单一指标
    10.5.3  由数据立场扭曲的数据结论
    10.5.4  忽视多种数据落地方式
  实训：搭建针对企业的数据化运营应用体系
  思考与练习

内容大纲

作者介绍

目录

同类热销排行榜

推荐书目