-
内容大纲
为了让读者全面了解信息检索和搜索引擎的基本概念、原理和实现方法,以及相关的研究和应用领域,本书详细阐述了信息检索中的重要问题。
全书共分为3篇,涵盖信息检索和搜索引擎的各个方面:第1篇(第1~3章)为基础篇,介绍信息检索和搜索引擎的基本概念、原理以及信息采集、文本转换方法;第2篇(第4~6章)为技术篇,涵盖索引创建、用户交互、检索模型与搜索排序等关键技术;第3篇(第7章和第8章)为应用篇,讨论搜索引擎评价和链接分析,展示搜索引擎在不同领域的应用和发展趋势。全书提供了大量应用实例,每章后均附有习题。
通过对这些方面的讲解,读者可以了解信息检索和搜索引擎的相关技术和方法,掌握它们的实现和应用,为信息处理提供更好的解决方案。 -
作者介绍
闫琰,中国矿业大学(北京)副教授,硕士生导师。出版专著《基于深度学习的文本表示与分类方法研究》。目前主要从事信息检索、自然语言处理、机器学习、人工智能等领域的教学与研究工作。 -
目录
第1章 信息检索和搜索引擎
1.1 什么是信息检索
1.1.1 Web搜索
1.1.2 其他搜索应用
1.1.3 其他信息检索应用
1.2 搜索引警架构
1.2.1 搜索引擎
1.2.2 基本的构件
1.3 搜索引擎构件及其功能
1.3.1 文本采集
1.3.2 文本转换
1.3.3 索引创建
1.3.4 用户交互
1.3.5 排序
1.3.6 评价
1.4 开源的搜索引擎系统
1.4.1 Lucene
1.4.2 Solr
1.4.3 ElasticSearch
1.5 搜索引擎面对的挑战
小结
习题
第2章 信息采集
2.1 网页
2.1 ,1网页的特点
2.1.2 网页规模的估计
2.1.3 网页的年龄
2.2 网页爬虫
2.2.1 网页爬虫的定义
2.2.2 网页爬虫的执行流程
2.2.3 设计网页爬虫的原则
2.2.4 网页爬虫的评价指标
2.2.5 爬取策略
2.2.6 深网爬取
2.3 网站地图
2.4 非网页类信息采集
2.5 存储文档
2.5.1 形成摘要
2.5.2 存储摘要
2.5.3 文档更新
2.5.4 网页去重和去噪
小结
习题
第3章 文本转换
3.1 文本的统计特征
3.1.1 词频分布
3.1.2 关联网页规模估计
3.2 停用词去除
3.3 词干提取
3.3.1 基于规则的词干提取
3.3.2 基于词典的词干提取
3.3.3 对比词干提取和词形还原
3.4 词素切分
3.4.1 基于字符串匹配的词素切分方法
3.4.2 基于统计的词素切分方法
3.4.3 英文词素切分(N元串)
3.5 文本转换的困难
3.6 文本的向量化表示
3.6.1 离散表示
3.6.2 分布式表示
小结
习题
第4章 索引创建
4.1 索引相关定义
4.1.1 单词-文档矩阵
4.1.2 单词词典
4.1.3 倒排索引相关概念
4.1.4 倒排索引简单实例
4.2 索引的建立
4.2.1 两遍文档遍历法
4.2.2 排序法
4.2.3 归并法
4.3 索引更新
4.3.1 动态索引
4.3.2 倒排索引的插入
4.3.3 倒排索引的删除
4.4 查询处理方法
4.4.1 Document-at-a-time
4.4.2 Term-at-a-time
4.4.3 查询优化
小结
习题
第5章 用户交互
5.1 信息需求与查询
5.2 查询转换与提炼
5.2.1 停用词去除和词干提取
5.2.2 拼写检查
5.3 查询扩展
5.3.1 基于全局分析的查询扩展
5.3.2 基于相关反馈和伪相关反馈的查询扩展
5.3.3 基于查询日志的查询扩展
5.4 上下文和个性化
5.5 查询推荐
5.5.1 基于文档的方法
5.5.2 基于查询日志的方法
5.6 搜索结果显示
小结
习题
第6章 检索模型与搜索排序
6.1 检索模型概述
6.1.1 布尔模型
6.1.2 向量空间模型
6.1.3 BOW模型
6.1.4 Latent Dirichlet Allocation
6.1.5 隐性语义分析
6.2 概率模型
6.2.1 概率检索模型
6.2.2 二元独立模型
6.2.3 BM25模型
6.3 语言模型
6.3.1 One-Hot和Word2Vec
6.3.2 -CBOW模型
6.3.3 Skip-gram模型
6.4 排序模型
6.4.1 K-L散度
6.4.2 Learning to Rank算法
6.5 基于机器学习的排序方法
小结
习题
第7章 搜索引擎评价
7.1 搜索引擎评价的意义
7.2 搜索引擎评价体系
7.3 效果评价
7.3.1 召回率、精确率、ROC曲线
7.3.2 平均精确率
7.3.3 关注排序靠前的文档
7.3.4 使用用户偏好
7.4 效率评价
7.5 训练、测试和统计
7.5.1 比较评价
7.5.2 显著性检验
7.5.3 最小化判定工作
7.5.4 设置参数值
小结
习题
第8章 链接分析
8.1 PageRank算法
8.1.1 什么是PageRank
8.1.2 PageRank的工作原理
8.1.3 PageRank计算
8.1.4 PageRank应用与分析
8.2 HITS算法
8.2.1 什么是HITS
8.2.2 HITS工作原理
8.2.3 HITS算法存在的问题
8.2.4 HITS与PageRank比较
8.2.5 其他改进算法
8.3 网页作弊技术
8.3.1 基于内容的作弊技术
8.3.2 基于链接关系的作弊技术
8.3.3 掩盖技术和重定向技术
8.4 网页反作弊技术
8.4.1 特定类别的作弊页面识别技术
8.4.2 非特定类别的作弊页面识别技术
小结
习题
参考文献
同类热销排行榜
- 父与子全集(彩色典藏版)11.92
- 快把我哥带走(2)15.92
- 零基础学画漫画(3Q版素描技法篇)8
- 暴走漫画(9)4
- 约翰·汤普森简易钢琴教程(1原版引进)6.4
- 暴走漫画(5)4
- 暴走漫画(10)4
- 凹槽练字板(汉语常用字行书)14
- 楷书入门基础教程(楷)/墨点练字宝14
- 基础素描教程(1)4.4
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...