- 搜索引擎技术与应用开发(高等学校计算机专业规划教材)
- - 作者：编者:李群|责编:龙启铭//薛阳
  - 出版社：清华大学
  - ISBN：9787302560036
  - 出版日期：2020/11/01
  - 页数：347
- 售价：27.6

内容大纲
本书从教学的角度出发，全面地阐述了搜索引擎的原理和实践，包括：搜索引擎的基本原理与技术、搜索引擎的数据结构和搜索引擎的爬虫、信息处理技术、信息检索技术、信息检索评价技术、多媒体信息检索技术以及搜索引擎开发技术。在教材的编写过程中，对基本概念、基础知识的介绍力求做到简明扼要；各章相互配合，又自成体系附有小结和习题，同时还有相关的实验及应用技术。
本书适合高等院校计算机科学与技术专业及相关专业的高年级学生和研究生阅读参考，也适合相关领域的工程技术人员参阅。
作者介绍
目录
第1章  搜索引擎概述
  1.1  搜索引擎的概念
    1.1.1  搜索引擎基本概念
    1.1.2  搜索引擎的原理
  1.2  搜索引擎的历史与发展趋势
    1.2.1  搜索引擎的发展史
    1.2.2  搜索引擎的发展趋势
  1.3  搜索引擎的分类
    1.3.1  全文搜索引擎
    1.3.2  目录索引搜索引擎
    1.3.3  元搜索引擎
    1.3.4  分布式搜索引擎
  1.4  搜索引擎的关键技术
    1.4.1  信息收集和存储技术
    1.4.2  信息预处理技术
    1.4.3  信息索引技术
  1.5  主要搜索引擎介绍
    1.5.1  谷歌(Google)搜索
    1.5.2  雅虎(Yahoo!)搜索
    1.5.3  百度(Baidu)搜索
    1.5.4  360搜索
  小结
  思考题
第2章  搜索引擎基础
  2.1  搜索引擎的体系结构
    2.1.1  搜索器
    2.1.2  索引器
    2.1.3  检索器
    2.1.4  用户接口
  2.2  搜索引擎的工作原理
    2.2.1  网页搜集
    2.2.2  网页处理
    2.2.3  查询服务
  2.3  搜索引擎的数据结构
    2.3.1  存储结构
    2.3.2  信息库
    2.3.3  文本索引
    2.3.4  词典
    2.3.5  采样表
    2.3.6  前向索引
    2.3.7  后向索引
  2.4  元搜索引擎
    2.4.1  元搜索引擎的基本构成
    2.4.2  元搜索引擎的分类
    2.4.3  常用元搜索引擎介绍
    2.4.4  元搜索引擎的特点
    2.4.5  主要技术指标
  2.5  个性化搜索引擎
    2.5.1  系统模块及其功能
    2.5.2  个性化搜索引擎的关键技术

  2.6  智能搜索引擎
    2.6.1  智能搜索引擎特征
    2.6.2  智能搜索引擎主要技术
  小结
  思考题
第3章  网页抓取技术
  3.1  搜索引擎爬虫
    3.1.1  网络爬虫工作原理
    3.1.2  开源网络爬虫简介
    3.1.3  网页信息的抓取
  3.2  搜索引擎爬虫的关键技术
    3.2.1  网页抓取优先策略
    3.2.2  深度优先策略
    3.2.3  广度优先策略
    3.2.4  最佳优先策略
    3.2.5  不重复抓取策略
    3.2.6  网页重访策略
    3.2.7  网页抓取提速策略
    3.2.8  Robots协议
  小结
  思考题
第4章  网络爬虫开发技术
  4.1  网络爬虫的常用技术
    4.1.1  网络爬虫工作流程
    4.1.2  网络请求技术
    4.1.3  网页抓取技术
    4.1.4  其他处理技术
  4.2  正则表达式
    4.2.1  什么是正则表达式
    4.2.2  正则表达式基础知识
    4.2.3  正则表达式常见函数
    4.2.4  正则表达式的简单使用
  4.3  网络爬虫常用框架
    4.3.1  Scrapy爬虫框架
    4.3.2  Crawley爬虫框架
    4.3.3  PySpider爬虫框架
    4.3.4  Portia爬虫框架
  4.4  网络爬虫实现技术
    4.4.1  爬虫伪装技术
    4.4.2  爬虫定向爬取技术
    4.4.3  博客类爬虫的实现技术
  小结
  思考题
第5章  网页信息预处理技术
  5.1  网页信息结构化
    5.1.1  网页结构化的目标
    5.1.2  建立DOM树
    5.1.3  网页内容的获取
  5.2  文本处理
    5.2.1  词法分析

    5.2.2  中文分词技术
    5.2.3  无用词删除
    5.2.4  词干提取
    5.2.5  索引词选择
    5.2.6  词典
  5.3  PageRank算法
    5.3.1  什么是PageRank
    5.3.2  PageRank的算法
    5.3.3  PageRank的特性
    5.3.4  PageRank的迭代计算
    5.3.5  网页级别的优化
  小结
  思考题
第6章  信息索引技术
  6.1  顺排检索
    6.1.1  表展开法
    6.1.2  逻辑树展开法
    6.1.3  BF算法
    6.1.4  KMP算法
    6.1.5  BM算法
  6.2  倒排检索
    6.2.1  倒排索引
    6.2.2  倒排文档
    6.2.3  逆波兰表达式
    6.2.4  检索指令表的生成
    6.2.5  检索实施
  6.3  后缀数组索引
    6.3.1  后缀树概念
    6.3.2  后缀树原理
    6.3.3  后缀树存储
    6.3.4  后缀树的构造
    6.3.5  后缀数组
    6.3.6  后缀数组生成算法
  6.4  文本压缩技术
    6.4.1  基本概念
    6.4.2  统计方法
    6.4.3  字典方法
    6.4.4  倒排文档压缩
  小结
  思考题
第7章  信息查询与评价技术
  7.1  检索模型
    7.1.1  经典模型
    7.1.2  代数模型
  7.2  检索方法
    7.2.1  布尔检索
    7.2.2  加权检索
    7.2.3  全文检索
    7.2.4  超文本检索
  7.3  查询服务

    7.3.1  查询器原理
    7.3.2  搜索引擎检索过程
    7.3.3  检索结果排序
    7.3.4  自动摘要生成
  7.4  相关性
    7.4.1  相关性的特征
    7.4.2  相关性类别
    7.4.3  相关性模型
  7.5  搜索引擎评价指标
    7.5.1  有效性
    7.5.2  查全率和查准率
    7.5.3  其他评价指标
  小结
  思考题
第8章  多媒体信息检索技术
  8.1  多媒体的基本概念
    8.1.1  多媒体及多媒体技术
    8.1.2  音频信息与检索特征
    8.1.3  图形图像信息与检索特征
    8.1.4  视频信息与检索特征
    8.1.5  多媒体信息检索
  8.2  多媒体数据压缩
    8.2.1  多媒体压缩原理
    8.2.2  多媒体压缩编码
  8.3  多媒体内容的理解
    8.3.1  分割
    8.3.2  特征提取
    8.3.3  分类
  8.4  多媒体信息检索的关键技术
    8.4.1  信息模型
    8.4.2  检索技术
    8.4.3  查询语言
    8.4.4  数据压缩和恢复
    8.4.5  存储管理
    8.4.6  同步技术
  小结
  思考题
第9章  搭建基于Lucene的搜索引擎
  9.1  实例简介
    9.1.1  搜索引擎的体系结构
    9.1.2  网页搜集
    9.1.3  网页预处理
    9.1.4  查询服务
  9.2  环境搭建与配置
    9.2.1  JDK1.6的安装与配置
    9.2.2  Eclipse的安装与配置
    9.2.3  Tomcat的安装与配置
    9.2.4  Heritrix的安装与配置
  9.3  网页搜集
    9.3.1  设置Heritrix抓取任务

    9.3.2  修改Heritrix源代码
    9.3.3  抓取网页
  9.4  网页预处理
    9.4.1  原始网页的处理
    9.4.2  建立简单的索引
    9.4.3  为实例建立索引
  9.5  查询服务
    9.5.1  结构设计
    9.5.2  查询设计
    9.5.3  预搜索设计
    9.5.4  页面设计
    9.5.5  网页快照实现
    9.5.6  部署到Tomcat
  小结
  实验
参考文献

内容大纲

作者介绍

目录

同类热销排行榜

推荐书目