提取的意思是 “取出”,检索的意思是 “取回”。信息检索是返回与用户特定查询或兴趣领域相关的信息。而信息提取则更多地是从一组文档或信息中提取一般知识(或关系)。信息提取是获取数据并从中提取结构化信息的标准过程,以便将其用于各种目的,其中一个目的可能是搜索引擎。
信息检索
信息检索指的是人机交互(HCI),当我们使用机器搜索某些信息时,会发现与我们的搜索查询相匹配的信息对象(内容)。检索就是检索存储在数据库或计算机中与用户需求相关的信息。用户的查询会与一组文档进行匹配,以找到相关文档。请注意,这种结果可以是文档集的一种形式。
初始文档/文本集和 “检索什么 “的查询这两件事都是信息检索系统非常重要的部分。它是从一组文档中搜索和查找相关文档。信息检索使用的方法和技术多种多样。在信息检索系统中,我们使用自动化的信息检索系统来减少信息超载。
精确度
是指检索到的与用户信息需求相关的文档数量除以检索到的文档总数。
回收率 - 是指检索到的与用户信息需求相关的文档数量除以检索到的文档总数。
是指检索到的与用户信息需求相关的文档数量除以整个文档集中相关文档的总数。
信息检索中使用的各种技术包括:
- 向量空间检索
- 布尔空间检索
- 术语-文档矩阵
- 基于块排序的索引
- Tf-idf 索引
- 各种聚类方法
信息提取
信息提取的主要目标是从文档集中找出有意义的信息。IE 是 IR 的一种。信息提取能自动从一组非结构化文档或语料库中获取结构化信息。信息检索更侧重于人类可以阅读和书写的文本,并通过 NLP(自然语言处理)加以利用。但信息检索系统查找的是与用户的信息需求相关的、存储在计算机中的信息。它能从大量文本中返回文本文件(非结构化形式)。
在线文本提取中使用的信息提取系统应成本低廉。它需要具有开发的灵活性,并且必须易于转换到新的领域。让我们以机器的自然语言处理为例,即这里的 IE(信息提取)能够识别一个人所需要的 IR 系统。通过信息提取,我们希望让机器能够从文件中提取结构化信息。信息提取系统的重要性是由越来越多的非结构化信息(没有元数据的数据)决定的,比如互联网上的信息。通过转换为关系形式或使用 XML 标记,可以使这些知识更易于获取。
在信息提取过程中,我们总是尝试使用自动学习系统。这种 IE 系统可以减少信息提取中的错误。这也将减少对监督的要求,从而减少对领域的依赖。结构化信息的 IE 依赖于基本的内容管理原则:”内容必须在上下文中才有价值”。信息提取比信息检索困难。
信息检索与信息提取的区别
信息提取不是信息检索。传统的文本提取方法也会返回一组可能与查询相关的文档子集。结果返回基于搜索关键词。
信息提取的主要目标是从可能使用不同语言的文档中提取有意义的信息。在这里,有意义的信息包含事件、事实、组件或关系等信息类型。这些事实通常会自动存储到数据库中,然后可用于分析数据的趋势,提供自然语言摘要,或仅仅用于在线访问。更正式地说,信息提取是从文档中获取事实,而信息检索则是获取相关文档的集合。
对比表格如下:
编号 | 信息检索 | 信息提取 |
---|---|---|
1 | 文档检索 | 特征检索 |
2 | 返回相关文件集 | 从文件中返回事实 |
3 | 目标是从文档中提取 | 预先指定的特征或显示信息。 |
4 | 真正的信息埋藏在文档中 | 从文档中提取信息 |
5 | 长篇文档列表 | 对整个文档集进行汇总 |
6 | 在许多搜索引擎中使用—谷歌是最好的网络红外系统。 | 用于数据库系统,自动输入提取的特征。 |
7 | 通常使用源文本的词袋模型。 | 通常基于某种形式的源文本语义分析。 |
8 | 大多使用信息、概率和统计理论。 | 产生于基于规则的系统研究。 |