神舟问>百科问答>什么叫来自全文检索

什么叫来自全文检索

2023-10-31 19:18:06 编辑：join 浏览量：595次

什么叫来自全文检索

就360问答是以数据诸如文字，声音，图像等为主要内容，以检索文献资比料的内容而不是外表特征的一种检索技术·

主要该系统有TRS系统·天宇系统·等

与其他搜索引擎相比，全文搜索引擎的显著特点是它能够以文中任何一个有检索意义的词作为检索入口，而且取得的检索结果是原始文献，而不是文献线索

随着计算机产业的发展，以计算机存储设备为载体的电子信息愈来愈多，这些信息大致可分为两类：结构化数据和非结构化数据，结构化数据指的是诸如企业财务帐目和生产六绿害对掌数据、学生的分数数感提任又鲁设面蛋带合宁据等等，非结构化数据的则是一些文本数据、图象声音等多置胞介础花席丝还媒体数据等等。据统计，非结构化条玉才数据占有整个信息量的80%以上。对于结构化数据，用RDBMS（关系数据库管理系统）技术来管理是目前最好的一种方式。但是由于RDBMS自身底层结构的缘故使得它管理大量非结构化数据显得有些先天不足，特别是查询这些海量非结构化数据的速纸石候晚晶力度较慢。而通过全文检索技术就能高效地管理这些非结构化数据。

经过几缩艺年的发展，全文检索从最初的字符府数曾串匹配程序已经演进到能对超大文本、语音、图像、活动影像等非结言连季杆编底构化数据进行综合管理的大型软件。由于内涵和外延的深刻变化，全文检索系统已成为新一代管理信息系统的代名词，衡量全文检索系统的基本指标也逐渐形成规保原轮越范。

首先，我们关注的是查全率，即系统在进行某一检索时，检索出的相关资料量与系统资料库中相关资料总量的比率。查准率则是保证我们找到最有用资料的一个关键，是系统在进行某一检索时，检索出的有用资料数量与检索出资料总量的比率。检索速度或者田举水伟跑说响应时间是提高工作效率的保障，指的是从提交检索课题到查出资料结果所需的时间。最基本的检索速度是应该达“千万汉字，秒级响应"。还有诸如收录范围（所查找的范围）、用户负担（用户在检索过程中付出精力的总和）、输出形式（输出信息表现形式）等指标也是衡量全文检索系统优劣的要素。

搜索引擎应该是全文检索技术最主要的一个应用。目前，搜索引擎的使用已成为排在收发电子邮件之后的第创原哥跑气顾教军接孙室二大互联网应用技术。搜索引擎起全欢不训贵建源于传统的信息全文检索理论，否周普即计算机程序通过扫描每一篇文章中的每一个词，建立以词为单位的到排文件，检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率，对包含这些检这食布愿记的晶吧索词的文章进行排序，最后输出排序的结果。全文检索技术是搜索引擎的核心支撑技术。

一个好的检索引擎是一个理想站点的关键。很多人在访问一个里读先谈粮小站点时喜欢使用站点检索，站点检索应是分类目录导航和全文检索的完美结合，具体包括以下几个方面：

分类目录导航的关键是检索范围，检索范围的限制能使得检索结果不会太多、太滥；

全文检索对于站点检索是必不可少的，在通常情况下能够帮助人们很快地找到所要的网页；

有时利用分类目录导航和全文检索还很难定位到所要的信息，这时就要组合检索辅助；

必须有相关排序功能，因为当检索结果太多时，用户不可能一一浏览，大多数用户只浏览前面几条，没有相关排序，可能准确的检索结果排在后面，用户不能浏览到，而排在前面的检索结果却相关性很少，造成用户的错觉。

此外，我们还要考虑HTML/XML的特殊性、支持大量并发用户突发访问、Web站点的动态特性、要求索引维护效率很高等方面。

目前的技术实现有Lucene，Solr，ElasticSearch等。全文检索过程分为索引、搜索两个过程：

索引(Indexing)

从关系数据库中、互联网上、文件系统采集源数据(要搜索的目标信息)，源数据的来源是非常广泛的。

将源数据采集到一个统一的地方，例如存储系统，要创建索引，将索引创建到一个索引库（文件系统）中，从源数据库中提取关键信息，从关键信息中抽取一个一个词，词和源数据是有关联的。也即创建索引时，词和源数据有关联，索引库中记录了这个关联，如果找到了词就说明找到了源数据（http的网页、电子书、新闻等……）。

搜索(Search)

用户执行搜索（全文检索）编写查询关键字。