云帆文档全文检索功能详解

作者:云帆互联
时间:2022-11-30 09:25

   云帆文档管理系统里的全文检索使用的是solr技术。它是不同于数据库查询的一种技术,全文检索可以根据分词,查询文档中的内容。下面详细的说明下solr技术的基本知识。

   Solr是一种开放源码的、基于 Lucene Java 的搜索服务器。Solr 提供了层面搜索(就是统计)、命中醒目显示并且支持多种输出格式(包括XML/XSLT 和JSON等格式)。它易于安装和配置,而且附带了一个基于HTTP 的管理界面。Solr的特性包括:

A.高级的全文搜索功能

B.专为高通量的网络流量进行的优化

C.基于开放接口(XML和HTTP)的标准

D.综合的HTML管理界面

E.可伸缩性-能够有效地复制到另外一个Solr搜索服务器

F.使用XML配置达到灵活性和适配性

solr如何实现搜索的呢?

   倒排索引(倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成:“单词词典”和“倒排文件”。),先抽取文档中词,并建立词与文档id的映射关系,然后查询的时候会根据词去查询文档id,并查询出文档。

IK分词器原理

   本质上是词典分词,在内存中初始化一个词典,然后在分词过程中逐个读取字符,和字典中的字符相匹配,把文档中的所有词语拆分出来的过程。

云帆文档管理系统是怎样基于solr实现文件内容的检索功能的呢?

首先,在管理端,新建资料时会初始化全文检索的索引

管理端-新建资料的截图

用户端:

1.全文检索的默认查询界面

全文检索的默认界面

2.输入检索的关键字,可以将文档中的内容检索出来

                                                               根据关键词进行全文搜索

3.点击具体的标题,可以查看文档的详细内容

详细查看界面

 

   云帆文档管理系统致力于为企业提供安全稳定的文档系统解决方案。我们一直在努力提升文档的安全性,稳定性,可操作性,功能细节的完善性。我们致力于成为最好文档系统解决方案提供商,为企业的文档管理保驾护航。

商业版地址:https://www.jeedocm.com/?plan=qwjs

微信号:18710213152

微信二维码:

 

上一篇:云帆文档管理系统支持的格式类型及注意事项     下一篇:云帆文档资料管理权限功能详解