PB级全文检索(分布式)解决方案
———HyperSearch™


PB级别全文检索引擎(将)是大中型企事业单位不可或缺的信息系统。
PB级别全文检索引擎,有两个最基本的结构特点:一是分布式;二是分包式
分布式(Distributed Servers)是指索引信息、检索模块被分别(镜像)部署于数量适合的服务器;
分包式(Subcontracting Searchers)是指索引与文本信息(及2副本)被随机或按均衡的原则保存于不同的服务器;
搜索中台(Search Middle Officer)负责分配索引信息、整合检索结果。

HyperSearch™ 是北京联高软件开发有限公司集二十多年技术研发的PB级别全文检索引擎;
& 刻意避开 ES(ElasticSearch) 等基于 Lucene技术的 全文检索系统的诸多弊端与限制;
& 100%自主知识版权,适用于保密、安全与受制裁的应用场景;
& 基于C#及.Core开发,迁移性也很好,可运行于Windows及Linux系统;
& 系统结构简单、灵活,可在极短的时间内实现成百上千台服务器的快速部署;
& 提供 C# DLL,Web(Rustful) API 等诸多接入;
& 对管理员要求很低,普通的IT工程师即可轻松地运维;
& 对服务器要求很低,甚至可以利用过时、闲置计算机搭建;
& 图形化的搜索中台,操作维护很简单;

一般而言,索引信息越多,检索速度越快,支持的检索功能越多。
因而,优秀的全文检索核心,需要兼顾索引量与搜索性能。

1、功能特色

1.1 片段搜索(Piece Search,也称为部件搜索)

在无需数量级增加索引信息的情形下,即可实现英文单词、数字或字母与数字组合的片段搜索;
比如:lette*,搜索含有lette的记录(或文档);39012*搜索手机号码;89C3*搜索型号;

1.2 大小写敏感的搜索(Sensitive Search)

在无需数量级增加索引信息的情形下,支持大小写敏感的搜索(含片段搜索);
比如:Crose, crose 可得到不同的搜索结果;

1.3 或 搜索(OR Search)

支持两个及以上单词(或词语)的“或”搜索,只要出现其中之一即可;
比如:咖啡|cafe|coffee;

1.4 快速索引(Direct Index)

HyperSearch™支持快速创建索引,无需分词;
几乎实时地更新索引信息;

1.5 缩减索引(Index Skipping)

HyperSearch™支持用户指定的高频词,无需创建索引及参与检索;
该技术可以平均减少18%的索引数据量;
例如:对于类Github平台或企业内部的代码共享平台,
可以将编程语言的关键字(词)或保留字(词)设置为高频词,
即可大大减少索引数据量。

1.6 通用搜索语法(Normal Search Grammar)

通用搜索语法是指一般的搜索程序支持的语法。
关键词可以是一般词,也可以是 片段搜索语法,letter 或 lette* 都是可以的。
没有任何前缀或+(加好)前缀,是普通的关键词搜索;-(减号)作为前缀是过滤搜索;
双引号括起来的词(组),则是强制连续性搜索,比如:"wild horse",要求 wild 与 horse 相邻;
-"wild horse" 同理。

Lucene ElasticSearch Solr HyperSearch
Birth 2001 老古董,过时技术; 2004 外壳产品; 2006 外壳产品; 2021 新时代,新技术!
Language java java java C#
OS Windows & Linux Windows & Linux Windows & Linux Windows & Linux
License 受制于Apache of USA & Oracle 受制于Apache of USA & Oracle 受制于Apache of USA & Oracle 完全自由Full Free
片段检索 依赖于巨大索引(慢); 依赖于巨大索引(慢); 依赖于巨大索引(慢); 很小的索引文件;轻松实现;
大小写敏感检索 依赖于巨大索引(慢); 依赖于巨大索引(慢); 依赖于巨大索引(慢); 很小的索引文件;轻松实现;
或 检索 不支持; 性能较差; 性能较差; 原生实现;
分布式 不支持 外套 外套 原生!!!
容灾机制 原生!
分离式索引 原生!
外部接入耦合性 复杂; 一般; 一般; 极简!!!

2、应用场景

2.1 国家安全与情报部门

国家安全与情报部门参与全文检索的信息(文本)繁杂多样,数量巨大、格式不统一,
甚至出现多语种信息混杂的情形,对“时效性”要求也比较高,
需要尽快创建与更新索引信息利于实施检索;
国家安全与情报部门的信息来源渠道很多,因此全文检索系统应该结构简单;
国家安全与情报部门经常有应急事务,需要能够快速部署;
具体的应用场景,比如:
•根据ID(身份证,车牌号等)、姓名(部分或不准确)进行查询;
•信息快速汇集,实时部署,快速检索;
•以HyperSearch™为基础,可以快速建立关联关系的“图数据库”;

2.2 企业百科型知识分享平台

知识分享是现代企业的重要文化建设项目,可大大提高培训、团队建设效率,也能提高管理效能。
知识分享系统的核心功能就是多样化的全文检索。
一般的“+并搜索”“-过滤搜索索”和特定搜索都是基本的需求;“或搜索”也能提高检索效率。
对于中英文均有的学习平台,则使用的片段搜索是必需。

2.3 金融、保险行业应用

金融、保险行业的检索数据特点是:数据量超大,每个记录并不长;
应用HyperSearch™的检索策略服务,可支持1000亿(条)级别数据的全文检索;
•根据ID(日志类型、卡号等)和时间段进行查询。
•查询交易凭证,追溯交易,以及查询客户信用记录,帮助客户快速借款等。
•整合多方数据,形成关系网络,查询关联关系,可用于反洗钱、风控等场景。

2.4 电信、有线电视运营商应用

电信、有线电视运营商的检索数据特点与上述类似:数据量超大,每个记录并不长;
应用HyperSearch™的检索策略服务,可支持1000亿(条)级别数据的全文检索;
•主要根据ID(手机号码)、时间段进行查询;
•可用于用户查询话费清单、流量清单;

2.5 类Github的源程序共享平台 编程语言的平台文件数量巨大、代码信息重复性较高;
参与检索的文本以代码为主,但检索的时候却经常关系到注释信息;
对大小写敏感的搜索有明确的需求;对片段搜索有非常明确的需求。

一句话,文件或信息超多的部门、企业都需要 HyperSearch ™ !

3、部署方案



俗话说“要想富,先修路”,搭建任何网络环境,都不要在路由器、网卡及网线上面省钱。尽量用好的!
服务器上多插一些网卡!至少2块!进、出各一!
HyperSearch ™ 对服务器的要求并不高,内存越大越好(与资金搞好平衡!);
Windows,Linux均可;如果是 Windows Server ,当然更好;Linux 也是服务器版本最好;
服务器配置推荐:
(1)低配:内存8GB;1T SSD硬盘保存核心索引信息;8TB HDD 硬盘,保存扩展索引与文件信息;
(2)中配:内存32GB;1T SSD(PCIe 4.0/5.0)硬盘保存核心索引信息;16TB HDD硬盘,保存扩展索引与文件信息;
(3)高配:内存128GB;2T SSD(PCIe 4.0/5.0)硬盘保存核心索引信息;8TB SDD硬盘保存扩展索引;16x4 TB HDD保存扩展索引与文件信息;
(4)搜索中台服务器,看每日搜索量,酌情配备即可(主要是内存要大一些);


4、联系我们


4.1 PB级别文本文件全文检索系统

HyperFile™ 与 HyperSearch™ 协作,实施文件(文本)类型信息的PB级别全文检索系统;

4.2 PB级别数据库信息全文检索系统

HyperSQL™ 与 HyperSearch™ 协作,实施数据(库)类型信息的PB级别全文检索系统;

4.3 PB级别OFFICE文档(档案)全文检索系统

HyperDoc™ 与 HyperSearch™ 协作,实施文件(Office,PDF)类型信息的PB级别全文检索系统;
联高软件稳定、高效与精细的文本提取技术,从Office及PDF等文件中提取文本快速创建索引。

联高软件值得您来进行有价值的沟通。

文档管理

知识管理

文档OA

文信系统

云文档

企业培训平台