基本概念 

 

一、工作原理

JaniSearch是通过并行调用多个搜索引擎来完成用户的搜索任务的,其工作原理如下图。
作者通过对大量搜索引擎的研究,总结出了一套描述搜索引擎输入输出特征的方法,和利用这些特征从搜索引擎中提取数据的方法。
JaniSearch的简略工作流程如下:
1 用户输入查询关键字后,JaniSearch利用搜索引擎的输入特征,将用户输入翻译成每个搜索引擎各自的输入。
2

JaniSearch并行启动多个线程在这些搜索引擎中进行查询。

3

从其他搜索引擎获得查询结果后,JaniSearch利用引擎输出特征从返回结果中提取有用数据。

4

JaniSearch在对获得的数据进行唯一性检查,并评定相关性之后,将其存入本地数据库中。

5

用户利用本地数据进行其他附加操作。

二、引擎组(category)

JaniSearch把大量的搜索引擎分成若干类,用户可以通过选择谋类搜索引擎来选取多个搜索引擎。 
目前JaniSearch中的引擎分为通用英文、通用中文、和医学三类,如下左图。
下右图是在引擎编辑器中显示的三个引擎组中引擎的情况。
在引擎组中,用户也可以选择是否使用单个引擎,详细情况见使用详解。

三 、连通性和连通性检查(Validate)

在一般搜索引擎中查到的结果中,通常包含许多无法连通的链接。 
无法连通的原因很多,包括该网页已经被删除,当前该服务器有故障,或用户没有对该网页的访问权限等等。
在一般搜索引擎中,用户点击这些链接往往是等待很长时间之后,看到“该页无法显示”的提示,这耽误了用户时间,并且令人恼怒。
JaniSearch的连通性检查(Validate)功能就是使用多线程并行自动迅速的为用户检测所得信息的连通性。
连通性检查可以发现并去掉那些失效的无法连通的链接,大大节省了用户的时间,详细情况请参看“使用详解”。

四、域名过滤

一般搜索引擎返回的链接当中往往存在来自同一网站的多个网页,
比如http://www.ccidnet.com/tech/msrchttp://www.ccidnet.com/school/web/web_more.php3?type=Javascript
如果您只想得到该网站的链接,对其下的多个网页不感兴趣,那么这些来自同一网站的内容就成了垃圾信息。
域名过滤(Domain Filter)功能,就是帮助您清除掉这样的垃圾信息,详细情况请参看“使用详解”。