基本概念 |
| JaniSearch是通过并行调用多个搜索引擎来完成用户的搜索任务的,其工作原理如下图。 | |
| 作者通过对大量搜索引擎的研究,总结出了一套描述搜索引擎输入输出特征的方法,和利用这些特征从搜索引擎中提取数据的方法。 | |
| JaniSearch的简略工作流程如下: | |
| 1 | 用户输入查询关键字后,JaniSearch利用搜索引擎的输入特征,将用户输入翻译成每个搜索引擎各自的输入。 |
| 2 |
JaniSearch并行启动多个线程在这些搜索引擎中进行查询。 |
| 3 |
从其他搜索引擎获得查询结果后,JaniSearch利用引擎输出特征从返回结果中提取有用数据。 |
| 4 |
JaniSearch在对获得的数据进行唯一性检查,并评定相关性之后,将其存入本地数据库中。 |
| 5 |
用户利用本地数据进行其他附加操作。 |
![]() |
| JaniSearch把大量的搜索引擎分成若干类,用户可以通过选择谋类搜索引擎来选取多个搜索引擎。 | |
| 目前JaniSearch中的引擎分为通用英文、通用中文、和医学三类,如下左图。 | |
| 下右图是在引擎编辑器中显示的三个引擎组中引擎的情况。 | |
| 在引擎组中,用户也可以选择是否使用单个引擎,详细情况见使用详解。 |
![]() |
![]() |
| 在一般搜索引擎中查到的结果中,通常包含许多无法连通的链接。 | |
| 无法连通的原因很多,包括该网页已经被删除,当前该服务器有故障,或用户没有对该网页的访问权限等等。 | |
| 在一般搜索引擎中,用户点击这些链接往往是等待很长时间之后,看到“该页无法显示”的提示,这耽误了用户时间,并且令人恼怒。 | |
| JaniSearch的连通性检查(Validate)功能就是使用多线程并行自动迅速的为用户检测所得信息的连通性。 | |
| 连通性检查可以发现并去掉那些失效的无法连通的链接,大大节省了用户的时间,详细情况请参看“使用详解”。 |
| 一般搜索引擎返回的链接当中往往存在来自同一网站的多个网页, | |
| 比如http://www.ccidnet.com/tech/msrc和http://www.ccidnet.com/school/web/web_more.php3?type=Javascript 。 | |
| 如果您只想得到该网站的链接,对其下的多个网页不感兴趣,那么这些来自同一网站的内容就成了垃圾信息。 | |
| 域名过滤(Domain Filter)功能,就是帮助您清除掉这样的垃圾信息,详细情况请参看“使用详解”。 |
![]() |