当前位置：首页 > 软件库 > 程序开发 > 搜索引擎 >

Swish-e

网页索引引擎

授权协议未知

开发语言 Perl

所属分类程序开发、搜索引擎

软件类型开源软件

地区不详

投递者关浩壤

操作系统跨平台

开源组织无

适用人群未知

软件官网

软件文档

官方下载

软件概览

Swish-e 是一个快速，灵活和自由开放源码的网页索引系统。Swish-e是适合收藏的100万或更小的网页文件。使用Gnome ™ libxml2分析器和收集过滤器，Swish-e 能索引的纯文本文件，电子邮件， PDF格式， HTML格式， XML和微软®Word/的PowerPoint / Excel和任何文件，可以转换为XML或HTML文档。Swish-e也往往用做为数据库的功能补充，如MySQL的®数据库的非常快的全文检索。

使用案例

SWISH-E搜索引擎用法

SWISH-E搜索引擎用法 SWISH-E搜索引擎，不同于Lucene等搜索引擎，SWISH-E是可以独立执行的工具，通过设定配置文件和执行命令，不需要编写其他程序，即可完成文档的索引和检索。但是在SWISH-E 2.X版本中，不支持UNICODE字符集，在3.0版本中开始支持，如果只是英文，太局限了J。 SWISH-E使用的核心是配置文件的设定，通过设定配置文件，可以完成相应的工作。 1．配
swish-e搜索引擎，代码分析(8)

2.5.4 coalesce_word_locations函数分析 coalesce_word_locations函数对于LOCATION的信息进行了合并，将同一个metaID的信息都放在了一个LOCATION中，不同的filenum，只是存放了差值。在index.c L 2847开始，循环遍历每个 LOCATION，进行词条信息的合并。 /* Run on all locations */
swish-e搜索引擎，源代码分析（6）

在前面的部分中，对于swish-e读取文件内容，将分析所得的词条加入到hash表中的过程。当所有的词条处理完成以后，此时在sw->hashentries[VERYBIGHASHSIZE]表中则存放了所有的词条。此时需要对于这些词条进行一定的压缩处理，才能最后写入到索引文件中。本节开始，对于词条信息的压缩过程进行阐述。在index.c L1200开始进行Compress the entrie
swish-e代码分析，索引部分（1）

一直想将swish-e的代码分析进行整理，趁着国庆，发布其中的内容，尽快地整理好。用的是swish-e 2.4.7版本。先对于SWISH-E搜索引擎中的主要数据结构进行介绍。 1. 索引相关的主要数据结构 1.1 SWISH-E定义了SWISH结构对于索引,搜索过程进行处理,其中有MOD_Index结构 struct MOD_Index { /* entry vars *
swish-e索引引擎分析

通过代码debug和文档整理，最近打算将swish-e索引引擎结构分析文档和笔记逐渐贴出来。基于的是2.4.7版本（与2.4.5版本差别不大）。但是在2.6版本中，直接采用了berkely DB存储方式，并实现了真正意义上的增量索引。这个部分作为下一阶段的任务去研读一下。
swish-e搜索引擎，代码分析(9)

在前面的内容中，通过对于词条的分析，排序、压缩等处理后，词条ENTRY目前是按照每个metaID一个LOCATION的结构进行存放。从本节开始，逐渐阐述索引文件的写入过程。 2.6索引文件写入过程索引文件的写入主要是分为写入头部header过程和词条信息过程两部分。 2.6.1 write_header头部写入过程先通过DB_InitWriteHeader_Native将header内容开始
swish-e搜索引擎，源代码分析（7）

前面部分对于词条进行了压缩等，从这部分开始分析索引文件的写入。 2.5 索引文件写入 2.5.1 write_index_file函数分析基本流程为：通过 coalesce_all_word_locations函数将词条按照metaID和filenum进行排序；通过sort_words对于词条进行排序； write_header写入索引文件头部； write_index写入词条信息到索引文件
Swish-e搜索引擎中的数据压缩算法（二）

基本原理是将LONG型分为byte组（需要注意字节顺序，即：big endian和 little endian），然后通过fwrite将数组按照顺序写入到文件中。读取LONG型时，fread每个字节，并对字节进行移位操作，组成LONG型。这里应该称为数据处理，应该不算做压缩处理。基本代码（来自swish-e 2.4.5）为： unsigned long PACKLONG(unsigne
swish-e代码分析，索引部分（2）

Swish-e通过配置文件，进行索引过程的配置。swish.c中main函数开始，首先通过swish_new()初始化SWISH变量； 1.基本流程： 1.1 SWISH初始化通过 SwishNew() 分配一个 Swish 指针变量，然后调用 initModule_DB 来初始化在索引过程中用到的文件读写函数，此时将索引文件的操作看做是 DB 操作；然后通过 initModule_Index
swish-e代码分析，索引部分（4）

从本节开始，对于核心索引过程进行描述。 2.3 核心索引过程对于每个需要索引的文件，先初始化一个FileProp结构，然后读取文件内容，解析词条等等。 2.3.1 FileProp函数每个 file 都通过 file_properties 函数生成 FileProp 结构，保存了文件的路径、大小、文档类型等。备注：如果在配置文件中没有初始化文档的类型，则默认为 HTML 类型。我们在配置文
swish-e代码分析，索引部分（5）

在前一节中通过getentry函数的处理，在hash表中查找是否含有该词条，如果没有，则初始化一个词条entry变量。然后通过addentry进行处理。 2.3.4 addentry函数分析加入词条到hash表的过程主要分为两部分：已有词条、新词条。如果是 hash 表中未出现的词条。在这个过程中写入了频率和位置信息（位置信息含有 strcuture 结构信息，便于在以后的压缩过程中处理）；
swish-e代码分析，索引部分（3）

上一节中对于索引之前的初始化工作进行了分析，从这节开始，对于索引过程进行阐述。 2.2.3 indexPath索引文件过程 /* This should be printed by the module that's reading the source */ tmpswline = sw->dirlist; while (tmpswline != NULL) {
Swish-e搜索引擎中的数据压缩算法（一）

在swish-e、lucene等搜索引擎中，索引文件有的采用binary格式，对于整数、long等数据类型通常采用压缩算法，再写入到索引文件中。对于其中几种数据类型压缩进行了分析。整数压缩算法：在整数前面增加0，形成N*7位的二进制格式；将整数分割为7位组；在第一组前增加1，如果还有其余的分组，在其余分组前面都加1，（最后一组除外）。比如： Int 135 二进制为10
Swish-e, 在 Dreamhost 构建小型搜索引擎

自从搭上 Dreamhost 的贼船之后，我就在幻想 Dreamhost 什么时候能够支持 Nutch 就好了，这样就可以搭建一个个人的搜索引擎。令人沮丧的是 Dreamhost 似乎一直没有支持 Nutch 的打算(当然，Nutch 这个东西一旦能够被支持，一个普通的用户恐怕要吃掉所有的资源)。今天从 Vingel 的 Blog 上看到他使用的 Swish-e, 是一个不错的选择。安装 Sw

Swish-e

同类工具

相关阅读

相关文章

相关问答

相关文档