Suchmaschinen für das Intranet

Zur Neugestaltung unseres Intranets gehört auch das Einbinden einer speziellen Suchmaschine, die alle Seiten umfasst, die ich so geplant habe (Typo3, Wiki, Forum etc.). Diesbezüglich habe ich mir bislang einige Programme auf PHP-Basis angeschaut, da mir Lucene auf den ersten Blick zu “kompliziert” erschien. Sehr nett anzuschauen ist sphider. Leider ist die Durchlaufzeit der Indexierung ein wenig hoch (und man muss eine Website aufrufen, über die diese gestartet wird).

Daher habe ich mich heute mit swish-e auseinandergesetzt und damit glaube ich meine Wahl getroffen. Die Indexierung läuft über ein Perl-Programm, das nachts per cron laufen kann, und basiert auf einer eigenen Index-Datei. Die Suche ist sehr schnell und liefert auch eine ansprechende Oberfläche. Außerdem kann swish-e so ziemlich alles, was eine gute Suchmaschine können muss. Mir sind dabei folgende Punkte besonders wichtig:

  • Indexierung von PDF-, DOC-Dateien etc.
  • Ausgabe einer kleinen Zusammenfassung der gefundenen Seiten (Kontext)
  • “Stemming” von Wörtern (laufen, laufe, lief etc.)
  • Indexing kann per Kommadozeile gestartet werden

Zwar ist der Einstieg in swish-e nicht ganz so einfach (man beachte die zahlreichen Konfigurationsmöglichkeiten), aber was will man bei einem derartigen Leistungsumfang anderes erwarten? Ich werde mich auf jeden Fall beizeiten noch intensiver mit swish-e auseinandersetzen und meine Erfahrungen hier posten…

Über Stefan

Polyglot Clean Code Developer

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

To create code blocks or other preformatted text, indent by four spaces:

    This will be displayed in a monospaced font. The first four 
    spaces will be stripped off, but all other whitespace
    will be preserved.
    
    Markdown is turned off in code blocks:
     [This is not a link](http://example.com)

To create not a block, but an inline code span, use backticks:

Here is some inline `code`.

For more help see http://daringfireball.net/projects/markdown/syntax