Content-Suche

Der Search Engine Server indiziert auf dem Redaktionssystem die Versionen von CMS-Dateien. Auf dem Live-System werden die exportierten Webdokumente indiziert. Auf beiden Systemen werden zusätzlich die wichtigsten Dateifelder indiziert.

In seinen Suchergebnissen liefert der Search Engine Server je gefundenem Dokument einen Datensatz. Jeder Datensatz besteht aus einer Menge von Dokumentfeldern, die bei der Indizierung mit den entsprechenden Werten belegt wurden (siehe Content-Indizierung). Die Dokumentfelder sind konfigurierbar (siehe Collections konfigurieren).

Neben den wichtigen Versions- und Dateieigenschaften steht in der Standardkonfiguration auch die Gewichtung eines gefundenen Dokuments als Dokumentfeld (score ) zur Verfügung. Die Gewichtung eines Dokuments sagt aus, wie relevant ein Dokument in Bezug auf die Suchanfrage ist, bei der es gefunden wurde. Die Gewichtung wird mit einer Zahl im Bereich von 0 bis 100 ausgedrückt.

In der folgenden Tabelle sind die je Treffer gelieferten Dokumentfelder aufgeführt, unterschieden nach Redaktions- und Live-System:

Dokumentfeld Redaktionssystem Live-System
collection
score
docId (aus Versions-/Datei-ID)
lastChanged
objId (aus Datei-ID)
title
visiblePath

Die Inhalte der Felder lastChanged und title werden vom Autonomy-Such-Modul mit den Werten aus den gleichnamigen Zonen belegt. Als Zonen werden die im Folgenden aufgeführten Versions- und Dateifelder indiziert:

Indizierte Dateifelder Redaktionssystem Live-System
name
objClass
objType
suppressExport
visiblePath
workFlowName
die Dateizugriffsrechte

Indizierte Versionsfelder Redaktionssystem Live-System
blobLength
exportBlob
(exportierte Datei, nicht bei Bildern)
contentType
lastChanged
mimeType
state
title
validFrom
validUntil
kundenspezifische Felder
(bis auf Unterschriften- und Linklistenfelder)

Die Zone und das Feld visiblePath sind auf dem Redaktionssystem leer. Auf dem Live-System enthalten sie den Pfad zum Dokument.

Bei kundenspezifischen Feldern vom Typ Mehrfachauswahl (multienum) wird jeder einzelne Feldwert als Zone mit dem Namen des Feldes indiziert. Hat ein solches Feld also mehrere Werte, so wird für jeden Wert eine Zone gleichen Namens indiziert.

Dies gilt auch für die Dateirechte: Jede Benutzergruppe, die ein bestimmtes Recht hat, wird als Zone mit dem Namen des Dateirechts indiziert. Eine Ausnahme hiervon ist das Liveserver-Leserecht (permissionLiveServerRead). Die entsprechende Zone enthält die Namen aller Gruppen, denen dieses Recht erteilt wurde. Bei Dokumenten, die keiner Zugriffsbeschränkung unterliegen, wird die Zone noPermissionLiveServerRead mit dem Inhalt free indiziert.

In Suchanfragen kann man mit dem Operator IN gezielt nach Dokumenten suchen, die den Suchbegriff in einer oder mehreren Zonen enthalten.

Mehrere Parser

Die Search Cartridge unterstützt Suchanfragen in mehreren Formaten. Für jedes Format ist ein sogenannter Parser zuständig. Ein Parser hat die Aufgabe, Eingaben – in diesem Falle Suchanfragen – zu analysieren und in ein allgemeines internes Format umzuwandeln, so dass die der Eingabe entsprechenden Aktionen ausgeführt werden können.

Suchanfragen können als Freitext, in expliziter Syntax oder in einfacher Syntax gestellt werden. Voreingestellt wird der Parser für Anfragen in einfacher Syntax verwendet.

Mit dem Freitext-Parser können Suchanfragen in geschriebener Sprache gestellt werden, d. h. ohne Operatoren zu verwenden (beispielsweise „freiwillige feuerwehr in ländlichen regionen"). Die Search Cartridge wandelt Freitext-Anfragen intern in Suchanfragen um, indem sie unwichtige Wörter wie Artikel, Konjunktionen und Präpositionen (so genannte Stoppwörter) entfernt, und die Besonderheiten der natürlichen Sprache wie Nominalphrasen und die Reihenfolge der Wörter berücksichtigt. (Siehe auch die Informationen zum Operator FREETEXT.)

Anfragen in expliziter oder einfacher Syntax dagegen analysiert die Suchmaschine unter Berücksichtigung von Operatoren, mit denen Suchbegriffe kombiniert werden können. Mehr über die einfache und explizite Syntax sowie die Operatoren erfahren Sie in den Abschnitten Die Syntax der Suchanfragen und Operatoren und Modifikatoren.

Vorverarbeitung und Nachbereitung

Beim Search Engine Server gibt es die Möglichkeit, jede Suchanfrage, die er von einem Client (also auch dem Content Manager oder der Template Engine) erhält, von einem Präprozessor bearbeiten zu lassen, bevor die Anfrage dem Autonomy-Such-Modul übergeben wird. Mit einem solchen Präprozessor ließen sich beispielsweise Suchanfragen um Begriffe oder Operationen erweitern oder nicht gestattete Suchbegriffe aus den Anfragen entfernen. Da die Suchanfrage, die der Präprozessor erhält, das ursprünglich an den Search Engine Server gesendete XML-Dokument ist, muss der Präprozessor in der Lage sein, XML-Dokumente zu verarbeiten.

Analog zur Vorverarbeitung funktioniert die Nachbearbeitung von Suchergebnissen. Hat der Search Engine Server dem Such-Modul eine (gegebenenfalls vorverarbeitete) Suchanfrage übergeben, so liefert das Modul ein Suchergebnis. Dieses Ergebnis kann durch einen Postprozessor bearbeitet werden, um beispielsweise die Liste der gefundenen Dokumente zu erweitern oder zu kürzen oder jeden Treffer mit einem zusätzlichen Dokumentfeld zu versehen, dessen jeweiliger Wert der Postprozessor berechnet hat.

Zeichensätze

Die Search Cartridge arbeitet mit der Zeichenkodierung UTF-8. Damit sie Suchergebnisse (d. h. vor allem die Inhalte von Dokumentfeldern) UTF-8-kodiert ausliefern kann, müssen die indizierten Dokumente ebenfalls diesen Zeichensatz haben. Dies wird vom Content Manager und von der Template Engine sichergestellt.