Veröffentlicht von Jens
am 02. August 2008
Eine Suchmaschine ist eine Software, die Verfahren des Information Retrieval implementiert. Sie dient zur Informationsfilterung von Dateien, die in einem Computersystem abgelegt sind. Eine Suchmaschine erstellt einen Index für die Datenbasis, um Suchanfragen für jeden Suchbegriff mit einer nach Relevanz geordneten Ergebnisliste zu beantworten. Dieser Index ist vergleichbar mit einem Index-Objekt eines Datenbanksystems. Nach Eingabe eines Suchbegriffes zeigt die Suchmaschine eine Liste mit Verweisen auf relevante Dokumente. Meistens werden die Suchergebnisse mit dem Titel des Dokuments und einem mit dem Suchbegriff enthaltenen Auszug aus dem Dokument dargestellt. Suchmaschinen haben drei wesentliche Aufgabenbereiche:
- Generierung, Aktualisierung und Optimierung einer Datenstruktur mit Informationen über die zu durchsuchenden Dokumente. Diese Datenstruktur wird Index genannt.
- Verarbeitung der Suchanfragen und ordnen der Ergebnisse anhand der Relevanz des indizierten Dokumentes zum Suchbegriff.
- Aufbereitung und Darstellung der Ergebnisse in einer Form, die vor allem den Kriterien: Erwartungskonformität, Aufgabenangemessenheit und Selbstbeschreibungsfähigkeit entspricht.
Nach der von Jakob Nielson erstellten und zuletzt im Jahr 2007 aktualisierten Liste mit den zehn schlimmsten Fehlern im Webdesign ist eine schlechte Suche der zurzeit am Häufigsten gemachte Fehler auf Webseiten. In Search: Visible and Simple beschreibt Jakob Nielsen die Gründe, warum Anwender Suchfunktionen auf Webseiten erwarten. Diese sind:
- Anwender wollen nicht die Navigation einer Seite benutzen. Sie wollen nur das finden, was sie interessiert.
- Die Suche bietet einen Ausweg wenn sich die Anwender in der Navigationsstruktur verloren fühlen und nicht weiter wissen.
Daraus ergibt sich, dass auf größeren Webauftritten eine Suchmaschine, aus Gesichtspunkten der Usability, ein unverzichtbarer Bestandteil ist. Jedoch ist die Implementierung einer Volltextsuchmaschine und die sinnvolle Gewichtung der zu durchsuchenden Inhalte sehr aufwendig.
Veröffentlicht von Jens
am 31. Juli 2008
Als Stammformreduktion bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden. So sollen bei einer Suche nach test auch Ergebnisse zu finden sein, die zum Beispiel die Begriffe tested, tests oder testing enthalten.
Zur Stammformreduktion gibt es unterschiedliche Algorithmen für verschiedene Sprachen. Die Entwicklung eines Algorithmus zur Stammformreduktion ist eine experimentelle Wissenschaft, da dieser nicht mathematisch verifiziert werden kann, sondern an realen Texten getestet werden muss.
Man verfolgt mit der Stammformreduktion zwei Ziele:
- Durch das Zusammenführen verschiedener Wortformen zu einem Wort tritt dieses tendenziell häufiger auf. Es sollten deshalb mehr Dokumente bei einem Suchbegriff gefunden werden.
- Durch die Zusammenführung verschiedener Wortformen zu Einem, werden Listen mit Verweisstrukturen auf die zu indizierenden Dokumente kleiner, da weniger Wörter verwaltet werden müssen.
Stammformreduktion ist immer sprachenabhängig, da je nach Sprache unterschiedliche grammatikalische Regeln für Wortkomposition, Flexion und das Hinzufügen von Affixen (Präfix, Suffix und Infix) gelten, die unterschiedliche Algorithmen erfordern.
Veröffentlicht von Jens
am 21. Juli 2008
Information Retrieval (IR) ist ein Fachgebiet der Informatik, das die inhaltliche Suche nach Informationen in Dokumentensammlungen untersucht und Modelle, Methoden und Verfahren dafür entwickelt. Der Begriff Information Retrieval wurde 1950 von dem amerikanischen Informatikpionier Calvin Northrup Mooers geprägt. Es existiert keine eindeutige Definition des Begriffes. Die Fachgruppe Information Retrieval der Gesellschaft für Informatik beschreibt den Begriff folgendermaßen:
Im Information Retrieval (IR) werden Informationssysteme in Bezug auf ihre Rolle im Prozess des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe „Information Retrieval“ in der Gesellschaft für Informatik beschäftigt sich dabei schwer- punktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, dass die Antwort a priori nicht eindeutig definiert ist. [...] Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinne die Effektivität des Systems in Bezug auf die Unterstützung des Benutzers bei der Lösung seines Anwendungsproblems beurteilt werden sollte (Gesellschaft für Informatik).
Diese Definition ist sehr allgemein gehalten. Es wird die Vagheit oder Unschärfe betont. Zur Bewertung soll die Nützlichkeit herangezogen werden. Es wird also versucht, aus gespeichertem Wissen in Form einer Datenbasis den Informationsbedarf eines Benutzers zu befriedigen. Dabei spezifiziert der Benutzer eine Anfrage, die die erwartete Antwort nur grob charakterisieren muss. Das IR-System versucht dann diejenigen Informationen in der Datenbasis ausfindig zu machen, die Relevanz für diese Anfrage aufweisen. Dabei können eventuell mehrere Benutzerinteraktionen notwendig sein, bis ein endgültiges Ergebnis vorliegt. Zur Bewertung der Ergebnisse hinsichtlich ihrer Relevanz ist ein Bewertungsverfahren nötig, mit dem sich die Qualität der Ergebnisse feststellen lässt.