Stammformreduktion 2

Veröffentlicht von Jens am 31. Juli 2008

Als Stammformreduktion bezeichnet man im Information Retrieval ein Verfahren, mit dem verschiedene Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden. So sollen bei einer Suche nach test auch Ergebnisse zu finden sein, die zum Beispiel die Begriffe tested, tests oder testing enthalten.

Zur Stammformreduktion gibt es unterschiedliche Algorithmen für verschiedene Sprachen. Die Entwicklung eines Algorithmus zur Stammformreduktion ist eine experimentelle Wissenschaft, da dieser nicht mathematisch verifiziert werden kann, sondern an realen Texten getestet werden muss.

Man verfolgt mit der Stammformreduktion zwei Ziele:

  1. Durch das Zusammenführen verschiedener Wortformen zu einem Wort tritt dieses tendenziell häufiger auf. Es sollten deshalb mehr Dokumente bei einem Suchbegriff gefunden werden.
  2. Durch die Zusammenführung verschiedener Wortformen zu Einem, werden Listen mit Verweisstrukturen auf die zu indizierenden Dokumente kleiner, da weniger Wörter verwaltet werden müssen.

Stammformreduktion ist immer sprachenabhängig, da je nach Sprache unterschiedliche grammatikalische Regeln für Wortkomposition, Flexion und das Hinzufügen von Affixen (Präfix, Suffix und Infix) gelten, die unterschiedliche Algorithmen erfordern.