|
Unsere riesigen lexikografischen Datenmengen können auch eingesetzt werden, um ein
'Stemming' zu realisieren.
Mit 'Stemming' bezeichnet man die Zurückführung eines Wortes auf seinen Stamm. Etwa die Beziehung
von 'gehen' zu dem Stamm 'geh', oder 'Tages' zu 'Tag'. Diese Zurückführung wird zumeist nur mit Listen
von Silben bzw. Endungen durchgeführt: die Endung wird einfach vom Wort abgeschnitten und der Rest ist
eben der Stamm.
Für Sprachen, die über wenige Varianten eines Wortes verfügen, wie beispielsweise das Englische,
ist das Ergebnis zufriedenstellend. Für Sprachen mit einer reichen Morphologie reicht dies natürlich
nicht: immer dann, wenn ein Wort Stammänderungen hat, werden die Stammvarianten nicht erkannt.
Ein Wort wie Haus hat eben neben dem Singularstamm 'Haus' noch den Pluralstamm 'Häus'
(für Häuser, Häusern, häuslich...).
Um dieses Problem zu lösen, kann man die Generate-Funktion von EXTRAKT einsetzen:
es werden alle Formen erzeugt, allerdings werden diejenigen ausgefiltert, die den selben Anfang haben.
Also zu Holz die Formen 'Holz' und 'Hölzer', zu 'Baum' auch 'Bäume' aber nicht 'Bäumen'.
Diese Funktion wird etwa bei der Suche über das Protokoll Z39.50 verwendet, denn die
Targets (das sind die Adressen, in denen gesucht wird) lassen u.U. nur eine sehr kleine Anzahl
von Suchbegriffen zu. Durch das linguistische Stemming von EXTRAKT wird ein Blockieren der
Kommunikation zwischen Z-Client und Z-Target vermieden.
Home
|