Weshalb ist es sinnvoll und sogar notwendig, eine 'linguistic engine' wie EXTRAKT einzusetzen?
Nehmen wir als Beispiel ein einfaches deutsches Wort: Kampf, so stellt man fest, daß es aufgrund der Deklination noch einige Varianten gibt, und zwar:
Für die statistische Häufigkeit, also die Frequenz der verschiedenen Formen, gilt:
die einfachen Wortvarianten der Singularformen stehen im Verhältnis 10:4 bis 10:6 zu den Pluralformen. Das bedeutet, dass einer normalen Suche mit einer einzigen Form ca. 40 - 60% zusätzlicher
Treffer entgehen können...
Zur Verdeutlichung hier ein Überblick über die Resultate einer Suche mit und ohne EXTRAKT . Den jeweiligen Wortformen sind Treffer aus einer Internet - Suche (vom 5. und
6. Oktober 2003 in www.scoutmaster.de) gegenübergestellt.
Es wird hier einmal angenommen (was oft nicht zutrifft) daß mit dem Suchwort "Kampf" auch die Varianten im Singular gefunden werden (also Kampf, Kampfe, Kampfes, Kampfs).
Den Resultaten aus dieser "Singular"-Suche sind die Suchresultate mit den Pluralformen (also Kämpfe, Kämpfen)
KAMPF |
33.153 |
KAMPFe |
241 |
KAMPFes |
2.166 |
KAMPFs |
39 |
|
|
Summe |
35.600 |
|
100% |
KÄMPFE |
3.087 |
KÄMPFEn |
11.113 |
|
|
Summe |
14.200 |
Zuwachs |
+40% |
Ein anderes Beispiel sei hier zitiert - mit dem Wort "Abfall" und seinen Varianten:
ABFALL |
14.819 |
ABFALLe |
22 |
ABFALLs |
287 |
|
|
Summe |
14.868 |
|
100% |
|
|
ABFÄLLE |
7.191 |
ABFÄLLEn |
2.272 |
|
|
Summe |
9.463 |
Zuwachs |
+63% |
Hält man sich diese Zahlen vor Augen, so versteht man leicht, wieso der Suchende oft den Eindruck gewinnt, die Suche sei erfolgreich, wenn tausende von Treffern gefunden werden. Doch was ist mit den
nicht gefundenen Treffern? Nur das ungute Gefühl des Suchenden, dass da noch mehr sein müsste, bringt ihn oder sie dazu, weiterzusuchen.
Doch durch eine linguistische Unterstützung wird eine Suche effizienter und einfacher. Deshalb können Nutzer von Suchsystemen, die EXTRAKT integriert haben, sagen, dass
eine Beschleunigung von ungefähr 40% bei der Suche erreicht wurde.
Heißt es nicht treffend 'Zeit ist Geld' ?!
Aber setzen wir das Beispiel fort und schränken die Suche ein durch den Begriff "gemeinsam". Das ergibt
GEMEINSAM + KAMPF = 44 Treffer = 100%
Das Ergebnis von über 200% bezieht sich auf die Resultate mit den beiden Begriffen "gemeinsam" und "Kampf". Bezogen auf die Suche mit den Singular-Formen der beiden Begriffe (die man auch mit
Wildcard in etwa erreichen könnte) beträgt der Gewinn an Treffern noch + 4%.
Nehmen wir nun das Beispiel Abfall wieder auf und ergänzen den Suchbegriff durch nuklear.
Gehen wir davon aus, daß mit Wildcards gearbeitet wird, d.h. es werden die Wörter gesucht, die mit nuklear bzw. Abfall beginnen. Damit würden die Singular-Varianten gefunden, zusammen für unsere
Test-Suche 6 Treffer - die Pluralvarianten mit Abfälle natürlich nicht, denn in der Pluralform steckt ein Umlaut.
Wird mit der Pluralform gesucht, so gehen automatisch die Singularvarianten verloren:
so oder so bringt die Benutzung unserer linguistic engine EXTRAKT einen Zugewinn um die Hälfte oder mehr.
GEMEINSAMe |
KAMPF |
28 |
GEMEINSAMer |
KAMPF |
13 |
GEMEINSAMen |
KAMPF |
54 |
GEMEINSAMem |
KAMPF |
2 |
GEMEINSAMen |
KAMPFes |
4 |
GEMEINSAMen |
KAMPFs |
0 |
|
|
|
Summe |
|
101 |
|
|
|
GEMEINSAMe |
KäMPFe |
0 |
GEMEINSAMen |
KäMPFe |
1 |
GEMEINSAMen |
KäMPFen |
3 |
GEMEINSAMer |
KäMPFe |
0 |
|
|
|
Summe |
|
105 |
Ergebnis |
|
+238% |
Dies sind nur einige wenige Beispiele, die den Nutzen einer linguistischen Komponente verdeutlichen.
Weitere Probleme bei der Suche stellen sich durch die Komposita-Bildung im Deutschen (und Niederländischen), d.h. die Möglichkeit, Begriffe zusammenzuschreiben, wie beispielsweise
Terroristenbekämpfung.
Nur wenn der Begriff auch korrekt zerlegt wird, können zusätzliche relevante Treffer gefunden werden.
Für das Deutsche und das Niederländische ist dieses Phänomen bedeutsam, denn es ist ein produktives Sprachmittel, das einen kontinuierlichen Strom von Neubildungen erzeugt.
Nehmen wir wieder ein Beispiel und Suchergebnisse vom 6.10.2003 in www.sueddeutsche.de. Der Suchbegriff ist Terroristenbekämpfung. Die Suche im gesamten Bestand liefert einen Treffer. Wird der
Suchbegriff in seine Bestandteile Terrorist und Bekämpfung zerlegt und wird mit beiden Termini gesucht, so ergeben sich 19 weitere Treffer, wobei der Treffer aufgrund der Kompositasuche darin
enthalten ist.
Hier ein Textbeispiel eines Treffers, der dadurch erzielt wurde:
"Er hätte den Juristen erklärt, wie im Kampf gegen die Terroristen zum erstenmal in der Kriminalgeschichte Täter überführt wurden, ohne dass der Zeugenbeweis eine Rolle spielte"
und im selben Text:
"Die Geschichte davon, wie sich einer die RAF-Bekämpfung "wie eine Rechenaufgabe" vorgenommen hat".