Die linguistic engine EXTRAKT ist in dem Suchportal LexxiNet (früher ExtraktSearch) integriert und sorgt für optimale Suchergebnisse.

LexxiNet (deutsch)
 

Nutzen von EXTRAKT


Weshalb ist es sinnvoll und sogar notwendig, eine 'linguistic engine' wie EXTRAKT einzusetzen?

Nehmen wir als Beispiel ein einfaches deutsches Wort: Kampf, so stellt man fest, daß es aufgrund der Deklination noch einige Varianten gibt, und zwar:

  • Kampfe, Kampfes und Kampfs    für den Singular und
  • Kämpfe und Kämpfen                   für den Plural.


Für die statistische Häufigkeit, also die Frequenz der verschiedenen Formen, gilt:

die einfachen Wortvarianten der Singularformen stehen im Verhältnis 10:4 bis 10:6 zu den Pluralformen. Das bedeutet, dass einer normalen Suche mit einer einzigen Form ca. 40 - 60% zusätzlicher Treffer entgehen können...

Zur Verdeutlichung hier ein Überblick über die Resultate einer Suche mit und ohne EXTRAKT . Den jeweiligen Wortformen sind Treffer aus einer Internet - Suche (vom 5. und 6. Oktober 2003 in www.scoutmaster.de) gegenübergestellt.

Es wird hier einmal angenommen (was oft nicht zutrifft) daß mit dem Suchwort "Kampf" auch die Varianten im Singular gefunden werden (also Kampf, Kampfe, Kampfes, Kampfs).
Den Resultaten aus dieser "Singular"-Suche sind die Suchresultate mit den Pluralformen (also Kämpfe, Kämpfen)

 

 

KAMPF

33.153

KAMPFe

241

KAMPFes

2.166

KAMPFs

39

 

 

Summe

35.600

 

100%

KÄMPFE

3.087

KÄMPFEn

11.113

 

 

Summe

14.200

Zuwachs

+40%



Ein anderes Beispiel sei hier zitiert - mit dem Wort "Abfall" und seinen Varianten:

 

ABFALL

14.819

ABFALLe

22

ABFALLs

287

 

 

Summe

14.868

 

100%

 

 

ABFÄLLE

7.191

ABFÄLLEn

2.272

 

 

Summe

9.463

Zuwachs

+63%



Hält man sich diese Zahlen vor Augen, so versteht man leicht, wieso der Suchende oft den Eindruck gewinnt, die Suche sei erfolgreich, wenn tausende von Treffern gefunden werden. Doch was ist mit den nicht gefundenen Treffern? Nur das ungute Gefühl des Suchenden, dass da noch mehr sein müsste, bringt ihn oder sie dazu, weiterzusuchen.

Doch durch eine linguistische Unterstützung wird eine Suche effizienter und einfacher. Deshalb können Nutzer von Suchsystemen, die EXTRAKT integriert haben, sagen, dass eine Beschleunigung von ungefähr 40% bei der Suche erreicht wurde.

Heißt es nicht treffend 'Zeit ist Geld' ?!

Aber setzen wir das Beispiel fort und schränken die Suche ein durch den Begriff "gemeinsam". Das ergibt

GEMEINSAM + KAMPF = 44 Treffer = 100%

Das Ergebnis von über 200% bezieht sich auf die Resultate mit den beiden Begriffen "gemeinsam" und "Kampf". Bezogen auf die Suche mit den Singular-Formen der beiden Begriffe (die man auch mit Wildcard in etwa erreichen könnte) beträgt der Gewinn an Treffern noch + 4%.

Nehmen wir nun das Beispiel Abfall wieder auf und ergänzen den Suchbegriff durch nuklear.

Gehen wir davon aus, daß mit Wildcards gearbeitet wird, d.h. es werden die Wörter gesucht, die mit nuklear bzw. Abfall beginnen. Damit würden die Singular-Varianten gefunden, zusammen für unsere Test-Suche 6 Treffer - die Pluralvarianten mit Abfälle natürlich nicht, denn in der Pluralform steckt ein Umlaut.

Wird mit der Pluralform gesucht, so gehen automatisch die Singularvarianten verloren:

so oder so bringt die Benutzung unserer linguistic engine EXTRAKT einen Zugewinn um die Hälfte oder mehr.

 

GEMEINSAMe

KAMPF

28

GEMEINSAMer

KAMPF

13

GEMEINSAMen

KAMPF

54

GEMEINSAMem

KAMPF

2

GEMEINSAMen

KAMPFes

4

GEMEINSAMen

KAMPFs

0

 

 

 

Summe

 

101

 

 

 

GEMEINSAMe

KäMPFe

0

GEMEINSAMen

KäMPFe

1

GEMEINSAMen

KäMPFen

3

GEMEINSAMer

KäMPFe

0

 

 

 

Summe

 

105

Ergebnis

 

+238%



Dies sind nur einige wenige Beispiele, die den Nutzen einer linguistischen Komponente verdeutlichen.

Weitere Probleme bei der Suche stellen sich durch die Komposita-Bildung im Deutschen (und Niederländischen), d.h. die Möglichkeit, Begriffe zusammenzuschreiben, wie beispielsweise Terroristenbekämpfung.

Nur wenn der Begriff auch korrekt zerlegt wird, können zusätzliche relevante Treffer gefunden werden.

Für das Deutsche und das Niederländische ist dieses Phänomen bedeutsam, denn es ist ein produktives Sprachmittel, das einen kontinuierlichen Strom von Neubildungen erzeugt.

Nehmen wir wieder ein Beispiel und Suchergebnisse vom 6.10.2003 in www.sueddeutsche.de. Der Suchbegriff ist Terroristenbekämpfung. Die Suche im gesamten Bestand liefert einen Treffer. Wird der Suchbegriff in seine Bestandteile Terrorist und Bekämpfung zerlegt und wird mit beiden Termini gesucht, so ergeben sich 19 weitere Treffer, wobei der Treffer aufgrund der Kompositasuche darin enthalten ist.

Hier ein Textbeispiel eines Treffers, der dadurch erzielt wurde:

"Er hätte den Juristen erklärt, wie im Kampf gegen die Terroristen zum erstenmal in der Kriminalgeschichte Täter überführt wurden, ohne dass der Zeugenbeweis eine Rolle spielte"

und im selben Text:

"Die Geschichte davon, wie sich einer die RAF-Bekämpfung "wie eine Rechenaufgabe" vorgenommen hat".

Druckversion | Sitemap
© 1995-2024 TEXTEC Software Dr. Erwin Stegentritt