Die linguistic engine EXTRAKT ist in dem Suchportal LeXXiNet (früher ExtraktSearch) integriert und sorgt für optimale Suchergebnisse.

LeXXiNet (deutsch)
 

Sprachen

EXTRAKT unterstützt die folgenden Sprachen und Sprachpaare:

  • Deutsch
  • Dänisch (nur für LanguageDetect)
  • Englisch
  • Französisch
  • Italienisch
  • Latein
  • Niederländisch
  • Polnisch
  • Portugiesisch
  • Spanisch


Die einsprachigen Wörterbücher decken einen allgemeinen Wortbestand ab, der ausreicht, beliebige nicht-fachsprachliche Texte zu analysieren. Die Größe dieser Wörterbücher variiert von ca. 500.000 Einträgen bis zu mehr als 2 Millionen Einträgen. Insgesamt verfügt EXTRAKT über 7 Mio. Einträge (d.h. die Summe aller Einträge aus allen einsprachigen Wörterbüchern).

 

Fachsprachliche und private Wörterbücher können diesen Bestand ergänzen.

Die mehrsprachigen Wörterbücher sind ebenfalls allgemeinsprachig orientiert; auch hier ergänzen fachsprachliche Spezialwörterbücher den Bestand. Zu nennen sind die Bereiche Wirtschaft, Psychologie und Umwelt.
Wie auf einsprachiger Ebene kann EXTRAKT auch auf mehrsprachiger Ebene durch private Wörterbücher ergänzt werden. Durch mehrere Parameter können die Wörterbücher auf die jeweilige Anwendung angepasst werden, etwa um die Sequenz der eingeschalteten Wörterbücher zu hierarchisieren.

 

Aus allen diesen Sprachen kann ins Englische übersetzt werden. Zusätzlich gibt es eine direkte Übersetzung Deutsch-Französisch und Deutsch-Italienisch.

 

Überblick über die Einträge in den Wörterbüchern

Sprache Simplex-Formen Mehrwort-Begriffe
Deutsch* 2.450.000 11.200
Englisch

168.400

170.200
Französisch

396.600

25.900
     
Dänisch 28.100 0
Spanisch 467.700 42.400
Italienisch 1.398.600 14.100
Latein 56.300 100
Niederländisch** 184.000 6.200
Polnisch 709.000 0
Portugiesisch 825.600 2.300 

 

* Darin enthalten sind ca. 450.000 Komposita-Grundformen. Das ergibt ca. 1,5 Millionen flektierte Komposita-Formen.

Unbekannte Wörter werden durch einen Zerlegungsalgorithmus erkannt.

 

** Niederländisch besitzt ebenfalls einen Zerlegungsalgorithmus plus ein Komposita-Wörterbuch von ca. 15.000 Einträgen (= 30.000 Wortformen).

 

Druckversion Druckversion | Sitemap
© 1995-2022 TEXTEC Software Dr. Erwin Stegentritt