EXTRAKT unterstützt die folgenden Sprachen und Sprachpaare:
Die einsprachigen Wörterbücher decken einen allgemeinen Wortbestand ab, der ausreicht, beliebige nicht-fachsprachliche Texte zu analysieren. Die Größe dieser Wörterbücher variiert von ca. 500.000
Einträgen bis zu mehr als 2 Millionen Einträgen. Insgesamt verfügt EXTRAKT über 7 Mio. Einträge (d.h. die Summe aller Einträge aus allen einsprachigen Wörterbüchern).
Fachsprachliche und private Wörterbücher können diesen Bestand ergänzen.
Die mehrsprachigen Wörterbücher sind ebenfalls allgemeinsprachig orientiert; auch hier ergänzen fachsprachliche Spezialwörterbücher den Bestand. Zu nennen sind die Bereiche Wirtschaft, Psychologie
und Umwelt.
Wie auf einsprachiger Ebene kann EXTRAKT auch auf mehrsprachiger Ebene durch private Wörterbücher ergänzt werden. Durch mehrere Parameter können die Wörterbücher auf die jeweilige Anwendung angepasst
werden, etwa um die Sequenz der eingeschalteten Wörterbücher zu hierarchisieren.
Aus allen diesen Sprachen kann ins Englische übersetzt werden. Zusätzlich gibt es eine direkte Übersetzung Deutsch-Französisch und Deutsch-Italienisch.
Sprache | Simplex-Formen | Mehrwort-Begriffe |
Deutsch* | 2.450.000 | 11.200 |
Englisch |
168.400 |
170.200 |
Französisch |
396.600 |
25.900 |
Dänisch | 28.100 | 0 |
Spanisch | 467.700 | 42.400 |
Italienisch | 1.398.600 | 14.100 |
Latein | 56.300 | 100 |
Niederländisch** | 184.000 | 6.200 |
Polnisch | 709.000 | 0 |
Portugiesisch | 825.600 | 2.300 |
* Darin enthalten sind ca. 450.000 Komposita-Grundformen. Das ergibt ca. 1,5 Millionen flektierte Komposita-Formen.
Unbekannte Wörter werden durch einen Zerlegungsalgorithmus erkannt.
** Niederländisch besitzt ebenfalls einen Zerlegungsalgorithmus plus ein Komposita-Wörterbuch von ca. 15.000 Einträgen (= 30.000 Wortformen).