EXTRAKT ist die "Linguistic Engine", die eine (morpho-syntaktische) Analyse verschiedener (europäischer) Sprachen durchführen kann.
Das heißt im Wesentlichen, die Grundform(en) eines Wortes wird/werden erkannt oder alle Flexionsformen werden aus der Grundform abgeleitet.
Eine Grundform ist eine Wortform, die für die verschiedenen Formen desselben Wortes steht. Beispielsweise ist Haus die Grundform für Haus, Hauses, Hause, Häuser und
Häusern. Gehen ist die Grundform für alle Formen dieses Tätigkeitsworts, gehen steht also für gehe, gehst, geht, ging, gegangen, etc.
Für das Deutsche haben wir ein Wörterbuch mit 2,5 Millionen Einträgen aufgebaut, einschließlich einer großen Menge von Komposita mit ihren Zerlegungen (1,6 Mio Formen aus 450.000 Grundformen). Hinzu
kommen Spezialwörterbücher, die z.B. nicht-umgelautete Formen enthalten (Haeuser statt Häuser, ca. 620.000 Wörter).. Das bedeutet, dass mehr als 3,2 Mio. deutsche Wortformen vorhanden sind. Für die
anderen Sprachen gibt es ebenfalls Spezial-Wörterbücher, etwa ein Wörterbuch mit französischen Einträgen, in denen die Akzentzeichen fehlen (also methode für méthode).
Grundformen können von einer in eine andere Sprache übersetzt werden, so dass eine mehrsprachige Suche ermöglicht wird. EXTRAKT verfügt zur Zeit über einen Bestand von
zweisprachigen Wörterbüchern, die jeweils 60.000 bis 240.000 Einträge enthalten.
Als Spezialwörterbücher sind lexikographische Bestände aus den Bereichen Wirtschaft, Umwelt und Psychologie verfügbar.
Für das Deutsche haben wir ein Wörterbuch mit 150.000 Begriffen aus Wortfamilien und ca. 120.000 Synonymen erstellt.
Ein Spezialfall ist das Maskulin-Feminin-Wörterbuch, das eine Relation zwischen maskulinen und femininen Formen enthält. Dadurch wird zu einer weiblichen Form auch die männlich Grundform
geliefert, etwa "Botschafterinnen" liefert neben Botschafterin auch Botschafter.
Der mehrsprachige EUROVOC - Thesaurus der Europäischen Kommission ist integriert.
Private Wörterbücher können vom Kunden selbst angelegt und ohne Programmierung in das System eingefügt werden.
EXTRAKT wurde mit der Generierungsfunktion GENERATE erweitert. Damit können die Varianten eines gegebenen Wortes erzeugt
werden. Also kann das Wort Haus (Nominativ Singular) eingegeben werden und GENERATE erzeugt daraus die flektierten Formen Hause, Hauses, Häuser und
Häusern - und wenn die Umlautwörterbücher zugeschaltet sind noch die Formen Haeuser, Haeusern.
Auch für die anderen Sprachen ist diese Funktion verfügbar. Dabei werden die selben Wörterbücher benutzt, die auch die Funktionen zur Analyse benutzen.
EXTRAKT existiert als C++-DLL und als TCP/IP-Server (EXTRAKT - Server).
Die C++-DLL kann direkt in Client-Programme eingebunden werden.
Mit dem EXTRAKT - Server kommuniziert der Client über ein proprietäres Protokoll. Anfragen können direkt in diesem Protokoll als Strings formuliert werden. JSON-Format
ist ebenfalls möglich.
Zum Kennenlernen kann man die mehrsprachige Metasuche in Extraktsearch angeschaut werden: (www.extraktsearch.de). Damit kann die
Leistungsfähigkeit der linguistischen Komponente getestet werden.
EXTRAKT ist verfügbar für Windows und Linux..
Die Wörterbücher sind ohne Neukompilierung auf allen diesen Systemen lauffähig.
Ab Version 3.16 besitzt EXTRAKT eine JSON - Schnittstelle.
Für die Version 5.0 existiert eine JAVA-Komponente mit den Funktionen: INDEX und GENERATE.
Aktuelle Version ist 12b Release: b01 (März 2021)
Das System ist leicht zu konfigurieren, um es an besondere Anwendungen anzupassen: so können beliebige (auch private) Wörterbücher hinzugefügt werden. Es können Synonym - Wörterbücher und Thesauri
eingebunden werden. Wörterbücher können hierarchisch oder nicht-hierarchisch definiert werden. Im Request, der an EXTRAKT geschickt wird, kann angegeben werden, welche
Wörterbücher eingeschlossen oder ausgeschlossen werden sollen.