Mehr über die Linguistic Engine EXTRAKT


EXTRAKT ist die "Linguistic Engine", die eine (morpho-syntaktische) Analyse verschiedener (europäischer) Sprachen durchführen kann.

Das heißt im Wesentlichen, die Grundform(en) eines Wortes wird/werden erkannt oder alle Flexionsformen werden aus der Grundform abgeleitet.

Eine Grundform ist eine Wortform, die für die verschiedenen Formen desselben Wortes steht. Beispielsweise ist Haus die Grundform für Haus, Hauses, Hause, Häuser und Häusern. Gehen ist die Grundform für alle Formen dieses Tätigkeitsworts, gehen steht also für gehe, gehst, geht, ging, gegangen, etc.

Für das Deutsche haben wir ein Wörterbuch mit mehr als 1,5 Millionen Einträgen aufgebaut. Hinzu kommen Spezialwörterbücher, die z.B. nicht-umgelautete Formen enthalten (Haeuser statt Häuser), ein Wörterbuch mit Zerlegungen von deutschen Komposita (mehr als 1 Million Einträge), ein Wörterbuch mit französischen Einträgen, in denen die Akzente fehlen (also methode für méthode) etc.

Grundformen können von einer in eine andere Sprache übersetzt werden, so daß eine mehrsprachige Suche ermöglicht wird. EXTRAKT verfügt zur Zeit über einen Bestand von zweisprachigen Wörterbüchern, die jeweils 60.000 bis 170.000 Einträge enthalten.

An der Ergänzung dieser Wörterbücher wird ständig gearbeitet.

Als Spezialwörterbücher sind lexikographische Bestände aus den Bereichen Wirtschaft, Umwelt und Psychologie verfügbar.

Für das Deutsche haben wir ein Wörterbuch mit 150.000 Begriffen aus Wortfamilien und ca. 90.000 Synonymen erstellt.

Der mehrsprachige EUROVOC - Thesaurus der Europäischen Kommission ergänzt das Angebot.

Private Wörterbücher können vom Kunden selbst angelegt und sehr leicht in das System eingefügt werden.



EXTRAKT wurde mit der Generierungsfunktion GENERATE erweitert. Damit können die Varianten eines gegebenen Wortes erzeugt werden. Also kann das Wort Haus (Nominativ Singular) eingegeben werden und GENERATE erzeugt daraus die flektierten Formen Hause, Hauses, Häuser und Häusern - und wenn die Umlautwörterbücher zugeschaltet sind noch die Formen Haeuser, Haeusern.

Auch für die anderen Sprachen ist diese Funktion verfügbar. Dabei werden die selben Wörterbücher benutzt, die auch die Funktionen zur Analyse benutzen.

Der Nutzen dieser Funktion besteht darin, daß der Index der Daten, in denen gesucht wird, nicht verändert werden muß, um bessere Resultate zu erhalten.



EXTRAKT existiert als einfache C++-DLL, als TCP/IP-Server (EXTRAKT - Server).

Die C++-DLL kann direkt in Client-Programme eingebunden werden.

Mit dem EXTRAKT - Server kommuniziert der Client über ein einfaches Protokoll. Anfragen können direkt in diesem Protokoll als Strings formuliert werden.



TEXTEC bietet zudem spezielle Schnittstellen-Module für verschiedene Plattformen, die die Kommunikation mit dem Server vereinfachen, so daß der Anwender sich nicht mit dem Aufbau des Protokolls auseinandersetzen muß.





EXTRAKT ist verfügbar für Windows-, Linux- oder Solaris-Systeme. Eine Portierung auf HP-Unix ist geplant.

Die Wörterbücher sind ohne Neukompilierung auf allen diesen Systemen lauffähig.

Eine SOAP-Schnittstelle ist im Projekt CULTOS für EXTRAKT entwickelt worden.

Aktuelle Version ist 3.14 Release: b01 (August 2010)

Das System ist leicht zu konfigurieren, um es an besondere Anwendungen anzupassen: so können beliebige (auch private) Wörterbücher hinzugefügt werden. Es können Synonym - Wörterbücher und Thesauri eingebunden werden. Wörterbücher können hierarchisch oder nicht-hierarchisch definiert werden. Im Request, der an EXTRAKT geschickt wird, kann angegeben werden, welche Wörterbücher eingeschlossen oder ausgeschlossen werden sollen.

TEXTEC Software