Funktionen der Linguistic Engine EXTRAKT



EXTRAKT enthält die Funktionen:

* DETECT LANGUAGE
    Damit wird die Sprache eines Textes bestimmt. Auch in schwierigen Typen von Texten,
    etwa wenn deutsche und englische Begriffe gemischt sind, erreicht diese Funktion ca. 95% korrekte Ergebnisse.

* INDEX / ANALYZE / INDEX2
    Diese 3 Funktionen analysieren den Text. Die Funktion INDEX liefert die Grundformen,
   die Funktion ANALYZE liefert zusätzliche logische Operatoren, die die Grundformen miteinander verbinden
(etwa bei Kompositateilen).
    Die Funktion INDEX2 segmentiert den Text nach Sätzen und liefert im Sinne einer
    Named Entity Extraction
    Personen, Eigennamen (Firmen, Institutionen, Produkte), geografische Bezeichnungen und Datumsangaben.

* GENERATE
    Die GENERATE - Funktion erzeugt zu einer Grundform (Lemma) alle morphologischen Varianten.
Durch einen Parameter kann die Generieung auf unterschiedliche Stämme beschränkt werden (was einem stemming entspricht).
   

* TRANSLATE
    Die TRANSLATE - Funktion übersetzt Grundbegriffe von einer Sprache in eine andere Sprache.
    Liste der Sprachen.

* SYNONYM
    Die SYNONYM - Funktion liefert zu einem Begriff Synonyme, assoziierte Begriffe und Ableitungen (Derivationen).
* THESAURUS
    Die THESAURUS - Funktion liefert zu einem Begriff übergeordnete oder untergeordnete Begriffe.
* TRAPHO
    Die TRAPHO - Funktion liefert zu einem Begriff seine phonetische Repräsentation.



All diese Funktionen liegen in der Server - Version als auch in der API von EXTRAKT vor.

Bei der Integration von EXTRAKT in die HitEngine ist grö&slig;te Geschwindigkeit notwendig. Hierzu haben wir eine weitere Funktion namens EXTRAKT4HE entwickelt, die eine Lemmatisierung und eine Generierung der Wortvarianten durchführt, wobei eine Geschwindigkeit von über 31.000 Wörtern pro Sekunde erreicht wird.



TEXTEC Software