|
EXTRAKT
enthält die Funktionen:
* DETECT LANGUAGE
Damit wird die Sprache eines Textes bestimmt. Auch in schwierigen Typen von Texten,
etwa wenn deutsche und englische Begriffe gemischt sind, erreicht diese Funktion ca. 95% korrekte Ergebnisse.
* INDEX / ANALYZE / INDEX2
Diese 3 Funktionen analysieren den Text. Die Funktion INDEX liefert die Grundformen,
die Funktion ANALYZE
liefert zusätzliche logische Operatoren, die die Grundformen miteinander verbinden
(etwa bei Kompositateilen).
Die Funktion INDEX2 segmentiert den Text nach Sätzen und liefert im Sinne einer
Named Entity Extraction
Personen, Eigennamen (Firmen, Institutionen, Produkte), geografische Bezeichnungen und Datumsangaben.
* GENERATE
Die GENERATE - Funktion erzeugt zu einer Grundform (Lemma) alle morphologischen Varianten.
Durch einen Parameter kann die Generieung auf unterschiedliche Stämme beschränkt werden
(was einem stemming entspricht).
* TRANSLATE
Die TRANSLATE - Funktion übersetzt Grundbegriffe von einer Sprache in eine andere Sprache.
Liste der Sprachen.
* SYNONYM
Die SYNONYM - Funktion liefert zu einem Begriff Synonyme, assoziierte Begriffe und Ableitungen (Derivationen).
* THESAURUS
Die THESAURUS - Funktion liefert zu einem Begriff übergeordnete oder untergeordnete Begriffe.
* TRAPHO
Die TRAPHO - Funktion liefert zu einem Begriff seine phonetische Repräsentation.
All diese Funktionen liegen in der Server - Version als auch in der API von EXTRAKT vor.
Bei der Integration von EXTRAKT in die HitEngine ist grö&slig;te Geschwindigkeit notwendig.
Hierzu haben wir eine weitere Funktion namens EXTRAKT4HE entwickelt, die eine Lemmatisierung und
eine Generierung der Wortvarianten durchführt, wobei eine Geschwindigkeit von über 31.000 Wörtern pro Sekunde
erreicht wird.
TEXTEC Software
|