|
TEXTEC Software entwickelt die
linguistic engine EXTRAKT.
EXTRAKT
ist ein umfassendes System linguistischer und statistischer
Funktionen für
* das Erkennen von Grundformen (Lemmatisierung mit Komposita-Zerlegung) ,
* das Erzeugen von Wortvarianten aus einer Grundform (Generierung und stemming),
* die Zuordnung von Synonymen und Ableitungen (Wortfamilie),
* den Zugriff auf Thesaurus-Begriffe und ihre Auswahl mithilfe von Thesaurus-Relationen,
* das Übersetzen von Suchbegriffen in andere Sprachen,
* das Erkennen von Satzgrenzen, Wortgruppen und Erkennen von Entitäten
(Named Entity Extraction).
* die TRAPHO - Funktion
Weitere Anwendungen :
Die SemanticEngine erweitert EXTRAKT um eine semantische Komponente und ist dadurch in der Lage,
bestimmte Begriffe aus Texten semantisch, also mit ihrer Bedeutung, zu identifizieren.
Der SilbenServer fügt Silbengrenzen in die Wörter ein. Insbesondere die Kompositazerlegung
sorgt für eine korrekte Trennung von unbekannten oder neuen Wörtern.
Einsatzgebiet des SilbenServers ist die Aufbereitung von Texten für kleine Displays.
BESTWORD führt eine
fehlertolerante Suche durch und ist somit eine Ergänzung zur linguistic engine
EXTRAKT.
Der Abgleich von Personennamen geschieht mit BESTNAME.
Hierbei werden die Überprüfungen von BESTWORD durch mehr als 10 weitere Faktoren bewertet. Dadurch
werden aus Namenslisten mit mehreren Millionen Einträgen in wenigen Minuten ähnliche Namen
identifiziert, bewertet und ausgegeben.
TEXTEC Software
|