DETECT LANGUAGE


DETECTLANGUAGE (DL) ist eine Spezialfunktion innerhalb der linguistic engine EXTRAKT . Mit dieser Funktion wird zu einem Textstück die Sprache dieses Textes bestimmt.

Diese Aufgabe wird durch eine beschleunigte EXTRAKT - Analyse der Texte erreicht. Es kann nach den durch EXTRAKT unterstützten Sprachen und Unbekannt unterschieden werden. Mehrere Parameter erlauben eine Feinabstimmung hinsichtlich des Einsatzgebietes.

DETECTLANGUAGE ist mit EXTRAKT dort im Einsatz, wo mehrsprachige Dokumente verarbeitet werden, also etwa in Bibliotheksdaten - sofern sie mehrsprachig sind -, es wird aber auch eingesetzt zur Sprachklassifikation (Sprachidentifikation) von e-mails.



Eine Spezialanwendung ist das Zerlegen von
Domain-Namen und die Identifizierung der Sprache der jeweiligen Teile.
Unser System dafür heißt
DOM-SPLITTER und wir eingesetzt bei der Bestimmung der Sprache einer Domain. Gleichzeitig wird der Domain-Namen zerlegt in die Teile des Namens. So kann der Domain-Name im Hinblick auf eine eventuelle Verwertung klassifiziert werden.
Durch den Einsatz aller Wörterbücher aller Sprachen von
EXTRAKT (mit zusammen etwa 3,7 Mio. Wortformen) für die Zerlegung und dem Aufruf der DL wird dies möglich. Es können ca. 10 Domains pro Sekunde analysiert werden.

TEXTEC Software