| DETECT LANGUAGE |
|
DETECTLANGUAGE (DL) ist eine Spezialfunktion innerhalb der linguistic engine EXTRAKT . Mit dieser Funktion wird zu einem Textstück die Sprache dieses Textes bestimmt. Diese Aufgabe wird durch eine beschleunigte EXTRAKT - Analyse der Texte erreicht. Es kann nach den durch EXTRAKT unterstützten Sprachen und Unbekannt unterschieden werden. Mehrere Parameter erlauben eine Feinabstimmung hinsichtlich des Einsatzgebietes. DETECTLANGUAGE ist mit EXTRAKT dort im Einsatz, wo mehrsprachige Dokumente verarbeitet werden, also etwa in Bibliotheksdaten - sofern sie mehrsprachig sind -, es wird aber auch eingesetzt zur Sprachklassifikation (Sprachidentifikation) von e-mails. Eine Spezialanwendung ist das Zerlegen von Domain-Namen und die Identifizierung der Sprache der jeweiligen Teile. Unser System dafür heißt DOM-SPLITTER und wir eingesetzt bei der Bestimmung der Sprache einer Domain. Gleichzeitig wird der Domain-Namen zerlegt in die Teile des Namens. So kann der Domain-Name im Hinblick auf eine eventuelle Verwertung klassifiziert werden. Durch den Einsatz aller Wörterbücher aller Sprachen von EXTRAKT (mit zusammen etwa 3,7 Mio. Wortformen) für die Zerlegung und dem Aufruf der DL wird dies möglich. Es können ca. 10 Domains pro Sekunde analysiert werden. |