ist eine Spezialfunktion innerhalb der linguistic engine EXTRAKT. Mit dieser Funktion wird zu einem Textstück die Sprache dieses Textes bestimmt.
Diese Aufgabe wird durch eine morphologische Analyse der Texte erreicht. Es kann nach den durch EXTRAKT unterstützten Sprachen und "Unbekannt" unterschieden werden. Mehrere Parameter erlauben eine
Feinabstimmung hinsichtlich des Einsatzgebietes.
DETECTLANGUAGE ist mit EXTRAKT dort im Einsatz, wo mehrsprachige Dokumente verarbeitet werden, also etwa in Bibliotheksdaten - sofern sie mehrsprachig sind -, es wird aber auch eingesetzt zur
Sprachklassifikation (Sprachidentifikation) von e-mails.
Eine Spezialanwendung ist das Zerlegen von Domain-Namen und die Identifizierung der Sprache der jeweiligen Teile.
Unser System dafür heißt DOM-SPLITTER und wird eingesetzt bei der Bestimmung der Sprache einer Domain. Gleichzeitig wird der Domain-Name zerlegt in die Teile des Namens. So kann der
Domain-Name im Hinblick auf eine eventuelle Verwertung klassifiziert werden.
Durch den Einsatz aller Wörterbücher aller Sprachen von EXTRAKT (mit zusammen etwa 3,7 Mio. Wortformen) für die Zerlegung und dem Aufruf der DL-Funktion wird dies möglich. Es können ca. 10 Domains
pro Sekunde analysiert werden.