DETECT LANGUAGE (DL) ist die Voraussetzung für eine korrekte Behandlung von Texten, denn je nach Sprache werden verschiedene Wörterbücher geladen und unterschiedliche Programme ausgeführt.
DETECT LANGUAGE untersucht portionsweise die Texte und berechnet die wahrscheinlichste Sprache, oder identifiziert sie als "Unbekannt".
Die Liste der erkannten Sprachen entspricht den im System geladenen Wörterbücher.
Das Problem der Sprachenerkennung erscheint trivial. Doch das ist es durchaus nicht, wenn man etwa daran denkt, daß sehr oft Textstücke aus verschiedenen Sprachen auftauchen.
So ist es nicht verwunderlich, daß etwa Google das Wort "Haeuser" als Englisch einstuft - erst die Schreibung "Häuser" bringt die richtige Lösung (10.6.2013) - ein Hinweis darauf, dass eine rein statistische Strategie nicht immer zum Ziel führt.
Google hat dazu gelernt.... (28.2.2020).