Eine Herausforderung besonderer Art ist die Analyse von Domain-Namen: sie sind oftmals aus verschiedenen Teilen kombiniert, die aus unterschiedlichen Sprachen stammen können.
Um den Wert eines Domain-Namens bestimmen zu können, ist es jedoch notwendig, die Sprache des Namens und dessen Teile zu wissen.
Für diese Aufgabe haben wir den DOM-SPLITTER entwickelt.
Er verbindet den EXTRAKT - Silben-Server und die Standard EXTRAKT Linguistic Engine.
Der Sillben-Server dient dazu, den Domain-Namen in (existierende) Wortteile zu zerlegen. Der Standard EXTRAKT-Server hat die Aufgabe, die erkannten Wortteile zu bewerten und deren Sprache zu erkennen.
Aus den möglichen Zerlegungen wird die wahrscheinlichste Lösung berechnet und zu dieser Lösung wird die Sprache aller Teile bestimmt - es kann durchaus auch "unbekannte Sprache" als Resultat erscheinen.
Der DOM-SPLITTER unterscheidet nach allen Sprachen, die EXTRAKT zur Verfügung stellt.
Pro Minute werden mehrere 1000 Domain-Namen analysiert.
Die Problematik im Einzelnen:
Ein Name wie beispielsweise www.boycott-the-british-museum.info ist einfach zu analysieren. Doch bereits eine Variante wie www.boycottmuseum.info ist viel schwieriger, da beide Teile (Boycott+Museum) Wörter aus der englischen und der deutschen Sprache sind. Ähnlich ist es mit www.sexfilm.com bestellt. Heißt es www.sex.film.de so kann durch die Länderkennzeichnung auf Deutsch geschlossen werden.
Es kommt auch vor, daß mehrere Zerlegungen möglich sind: www.saladefiesta.com könnte zerlegt werden in salade+fiesta. Wahrscheinlicher ist aber sala+de+fiesta (Festsaal), vor allem wenn die Länderkennzeichnung auf ein spanisch-sprachiges Land schließen läßt .
Da viele Domains sich auf pornografische Inhalte beziehen, mußten die EXTRAKT-Wörterbücher auch um ganz besondere Wörter ergänzt werden..