Die linguistic engine EXTRAKT ist in dem Suchportal LexxiNet (früher ExtraktSearch) integriert und sorgt für optimale Suchergebnisse.

LexxiNet (deutsch)
 

DETECT LANGUAGE (DL) & DOM-SPLITTER

ist eine Spezialfunktion innerhalb der linguistic engine EXTRAKT. Mit dieser Funktion wird zu einem Textstück die Sprache dieses Textes bestimmt.

Diese Aufgabe wird durch eine morphologische Analyse der Texte erreicht. Es kann nach den durch EXTRAKT unterstützten Sprachen und "Unbekannt" unterschieden werden. Mehrere Parameter erlauben eine Feinabstimmung hinsichtlich des Einsatzgebietes.

DETECTLANGUAGE ist mit EXTRAKT dort im Einsatz, wo mehrsprachige Dokumente verarbeitet werden, also etwa in Bibliotheksdaten - sofern sie mehrsprachig sind -, es wird aber auch eingesetzt zur Sprachklassifikation (Sprachidentifikation) von e-mails.



Eine Spezialanwendung ist das Zerlegen von Domain-Namen und die Identifizierung der Sprache der jeweiligen Teile.
Unser System dafür heißt DOM-SPLITTER und wird eingesetzt bei der Bestimmung der Sprache einer Domain. Gleichzeitig wird der Domain-Name zerlegt in die Teile des Namens. So kann der Domain-Name im Hinblick auf eine eventuelle Verwertung klassifiziert werden.
Durch den Einsatz aller Wörterbücher aller Sprachen von EXTRAKT (mit zusammen etwa 3,7 Mio. Wortformen) für die Zerlegung und dem Aufruf der DL-Funktion wird dies möglich. Es können ca. 10 Domains pro Sekunde analysiert werden.

Druckversion | Sitemap
© 1995-2024 TEXTEC Software Dr. Erwin Stegentritt