Die linguistic engine EXTRAKT ist in dem Suchportal LexxiNet (früher ExtraktSearch) integriert und sorgt für optimale Suchergebnisse.

LexxiNet (deutsch)
 

Mit dem SilbenServer EXTRAKT korrekt Silben trennen

Die Silben eines Wortes zu erkennen erscheint zunächst ganz einfach: zwischen den einzelnen Silben eines Wortes wird getrennt!



 

Im Wahrig steht dazu:

 

"Mehrsilbige einfache und abgeleitete Wörter (...) werden nach Sprechsilben aufgeteilt.

Zusammengesetzte Wörter und Wörter mit einem Präfix werden in erster Linie nach Bestandteilen abgeteilt, diese wieder nach Sprechsilben." [Wahrig. Deutsches Wörterbuch, Gütersloh, 1997, 6. Auflage, S. 123]



 

Das bedeutet, dass sich die Trennung danach richtet, welches Wort vorliegt: zusammensetzte Wörter müssen auseinander genommen werden, und die Bestandteile werden wie einfache Wörter nach Sprechsilben getrennt.

 

Es muss aber festgestellt werden, ob es sich um Zusammensetzungen handelt oder nicht und auch, wo die Teile zusammentreffen.

Das ist dann doch nicht mehr so einfach, denn es handelt sich um die deutsche Sprache - eine schwierige Sprache. Sie hat die Besonderheit, dass Wörter (fast) beliebig neu gebildet und zusammengeschrieben werden können - im Fachjargon heißt das: das Deutsche hat die Fähigkeit, Komposita ad hoc zu bilden.

 

So kann man zwar Regeln für die Silbenstruktur aufstellen und danach die Silbentrennung durchführen, doch genau bei den Komposita beginnen die Probleme. Man kann nicht alle Komposita voraussehen und in Listen speichern.

 

Deshalb nutzen wir unsere linguistic engine EXTRAKT zur Silbentrennung; sie enthält ein deutsches Wörterbuch mit ungefähr 2,7 Mio. Einträgen. Hinzu kommt ein Namenswörterbuch mit ca. 30.000 Einträgen. Dies sind unsere "Ausnahmen", die in den meisten Fällen die Regel sind. EXTRAKT kann zusätzlich unbekannte (deutsche) Wörter zerlegen, und zwar genau an der Stelle, an der die Wortteile zusammenstoßen. Erst diese Fähigkeit erlaubt es, korrekt die zusammengesetzten Wörter zu trennen.

So ist das Kernstück des SilbenServers eine umfassende linguistische Analyse.

Dadurch liefert unser SilbenServer bessere Resultate.

 


Interessant ist diese Anwendung für die Präsentation von Texten auf kleinen Displays, um lange Wörter gut leserlich umzubrechen.

 

Genauso wichtig ist das Erkennen der Silbengrenzen für Sprach-Systeme, in denen etwa Texte vorgelesen werden: die korrekte Betonung eines Wortes hängt von der Silbenstruktur ab. Deshalb muß dem System die entsprechende Information mitgeteilt werden, was bei neugebildeten Komposita besonders schwierig, aber mit EXTRAKT möglich ist.

Druckversion | Sitemap
© 1995-2024 TEXTEC Software Dr. Erwin Stegentritt