Phonetic engine TRAPHO

trapho

TRAPHOheißt die phonetische Suche für EXTRAKT - es ist ein eigenständiger Server, doch kann die phonetische Funktion auch in Form einer Bibliothek für eine enge Integration in ein anderes System geliefert werden.

Bei der Suche nach Namen, deren Schreibweise man nicht genau kennt - oder die aufgrund eines Schreibfehlers anders geschrieben sind -, können ähnlich geschriebene (ähnlich klingende) Namen gefunden werden.

Wenn beispielsweise nach dem Namen Kournikova gesucht wird, der Benutzer aber Cornigowa eingibt, so wird dieser Treffer mit TRAPHO dennoch gefunden. Deutschland kann gefunden werden, auch wenn im Dokument etwa teutschland oder duutschland steht. Die Wörter (oder Eigennamen) werden durch die in TRAPHO enthaltenen (ca. 100 - 200) Regeln pro Sprache in eine abstrakte Repräsentation überführt und diese wird mit der Repräsentation der Wörter/Namen, in denen gesucht wird, verglichen.

In TRAPHO unterscheidet nach Sprachen, denn die Grundidee in TRAPHO ist, daß die Schreibweise von der Sprache des Suchenden abhängt. Deshalb gibt es verschiedene Regelpakete für die jeweilige Sprache.

Ein deutscher Sprecher wird einen Namen, den er gehört hat, anders schreiben, als ein englischer Sprecher. Sucht beispielsweise ein deutscher Sprecher nach Achternbusch, so wird er/sie normalerweise auch Achternbusch bei der Suche eingeben. Ein englischer Sprecher aber wird vielleicht Ekternbush eingeben, denn so oder so ähnlich wird der Name im Englischen ausgesprochen.

Deshalb gibt es TRAPHO in verschiedenen Sprachversionen (Deutsch, Französisch, Englisch, Latein, Italienisch, Niederländisch, Norwegisch und Spanisch).

TRAPHO ist in C++ geschrieben und es ist deshlab sehr schnell und vermutlich das schnellste System für eine unscharfe Suche.

Es gibt zwei unterschiedliche Striktheitsgrade für die phonetische Transkription, um unterschiedliche Suchräume zu eröffnen.

Vorgeschaltet zu eigentlichen Transformationsphase ist eine Reinigungsphase ('purification' genannt), in der bestimmte Zeichen aus dem Wort, sofern es sich um Eigennamen handelt, entfernt werden und in der Ersetzungen von Namensvarianten (Kurznamen, Spitznamen) mithilfe von Regeln möglich sind.

Eine Gegenüberstellung der verschiedenen Suchresultate zeigt, welche Möglichkeiten die phonetic engine TRAPHObietet.

Auf AQ-Verlag ist TRAPHO im Einsatz für eine phonetische Suche, mit deutschen Regeln.

TRAPHO ist im Einsatz bei der Bewertung von Markennamen auf dem Recherche-Portal www.tulex.de.

Zur Fußballweltmeisterschaft 2006 konnte man in www.lexiquo.net die Stars über TRAPHO suchen, auch wenn man nicht genau wußte wie etwa Zidane oder Beckham oder Rooney oder... geschrieben wurden. TRAPHO findet auch Sisu, oder Bäckhäm oder Runie!

Wir haben TRAPHO auch mit den Namen der Deutschen Bundesligaspieler der Saison 2003-2004 getestet.


TRAPHO ist die phonetische Komponente in unserem BESTWORD-Server, in dem durch eine Kombination von phonetischer Suche und graphematischer Suche die wahrscheinlichsten Treffer auch bei sehr abweichender Schreibung gefunden werden. Gleichzeitig werden die Resultate gewichtet, so daß nur bestimmte wahrscheinliche Kandidaten geliefert werden.

Ein Demonstrator kann unter http://lexilib.de/index_traphodemo.html getestet werden. Insbesondere wird der Effekt der unterschiedlichen Regelpakete deutlich.


TEXTEC Software