|
TRAPHOheißt die phonetische Suche für
EXTRAKT - es ist ein eigenständiger Server, doch kann die
phonetische Funktion auch in Form einer Bibliothek für eine enge Integration in ein anderes System geliefert
werden.
Bei der Suche nach Namen, deren Schreibweise man nicht genau kennt - oder die aufgrund eines Schreibfehlers
anders geschrieben sind -, können ähnlich geschriebene (ähnlich klingende) Namen gefunden werden.
Wenn beispielsweise nach dem Namen Kournikova gesucht wird, der Benutzer aber Cornigowa eingibt,
so wird dieser Treffer mit TRAPHO dennoch gefunden. Deutschland
kann gefunden werden, auch wenn im Dokument etwa teutschland oder duutschland steht. Die Wörter
(oder Eigennamen) werden durch die in TRAPHO enthaltenen
(ca. 100 - 200) Regeln pro Sprache in eine abstrakte Repräsentation überführt und diese wird mit der Repräsentation
der Wörter/Namen, in denen gesucht wird, verglichen.
In TRAPHO unterscheidet nach Sprachen, denn die Grundidee
in TRAPHO ist, daß die Schreibweise von der Sprache des Suchenden abhängt. Deshalb gibt es
verschiedene Regelpakete für die jeweilige Sprache.
Ein deutscher Sprecher wird einen Namen, den er gehört hat, anders schreiben, als ein englischer Sprecher.
Sucht beispielsweise ein deutscher Sprecher nach Achternbusch, so wird er/sie normalerweise
auch Achternbusch bei der Suche eingeben. Ein englischer Sprecher aber wird vielleicht
Ekternbush eingeben, denn so oder so ähnlich wird der Name im Englischen ausgesprochen.
Deshalb gibt es TRAPHO in verschiedenen Sprachversionen
(Deutsch, Französisch, Englisch, Latein, Italienisch, Niederländisch, Norwegisch
und Spanisch).
TRAPHO
ist in C++ geschrieben und es ist deshlab sehr schnell und vermutlich das schnellste System für eine
unscharfe Suche.
Es gibt zwei unterschiedliche Striktheitsgrade für die phonetische Transkription, um unterschiedliche
Suchräume zu eröffnen.
Vorgeschaltet zu eigentlichen Transformationsphase ist eine Reinigungsphase ('purification' genannt),
in der bestimmte Zeichen aus dem Wort, sofern es sich um Eigennamen handelt, entfernt werden und in
der Ersetzungen von Namensvarianten (Kurznamen, Spitznamen) mithilfe von Regeln möglich sind.
Eine Gegenüberstellung der verschiedenen Suchresultate zeigt, welche Möglichkeiten die phonetic engine
TRAPHObietet.
Auf
AQ-Verlag
ist TRAPHO im Einsatz für eine phonetische Suche, mit deutschen Regeln.
TRAPHO
ist im Einsatz bei der Bewertung von Markennamen auf dem Recherche-Portal
www.tulex.de.
Zur Fußballweltmeisterschaft 2006 konnte man in
www.lexiquo.net
die Stars über TRAPHO suchen, auch wenn man nicht genau
wußte
wie etwa Zidane oder Beckham oder Rooney oder... geschrieben wurden.
TRAPHO
findet auch Sisu, oder Bäckhäm oder Runie!
Wir haben
TRAPHO
auch mit den Namen der Deutschen Bundesligaspieler der Saison 2003-2004 getestet.
TRAPHO ist die phonetische Komponente in unserem
BESTWORD-Server, in dem durch eine Kombination von
phonetischer Suche
und graphematischer Suche die wahrscheinlichsten Treffer auch bei sehr abweichender Schreibung gefunden werden.
Gleichzeitig werden die Resultate gewichtet, so daß nur bestimmte wahrscheinliche Kandidaten geliefert werden.
Ein Demonstrator kann unter
http://lexilib.de/index_traphodemo.html
getestet werden. Insbesondere wird der Effekt der unterschiedlichen Regelpakete deutlich.
|