Die linguistic engine EXTRAKT ist in dem Suchportal LexxiNet (früher ExtraktSearch) integriert und sorgt für optimale Suchergebnisse.

LexxiNet (deutsch)
 

TRAPHO

heißt die phonetische Suche in EXTRAKT.

Bei der Suche nach Namen, deren Schreibweise man nicht genau kennt - oder die aufgrund eines Schreibfehlers anders geschrieben sind -, können ähnlich geschriebene (ähnlich klingende) Namen gefunden werden.

Wenn beispielsweise nach dem Namen Kournikova gesucht wird, der Benutzer aber Cornigowa eingibt, so wird dieser Treffer mit TRAPHO dennoch gefunden. Deutschland kann gefunden werden, auch wenn im Dokument etwa teutschland oder duutschland steht. Die Wörter (oder Eigennamen) werden durch die in TRAPHO enthaltenen (ca. 100 - 200) Regeln pro Sprache in eine abstrakte Repräsentation überführt und diese wird mit der Repräsentation der Wörter/Namen, in denen gesucht wird, verglichen.

In TRAPHO unterscheidet nach Sprachen, denn die Grundidee in TRAPHO ist, dass die Schreibweise von der Sprache des Suchenden abhängt. Deshalb gibt es verschiedene Regelpakete für die jeweilige Sprache.

Ein deutscher Sprecher wird einen Namen, den er gehört hat, anders schreiben, als ein englischer Sprecher. Sucht beispielsweise ein deutscher Sprecher nach Achternbusch, so wird er/sie normalerweise auch Achternbusch bei der Suche eingeben. Ein englischer Sprecher aber wird vielleicht Ekternbush eingeben, denn so oder so ähnlich wird der Name im Englischen ausgesprochen.

Deshalb gibt es TRAPHO in verschiedenen Sprachversionen (Deutsch, Französisch, Englisch, Latein, Italienisch, Niederländisch, Norwegisch, Spanisch und seit 2020 Griechisch, Arabisch, Türkisch und Isländisch).

Es gibt zwei unterschiedliche Striktheitsgrade für die phonetische Transkription, um unterschiedliche Suchräume zu eröffnen.

Vorgeschaltet zur eigentlichen Transformationsphase ist eine Reinigungsphase ('purification' genannt), in der bestimmte Zeichen aus dem Wort, sofern es sich um Eigennamen handelt, entfernt werden und in der Ersetzungen von Namensvarianten (Kurznamen, Spitznamen) mithilfe von Regeln möglich sind.

Eine Gegenüberstellung der verschiedenen Suchresultate zeigt, welche Möglichkeiten die phonetic engine TRAPHO bietet.


TRAPHO ist die phonetische Komponente in unserem DYM3-Server, in dem durch eine Kombination von phonetischer Suche und graphematischer Suche die wahrscheinlichsten Treffer auch bei sehr abweichender Schreibung gefunden werden. Gleichzeitig werden die Resultate gewichtet, so daß nur bestimmte wahrscheinliche Kandidaten geliefert werden.

Senden Sie uns eine e-mail an stegentritt@textec.de und Sie erhalten eine kostenlose Demo für die Suche in deutschen, österreichsichen und schweizer Ortsnamen.

 

TRAPHO ist ebenfalls verfügbar als Lieferant phonetischer Resultate in der HitEngine.

(www.weitkamper.de).

 

Die TRAPHO-Funktion ist in Lexxinet.de für die Suche nach ähnlichen Namen eingesetzt: die Suchbegriffe werden nach lautlichen Kriterien transformiert und mit einer Liste von Namen aus der Wikipedia abgeglichen.

 

Seit April 2020 gibt es Sprachversionen für Griechisch und für Arabisch.

 

Druckversion | Sitemap
© 1995-2024 TEXTEC Software Dr. Erwin Stegentritt