|
Oft wird behauptet, statistische Verfahren seien für Suchverfahren besser geeignet als
linguistische Ansätze. Gemeint sind hierbei Verfahren, die die Verteilung von Information
berechnen. Diese statistischen Verfahren beruhen auf der Berechnung der Häufigkeit bzw. der
Wahrscheinlichkeit des Vorkommens eines Ausdrucks, während der Einzel- oder Sonderfall nicht
betrachtet wird - denn er ist statistisch irrelevant.
Doch gerade diese Fälle sind sehr häufig: ein Begriff kommt also nur einmal vor, aber
zahlreiche Begriffe tun dies und können auch relevante Informationen enthalten. Ist ein ausreichend
großer Datenbestand vorhanden, in dem gesucht wird, und steckt eine gesuchte Information gerade in
einer nur einmal vorkommenden Wendung im Text, so ist diese Information für ein
statistisches / probabilistisches Verfahren nicht auffindbar und somit verloren.
Die Linguisten bezeichnen diese Fälle als Hapax.
Was ist ein Hapax, oder genauer gesagt ein Hapax legomenon?
Der griechische Ausdruck bedeutet, das, was nur einmal gesagt wurde und nur einmal in einem Korpus vorkommt.
Geht man davon, wie es etwa unsere Kollegen von PERTIMM tun, daß 50% der Information in solchen
Hapax enthalten sind, weiß man auch, was statistische Systeme nicht leisten können...
Daß eine linguistische Suche auch das einzelne Vorkommen eines Ausdrucks finden kann,
steht außer Zweifel.
TEXTEC Software
|