Was ist ein Hapax?



Oft wird behauptet, statistische Verfahren seien für Suchverfahren besser geeignet als linguistische Ansätze. Gemeint sind hierbei Verfahren, die die Verteilung von Information berechnen. Diese statistischen Verfahren beruhen auf der Berechnung der Häufigkeit bzw. der Wahrscheinlichkeit des Vorkommens eines Ausdrucks, während der Einzel- oder Sonderfall nicht betrachtet wird - denn er ist statistisch irrelevant.

Doch gerade diese Fälle sind sehr häufig: ein Begriff kommt also nur einmal vor, aber zahlreiche Begriffe tun dies und können auch relevante Informationen enthalten. Ist ein ausreichend großer Datenbestand vorhanden, in dem gesucht wird, und steckt eine gesuchte Information gerade in einer nur einmal vorkommenden Wendung im Text, so ist diese Information für ein statistisches / probabilistisches Verfahren nicht auffindbar und somit verloren.

Die Linguisten bezeichnen diese Fälle als Hapax.

Was ist ein Hapax, oder genauer gesagt ein Hapax legomenon?

Der griechische Ausdruck bedeutet, das, was nur einmal gesagt wurde und nur einmal in einem Korpus vorkommt.

Geht man davon, wie es etwa unsere Kollegen von PERTIMM tun, daß 50% der Information in solchen Hapax enthalten sind, weiß man auch, was statistische Systeme nicht leisten können...

Daß eine linguistische Suche auch das einzelne Vorkommen eines Ausdrucks finden kann, steht außer Zweifel.

TEXTEC Software