Die Geschwindigkeit von EXTRAKT



Neben der Qualität der linguistischen Funktionen ist natürlich die Geschwindigkeit der Verarbeitung ein wichtiges Kriterium.

Die Geschwindigkeit hängt von den verschiedenen Parametern ab, mit denen EXTRAKT gesteuert werden kann und auch von dem Typ der Eingabe.

Die Server - Version ist notgedrungen langsamer als die integrierte Version (API), da hierbei der Netzwerk-Transport entfällt - die API - Version (per DLL oder shared objects) ist um den Faktor 10 schneller als die Server - Version.

Einfluß auf die Geschwindigkeit hat auch der bearbeitete Text, etwa wie häufig die algorithmische Komposita-Zerlegung benötigt wird...

Hier sind einige Zahlen, die zeigen, daß EXTRAKT zu den schnellsten "engines" gehört, die es gibt.

Die Zahlen in der Tabelle zeigt die Messungen für einen Intel Core Dual Rechner mit 2,2 GHz Taktfrequenz mit der Server-Version von EXTRAKT unter Windows 7.

Index-Funktion
mit Komposita-Zerlegung
und Mehrworterkennung
1 Wort pro Zeile
alle Komposita sind im Wörterbuch enthalten
ca. 1.000 Wörter/sek.




Die Zahlen in der Tabelle zeigt die Messungen für einen Pentium 4 Rechner mit 2,7 GHz Taktfrequenz mit der integrierten Version unter Windows XP.

Index-Funktion
mit Komposita-Zerlegung
und Mehrworterkennung
Mehrere Wörter pro Zeile
ca. 5.600 Wörter/sek.


Die Funktionen innerhalb der EXTRAKT - API erreichen für die HitEngine folgende Geschwindigkeit:

Index-Funktion
mit Komposita-Zerlegung
und Erzeugen von Wortvarianten
Ein Wort pro Zeile
ca. 31.700 Wörter/sek.


TEXTEC Software