Neue Analysemöglichkeiten in EXTRAKT
Durch eine Reihe weiterer Wörterbuchformate bietet EXTRAKT zusätzliche Möglichkeiten einer linguistischen Analyse des Deutschen.
Es handelt sich hierbei um morphologische Angaben, die bei einer normalen Suche im Internet nicht benötigt werden, die jedoch für eine Analyse von Texten durchaus interessant sind.
Die morphologischen Angaben sind – zusätzlich zu den Wortklassenangaben – folgende Informationen:
GENUS, NUMERUS, KASUS für nicht-verbale Wortklassen
und
PERSON, NUMERUS, TEMPUS, MODUS für verbale Wortklassen.
Diese Angaben können als Profil bei einer Analyse geliefert werden oder sie können gezielt zur Generierung der Wortvarianten eingesetzt werden.
Der Nutzen dieser Angaben für weiterführende Analysen, etwa für eine Syntax-Analyse, liegt auf der Hand.
Bei der Generierung kann gezielt eine bestimmte Form aufgrund des gesamten Profils oder aufgrund einer einzelnen Angabe aus dem Profil ausgewählt werden.
Beispielsweise kann für die Erzeugung von korrekten Wortgruppen aus Adjektiv und Substantiv die jeweils richtige Form des Adjektivs bestimmt werden: rote Haus, rotes Haus, roten Hauses, rotem Haus, roten Haus, rote Häuser, roter Häuser, roten Häusern.
So wird es möglich, die Generierung von mehrdeutigen Substantiven durch eine Genus-Angabe zu steuern: Leiter feminin: die Leiter, der Leiter, die Leitern, der Leitern / Leiter maskulin: der Leiter, des Leiters, die Leiter, den Leitern.
-10.6.2013-
Linguistische Suche in Bibliotheken - Europeana
Die linguistische Suche in Bibliotheken haben wir versuchsweise auch auf die EUROPEANA ausgeweitet. Zwar ist die EUropeana eine wichtige und verdienstvolle Entwicklung in der Bibliotheks- und Archiv-Welt, doch ist die Suche unterdurchschnittlich.
Durch die Linguistik-gestützte Suche verbessern wir das Angebot:
http://www.extraktserver.de/lexilib_result505.html oder über www.extraktserver.de suchen und LEXILIB anklicken.
-5.4.2013-
Ähnlichkeiten
Für die Suche nach offenen Stellen benötigt man die Relationen der Berufe untereinander, um ähnliche Berufe (offene Stellen) zu finden.
Mithilfe der Synonyme von EXTRAKT wurde ein semantisches Wörterbuch der Berfusähnlichkeiten halb-automatisch erzeugt.
Damit erhält der Suchende auch Angebote, nach denen nicht gesucht wurde, die aber durchaus für ihn/sie in Frage kommen.
-21.02.2013-
INDEX2 und SUMUP Diese beiden Funktionen dienen dazu, eine Extraktion der Named Entities zu realisieren, etwa um unterschiedliche Datumsangaben (aus verschiedenen Sprachen und mit verschiedenen Formaten) zu erkennen und zu vereinheitlichen. SUMUP baut auf den Resultaten von INDEX2 auf und bestimmt die relevantesten Sätze eines Textstückes. Beispiele finden sich unter http://textec.de/sumup/sumup-resultate/
-11.12.2012-
Wörterbuch - Updates
Die Wörterbücher sind das Herz der Linguistic Engine - deshalb werden sie ständig erweitert und gepflegt.
Das englische Wörterbuch wurde durch den Abgleich mit dem deutsch-englischenÜbersetzungswörterbuch (ca. 250.000 Einträge) ergänzt und umfaßt ca. 237.000 Einträge, die Hälfte davon sind Mehrwort-Begriffe.
14.11.2012-
DYM ist der Name für unseren Server für eine unscharfe Suche. DYM2 ist eine neue Version, die eine per XML definierbare Input-Struktur besitzt. Dadurch kann auf unterschiedliche Bedingungen flexibel reagiert werden. - Ein aktuelles Beispiel ist die Suche nach Adress-Dubletten.
DYM2 kombiniert eine graphematische Distanz-Berechnung (entsprechend der Levensthein-Distanz) mit einer lautlichen Ähnlichkeitsberechnung (durch den TRAPHO-Server).
Mehr unter DYM2.
-01.03.2012-
An Extrakt werden immer wieder neue Anforderungen gestellt, die entsprechende Erweiterungen zur Folge haben.
In der jetzt verfügbaren Version 3.20 ist es möglich, die Komposita in einer besonderen Struktur zu liefern. Sie besteht darin, die Grundform (Lemma) des Kompositums plus die einzelnen Teile ins Resultat einzutragen (ohne die logische Verbindung zwischen dem Lemma und den Teilen). Dies erlaubt den direkten Einsatz der Resultate für einen Index.
Für Schweizerdeutsch kann durch einen Parameter die hochdeutsche Variante umgewandelt werden in die schweizerdeutsche Schreibweise.
-19.11.2011-
Extrakt hilft bei der Aufbereitung von Daten für die HitEngine: Wortvarianten werden durch Extrakt erzeugt und in den Index der HitEngine eingetragen. Dadurch kann die HitEngine Auch Vorschläge zu gesuchten Wörtern liefern, deren Wortstämme unterschiedlich sind oder es können Wortteile bei Komposita (Deutsch oder Niederländisch) gefunden werden.
In einer neuen Installation werden nun (neben Deutsch) auch die Sprachen Englisch, Französisch, Italienisch, Niederländisch und Spanisch hinzugefügt.
Weitere Details finden sich unter www.weitkamper.de.
-9.9.2011-
DOM-SPLITTER, das System, welches Domain-Namen und deren Teile linguistisch analysiert, wird in der neuen Version V4 ausgeliefert. Domain-Namen mischen oft verschiedene Sprachen und Kürzel, so dass es sehr schwer ist, die Sprache der Domain und der Teile zu bestimmen.
Durch verbesserte Regeln und erweiterte Wörterbücher ist DOM-SPLITTER um 4 - 6% präziser als die vorangehende Version. Dies wird durch eine umfangreichere Regelmenge und Erweiterungen der Wörterbücher erreicht.
-18.5.2011-
LexiFon sucht in der Wikipedia. Hierbei wird gleichzeitig nach ähnlich geschriebenen (klingenden) Begriffen gesucht. Der Vergleich geht über die Personennamen der Wikipedia und geografische Bezeichnungen (Ortnamen, Ländernamen).
Lexifon nutzt die Phonetic Engine TRAPHO und LexiQuo.
-11.4.2011-
SumUP ergänzt das Angebot durch EXTRAKT: SumUp erzeugt Zusammenfassungen von Texten und liefert die relevantesten Sätze.
-21.1.2011-
JSON und MultiKomp
Mit der aktuellen Version 3.16 besitzt EXTRAKT eine JSON - Schnittstelle, wodurch die Integration in andere Systeme erleichtert wird.
Für die INDEX-Funktion gibt es die Möglichkeit ein weiteres Komposita-Lexikon zuzuschalten, das Zerlegungsvarianten enthält. Beispiel: Atomkraftwerk Das Kompositum kann zerlegt werden in Atomkraft -
Werk und Atom - Kraftwerk.
Das MultiKomp genannte Wörterbuch liefert nun auch die zweite mögliche Zerlegung. Dadurch wird die durch diese Funktion gelieferte Indexliste verbessert.
-19.09.2010-
Die LinguisticEngine EXTRAKT wird ergänzt durch die SemanticEngine EXTRAKT:
Mit der SemanticEngine werden semantisch-relevante Begriffe aus Texten extrahiert.
Eine Anwendung besteht darin, aus Kurznachrichten die wichtigsten Begriffe zu identifizieren und sie als Resultat zu liefern.
-20.06.2010-
Die Version 3.12 von EXTRAKT bietet neue Funktionen:
* THESAURUS: durch semantische Relationen verbundene Begriffe können gesucht und ausgefiltert werden.
* TRAPHO: die phonetische Transformation ist in die EXTRAKT integriert. Es ist die selbe Funktionalität, wie sie die phonetic engine TRAPHO anbietet.
* GENERATE: die Generate-Funktion wurde durch einen neuen Parameter erweitert. Dadurch kann die Generierung reduziert werden auf die Erzeugung von Formen, die unterschiedliche Stämme haben. Beispiel:
Stuhl erzeugt nicht mehr Stuhls, Stühle, Stühlen, sondern nur noch Stuhl + Stühle.
-16.01.2010-
Das TRAPHO-System wird als Beispiel einer sprachabhängigen phonetischen Suche in der deutschen Wikipedia genannt. (Aktuelle Version anklicken!).
-16.10.2009-
Für unsere heutige Welt ist Englisch die wichtigste Verkehrssprache. Doch bis in die Neuzeit hatte diese Rolle das Latein inne. Und so gibt es - besonders in den Bibliotheken - eine riesige Menge von
lateinischen Büchern.
Deshalb wurde auf dem LexiLib-Portal nun auch eine Suche in Latein integriert.
Das Lateinwörterbuch ist zwar noch klein, es wird aber nach und nach aufgefüllt werden.
Versuchen Sie doch auch eine Suche unter http://lexilib.de/index_libgateway.html, denn dort werden die linguistischen Resultate gezeigt, so dass Sie die Arbeit der linguistischen Komponente verfolgen
können.
-25.09.2009-
Die HitEngine von Weitkämper Technology integriert TEXTEC's linguistic engine EXTRAKT und die phonetic engine TRAPHO.
Dadurch wird es möglich, mit der HitEngine auch unscharfe Suchen durchzuführen und die Suche durch die Fähigkeiten unserer linguistischen Lösungen noch weiter zu verbessern.
-03.09.2009-
Für den 98. Deutschen Bibliothekartag in Erfurt haben wir die mehrsprachige Suche in LEXILIB um eine Suche in dem Bibliothekenverbund Österreich / Südtirol ergänzt.
Dieser Dienst wird angeboten von unserem Partner DABIS in Wien.
Die Bibliothek in Bozen verfügt vor allem Titel in den Sprachen Deutsch und Italienisch, weshalb dieses Sprachpaar für eine mehrsprachige Suche besonders relevant ist.
-28.05.2009-
Die phonetische Suche mit dem TRAPHO - Server ist auf AQ-Verlag hinzugefügt. Die Suche startet automatisch nach der Eingabe des 3. Buchstabens.
Die Suche ist eine Ähnlichkeitssuche und somit werden Treffer auch dann gefunden, wenn sie nur ähnlich lauten.
-14.04.2009-
Eine neue EXTRAKT-Komponente wurde entwickelt, um die Arbeit mit der Linguistic Engine weiter zu vereinfachen und den Einsatz zu beschleunigen:
EXTRAKT-I.
EXTRAKT-I bezeichnet eine integrierte EXTRAKT-Anwendung, in der die EXTRAKT-API genutzt wird. EXTRAKT-I stellt alle linguistischen Funktionen bereit, die auf den Inhalt einer (Eingabe-) Datei
angewendet werden. Die Steuerung geschieht über eine Konfigurationsdatei, in der festgelegt wird, welche Felder der Input-Datei mit welchen EXTRAKT-Funktionen bearbeitet werden sollen. Da eine
Kommunikation zwischen Client und Server entfällt, wird eine noch höhere Geschwindigkeit erreicht, als mit der Server-Version.
EXTRAKT-I ist 2 bis 10 mal schneller als die Server - Version.
-12.02.2009-
Die Fachhochschule Köln, Institut für Informationswissenschaft, setzt die Nutzung von EXTRAKT fort und hat die Funktion INDEX2 (zur Named Entity Extraction) und EXTRAKT-I lizenziert.
Prof. Klaus Lepsky sagt dazu: "Durch Extrakt-i ist die Nutzung und Konfiguration von EXTRAKT deutlich vereinfacht und verbessert worden! Extrakt-i ist die Lösung, um beliebige Daten (...) rasch in
die Indexierung zu schicken"
-20.03.2009-
Eine neue EXTRAKT-Komponente wurde entwickelt, um die Arbeit mit der Linguistic Engine weiter zu vereinfachen und den Einsatz zu beschleunigen:
EXTRAKT-I.
EXTRAKT-I bezeichnet eine integrierte EXTRAKT-Anwendung, in der die EXTRAKT-API genutzt wird. EXTRAKT-I stellt alle linguistischen Funktionen bereit, die auf den Inhalt einer (Eingabe-) Datei
angewendet werden. Die Steuerung geschieht über eine Konfigurationsdatei, in der festgelegt wird, welche Felder der Input-Datei mit welchen EXTRAKT-Funktionen bearbeitet werden sollen. Da eine
Kommunikation zwischen Client und Server entfällt, wird eine noch höhere Geschwindigkeit erreicht, als mit der Server-Version.
EXTRAKT-I ist 2 bis 10 mal schneller als die Server - Version.
-12.02.2009-
Die Mehrsprachigkeit von EXTRAKT stützt sich, wie auch Übersetzungssysteme, auf Übersetzungswörterbücher. In ihnen werden den Begriffen aus der einen Sprache die Übersetzungen aus der anderen Sprache (der Zielsprache) zugeordnet.
Diese multilinguale Komponente von EXTRAKT wird eingesetzt, wenn eine Suche nicht nur in einer, sondern in zwei oder mehreren Sprachen durchgeführt werden soll.
Typisches Anwendungsgebiet ist die mehrsprachige Suche in Bibliothekskatalogenoder in Dokumentensammlungen, wie etwa der Wikipedia.
Die Wörterbücher von EXTRAKT werden ständig gepflegt und ergänzt.
Das Deutsch-Englische Wörterbuch enthält nun 200.000 Einträge (ein Zuwachs von ca. 40.000 Übersetzungen seit dem letzten Update).
Wörterbuch - Updates
Die Wörterbücher sind das Herz der Linguistic Engine - deshalb werden sie ständig erweitert und gepflegt.
Das deutsche Wörterbuch enthält nun ca. 2,7 Millionen Einträge.
Das englische Wörterbuch wurde durch den Abgleich mit dem deutsch-englischenÜbersetzungswörterbuch (ca. 250.000 Einträge) ergänzt und umfaßt ca. 237.000 Einträge, die Hälfte davon sind Mehrwort-Begriffe.
Wörterbuch - Updates
Die Wörterbücher sind das Herz der Linguistic Engine - deshalb werden sie ständig erweitert und gepflegt.
Das deutsche Wörterbuch enthält nun ca. 2,7 Millionen Einträge.
INDEX2 und SUMUP
Diese beiden Funktionen dienen dazu, eine Extraktion der Named Entities zu realisieren, etwa um unterschiedliche Datumsangaben (aus verschiedenen Sprachen und mit verschiedenen Formaten) zu erkennen und zu vereinheitlichen.
SUMUP baut auf den Resultaten von INDEX2 auf und bestimmt die relevantesten Sätze eines Textstückes. Beispiele finden sich unter http://textec.de/sumup/sumup-resultate/
Für die Suche nach offenen Stellen benötigt man die Relationen der Berufe untereinander, um ähnliche Berufe (offene Stellen) zu finden.
Mithilfe der Synonyme von EXTRAKT wurde ein semantisches Wörterbuch der Berfusähnlichkeiten halb-automatisch erzeugt.