RRZN/MetaGer

Suchmaschinenlabor
des RRZN,   Universität Hannover

English





Zur
Meta-
Suchmaschine:
MetaGer


Impressum

Forschungs
Portal.net

Uni
Hannover:
HannUFind

SuMa-eV

Mitarbeiter

IntraNet

 
Seit 1995 werden am RRZN Suchmaschinen entwickelt und betrieben. Bekanntestes Ergebnis dieser Arbeiten ist die deutschsprachige Meta-Suchmaschine MetaGer, über die in vielen Publikationen, sowie Rundfunk- und Fernsehsendungen berichtet wurde. Mehrere kurze Aufzeichnungen solcher Fernsehsendungen können Sie auch im Internet sehen. MetaGer ermöglicht aufgrund seines hohen Bekanntheitsgrades und der großen Zugriffszahlen Forschung und Lehre am "lebenden Objekt". Auf den Webseiten des österreichischen Rundfunks können Sie ein Interview zum Thema "metager - eine suchmaschine als forschungsprojekt" nachlesen.

Im Suchmaschinenlabor wurde u.a. auch das Deutsche Forschungsportal http://forschungsportal.net/ im Auftrag des Bundesministerium für Bildung und Forschung, BMBF entwickelt. Ziel ist hier nicht nur die Suchmaschinen-Entwicklung zum Auffinden wissenschaftlich relevanter Dokumente des WWW, sondern ebenso das Finden von wichtigen Forschungseinrichtungen in Deutschland, die sich mit einem gesuchten Thema befassen. Für beide Formen der Suche werden hier nur die qualitativ hochwertigen ("handverlesenen") WWW-Server der deutschen Forschungslandkarten benutzt. Seit Projektende 2006 wird das Forschungsportal in der Verantwortlichkeit des Rechenzentrums des BMBF weiter betrieben.

Meta-Suchmaschinen

Die Zweckmäßigkeit von Meta-Suchmaschinen für eine Informationssuche im WWW wurde eindrucksvoll von einer Studie des NEC Laboratoriums vom Februar 1999 nachgewiesen: die Studie zeigte, dass der Abdeckungsgrad der Suchmaschinen aufgrund des immensen Wachstums des WWW drastisch gefallen ist: die besten Suchmaschinen erfassten nur noch ca. 16% des Web-Inhaltes. Wenn man also sinnvoll suchen will, dann muß man etliche Suchmaschinen nacheinander "von Hand" absuchen und alle Ergebnisse vergleichen und zusammenführen. Diese Arbeit kann ein Automat - die Meta-Suchmaschine - effizienter, besser und zuverlässiger übernehmen. Neuere Arbeiten, die wie die o.g. ebenfalls versuchen, die Größe des WWW zu ermitteln, gibt es leider nicht.

Dass Meta-Suchmaschinen jedoch nach-wie-vor für die Internet-Suche sehr zweckmäßig sind, zeigt eine Studie vom April 2007 http://www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf anhand der drastisch unterschiedlichen Ergebnisse der ersten Trefferseiten verschiedener Suchmaschinen; eine Zusammenfassung findet man unter: whitepaper.pdf. Wesentlichstes Ergebnis der Studie ist das folgende:

        

Untersucht wurden die 4 größten Suchmaschinen: Google, Yahoo, MSN, Ask und deren erste Ergbnissseite. Die Grafik zeigt:
- 84,9% der Ergebnisse der ersten Trefferseiten kommen nur auf EINER dieser Suchmaschinen vor.

D.h. um die jeweils besten Treffer dieser 4 Suchmaschinen zu erhalten, muss man in 84,9% der Fälle (also praktisch immer), alle nacheinander abfragen. Dies ist die typische Aufgabenstellung einer Meta-Suchmaschine, die das dann parallel und wesentlich effizienter ausführt. Ihre Aufgabe hat sich also dahin verschobenen, die besten Ergebnisse der besten Suchmaschinen zusammenzufassen (denn was "das beste" ist, ist immer subjektiv - auch bei den Suchmaschinen; deren Algorithmen erscheinen zwar objektiv, sie sind es aber nicht, da von Menschen erdacht).

Die Arbeit an unserer Meta-Suchmaschine MetaGer ist jedoch keineswegs abgeschlossen - wie jede (gute) Internet-Software muß auch MetaGer ständig weiterentwickelt werden, wenn sie nicht binnen kurzem veraltet sein soll. Neben MetaGer bieten wir im Produktionsbetrieb, der aber zugleich unsere Entwicklungen unter Vollast erst "ausreifen" lassen kann, weitere Suchmaschinen an. Im folgenden ein kurzer - teilweise auch historischer -

Überblick:

  • Search and Query Engine für das EERQI-Projekt im 7th Framework Programm der EU.

  • Clewwa.de, eine Spezialsuchmaschine für das Bundesamt für Verbraucherschutz und Lebensmittelsicherheit, entwickelt seit Dezember 2007. Dort werden Internet-Inhalte erfasst, die sich mit relevanten Informationen zu den Themen Lebensmittel, Kosmetik, Textilien, Tabak, Bedarfsgegenstände, Futtermittel, Pflanzenschutz, Tiergesundheit, Umwelt und Gentechnik auseinander setzen (Pressemitteilung vom 14.3.08 dazu: http://idw-online.de/pages/de/news251292).

  • Volltextsuche über alle WWW-Server der Uni Hannover
    (Name: HannUFind). Diese Maschine basierte lange Jahre auf einem modifizierten Harvest-System, mittlerweile wird eine angepasste Nutch-Software eingesetzt. Über 500 WWW-Server der Uni Hannover mit ca. 1-2 Mio. Webdokumenten werden von ihr einmal pro Woche erfasst.

  • MESA, der Meta-Email-Search-Agent: eine internationale Meta-Email-Adress-Suchmaschine (die erste und für lange Zeit einzige; später kamen etliche dazu, wie z.B. http://addresses.com/). Dabei ist allerdings anzumerken, dass die Bedeutung der Email-Adress-Suchmaschinen in den letzten Jahren generell stark abgenommen hat. Ursache sind sicherlich die vielen unerwünschten Werbemails, vor denen die Nutzer ihre Email-Adressen eher verstecken, statt in einer Suchmaschine öffentlich machen wollen. Dieser Dienst wurde daher am 3.11.2006 eingestellt (und ist jetzt zu MetaGer verlinkt, denn auch dort kann man natürlich Email-Adressen suchen).

  • Newsgroups de.*-Volltextsuche, eine Suchmaschine über die aktuellen Newsbeiträge in den Gruppen der de-Hierarchie. Dieser Service ist bei uns mittlerweile eingestellt - der Suchdienst von DejaNews, mittlerweile übernommen von Google http://groups.google.com/, bietet für die Suche im Usenet einen solchen Dienst.

Überblick über weitere Entwicklungen (inkl. Studien- und Diplomarbeiten):

Neben diesen Entwicklungen, die auch unserer ständigen Wartung und Pflege unterliegen, werden zahlreiche andere Entwicklungslinien, häufig in Studien- oder Diplomarbeiten verfolgt. Ein Beispiel einer zu vergebenden Arbeit über die
"Analyse von Linkstrukturen" finden Sie hier, ein anderes ist die Entwicklung einer Metasuche über CRIS-Systeme. Diese Produkte sind jedoch tw. nur geschlossenen Benutzergruppen zugänglich und ihre Module werden nicht ständig aktualisiert. Sie finden einige Beispiele solcher Arbeiten im Folgenden:

  • Excerpt-Generator: die heutige Form der Ergebnisdarstellung von Suchmaschinen ist überwiegend so, dass lange Listen von "Treffern" mit jeweils kurzen Textauszügen angezeigt werden. Wünschenswert ist aber häufig einfach ein Text, welcher die Fragestellung der Eingabe beantwortet. Hierzu wurde in einer Diplomarbeit eine Software entwickelt, welche aus der Ergebnisliste von MetaGer durch Anklicken ausgewählter Treffer einen neuen, möglichst zusammenfassenden Text erzeugt.

  • MetaWorld: war eine internationale Meta-Suchmaschine, die im Unterschied zu nahezu allen anderen Maschinen dieser Art die an eine echte Metasuche zu stellenden Kriterien auch wirklich erfüllte. Wir haben Sie wieder eingestellt, es gibt mittlerweile genug andere und gute internationale Meta-Suchmaschinen, wie z.B. http://www.vivisimo.com/.

  • Level3, ein Verfahren zur automatischen Generierung themenorientierter Suchmaschinen.

  • MetaGer2, eine Weiterentwicklung von MetaGer in einer anderen Richtung, welche nach der Meta-Suche auf die Original-Dokumente zugreift, und damit ein neues und wesentlich verbessertes Ranking machen kann. Dieses Verfahren wurde um das Jahr 2000 im SuchmaschinenLabor implementiert, war aber aufgrund der damaligen langsamen Internet-Verbindungen nicht praktikabel. Seit ca. 2005 wurde es in anderer Umgebung wiederum aufgegriffen und realisiert.

  • Such die richtigen Suchwörter!
    Ein grosses Problem der Informationsbeschaffung aus dem Internet wird durch die obige Überschrift deutlich: Bei einer Suche in einem bestimmten Fachgebiet sind oftmals die richtigen Suchwörter, die Fachbegiffe und das Begriffsumfeld noch gar nicht bekannt. Um dieses Begriffsumfeld mit einem Mausklick erschliessen zu können, haben wir den MetaGer-Web-Assoziator entwickelt. Gibt man diesem ein Suchwort ein, welches dem zu untersuchenden Fachgebiet "irgendwie" nahekommt, dann wird versucht, typische Fachsprache dieses Gebietes aus dem WWW zu extrahieren.

    Beispiel: Jemand möchte mehr über Zeckenbisse und dessen Gefahren wissen, aber ihm fallen die medizinische Fachbegriffe für Erkrankungen aus diesem Bereich nicht mehr ein. Die Eingabe des Wortes "Zeckenbisse" in den Web-Assoziator liefert dann u.a. die Begriffe "Borreliose" und "fsme".

    Da diese Assoziationsanalyse u.a. aus Web-Dokumenten selber gewonnen wird, ist sie sprachunabhängig; d.h. Sie können bei Eingabe deutscher Wörter Fachgegriffe aus beliebigen Sprachen gewinnen (und umgekehrt). Wenn Ihnen andererseits Assoziationsanalysen auffallen, die mit Hilfe Ihrer Fachkenntnisse besser sein könnten, dann zögern Sie bitte nicht, uns dieses samt Ihrem Verbesserungsvorschlag mitzuteilen.

Ein Spin-Off des Suchmaschinenlabors ist SuMa-eV - Verein für freien Wissenszugang, eine unabhängige, gemeinnützige Non-Profit Organisation. Der Verein trug von 2004 bis 2009 zunächst den Namen: "Gemeinnütziger Verein zur Förderung der Suchmaschinen-Technologie und des freien Wissenszugangs", im Jahr 2009 wurde der Name geändert, um neben den Suchmaschinen auch andere Formen des Wissenszugangs mit zu erfassen.

Publikationen und Vorträge

Zur weiteren Vertiefung finden Sie im folgenden eine Liste von Veröffentlichungen und Vorträgen zu unseren Suchmaschinen.


Projektleiter Suchmaschinenlabor: Dr.-Ing. Wolfgang Sander-Beuermann

Last modified: 22.02.2010