Zur
Meta-
Suchmaschine:
MetaGer
Impressum
Forschungs Portal.net
Uni Hannover: HannUFind
SuMa-eV
Mitarbeiter
IntraNet
|
|
Seit 1995 werden am RRZN
Suchmaschinen entwickelt und betrieben.
Bekanntestes Ergebnis dieser Arbeiten ist die deutschsprachige Meta-Suchmaschine MetaGer, über die in vielen
Publikationen, sowie Rundfunk- und Fernsehsendungen berichtet wurde. Mehrere kurze
Aufzeichnungen solcher Fernsehsendungen können Sie auch im Internet sehen.
MetaGer ermöglicht aufgrund seines hohen Bekanntheitsgrades und der
großen Zugriffszahlen Forschung und Lehre am "lebenden Objekt".
Auf den Webseiten des österreichischen Rundfunks
können Sie ein Interview zum Thema
"metager - eine suchmaschine als forschungsprojekt" nachlesen.
Im Suchmaschinenlabor wurde u.a. auch das
Deutsche Forschungsportal
http://forschungsportal.net/
im Auftrag des Bundesministerium für Bildung und Forschung, BMBF entwickelt. Ziel ist hier nicht nur die
Suchmaschinen-Entwicklung zum
Auffinden wissenschaftlich relevanter Dokumente des WWW,
sondern ebenso das
Finden von wichtigen Forschungseinrichtungen in Deutschland,
die sich mit einem gesuchten Thema befassen.
Für beide Formen der Suche
werden hier nur die qualitativ hochwertigen ("handverlesenen")
WWW-Server der
deutschen Forschungslandkarten benutzt. Seit Projektende 2006
wird das Forschungsportal in der Verantwortlichkeit des Rechenzentrums
des BMBF weiter betrieben.
Meta-Suchmaschinen
Die Zweckmäßigkeit von Meta-Suchmaschinen für eine Informationssuche
im WWW wurde eindrucksvoll von einer Studie
des NEC Laboratoriums
vom Februar 1999 nachgewiesen: die Studie zeigte,
dass der Abdeckungsgrad der Suchmaschinen aufgrund
des immensen Wachstums des WWW drastisch gefallen ist: die
besten Suchmaschinen erfassten nur noch ca. 16% des Web-Inhaltes.
Wenn man also sinnvoll suchen will, dann muß man etliche
Suchmaschinen nacheinander "von Hand" absuchen und alle Ergebnisse
vergleichen und zusammenführen. Diese Arbeit kann
ein Automat - die Meta-Suchmaschine - effizienter,
besser und zuverlässiger übernehmen. Neuere Arbeiten, die wie die o.g. ebenfalls
versuchen, die Größe des WWW zu ermitteln, gibt es leider nicht.
Dass Meta-Suchmaschinen jedoch nach-wie-vor für die Internet-Suche sehr
zweckmäßig sind, zeigt eine Studie vom April 2007
http://www.infospaceinc.com/onlineprod/Overlap-DifferentEnginesDifferentResults.pdf
anhand der drastisch unterschiedlichen
Ergebnisse der ersten Trefferseiten verschiedener Suchmaschinen; eine Zusammenfassung
findet man unter: whitepaper.pdf. Wesentlichstes
Ergebnis der Studie ist das folgende:
Untersucht wurden die 4 größten Suchmaschinen: Google, Yahoo, MSN, Ask
und deren erste Ergbnissseite.
Die Grafik zeigt:
- 84,9% der Ergebnisse der ersten Trefferseiten kommen nur auf EINER dieser
Suchmaschinen vor.
D.h. um die jeweils besten Treffer dieser 4 Suchmaschinen zu erhalten,
muss man in 84,9% der Fälle (also praktisch immer), alle nacheinander
abfragen. Dies ist die typische Aufgabenstellung einer Meta-Suchmaschine,
die das dann parallel und wesentlich effizienter ausführt.
Ihre Aufgabe hat sich also dahin verschobenen,
die besten Ergebnisse der besten Suchmaschinen zusammenzufassen (denn was
"das beste" ist, ist immer subjektiv - auch bei den Suchmaschinen;
deren Algorithmen erscheinen zwar objektiv, sie sind es aber nicht,
da von Menschen erdacht).
Die Arbeit an unserer Meta-Suchmaschine MetaGer ist jedoch keineswegs
abgeschlossen - wie
jede (gute) Internet-Software muß auch MetaGer ständig weiterentwickelt
werden, wenn sie
nicht binnen kurzem veraltet sein soll. Neben MetaGer bieten wir im
Produktionsbetrieb, der aber zugleich unsere Entwicklungen unter Vollast
erst "ausreifen" lassen kann, weitere Suchmaschinen an. Im folgenden
ein kurzer - teilweise auch historischer -
Überblick:
- Search and Query Engine für das
EERQI-Projekt im 7th Framework Programm der EU.
- Clewwa.de, eine Spezialsuchmaschine für
das Bundesamt für Verbraucherschutz und Lebensmittelsicherheit,
entwickelt seit Dezember 2007.
Dort werden Internet-Inhalte erfasst, die sich mit relevanten Informationen zu den Themen Lebensmittel,
Kosmetik, Textilien, Tabak, Bedarfsgegenstände, Futtermittel, Pflanzenschutz, Tiergesundheit,
Umwelt und Gentechnik auseinander setzen (Pressemitteilung vom 14.3.08 dazu:
http://idw-online.de/pages/de/news251292).
- Volltextsuche über alle
WWW-Server der Uni Hannover
(Name: HannUFind).
Diese Maschine basierte lange Jahre auf einem
modifizierten Harvest-System, mittlerweile wird eine angepasste
Nutch-Software eingesetzt. Über 500 WWW-Server der Uni Hannover
mit ca. 1-2 Mio. Webdokumenten werden von ihr einmal pro Woche erfasst.
- MESA, der
Meta-Email-Search-Agent: eine internationale Meta-Email-Adress-Suchmaschine
(die erste und für lange Zeit einzige; später kamen etliche dazu, wie z.B.
http://addresses.com/).
Dabei ist allerdings anzumerken, dass die Bedeutung der
Email-Adress-Suchmaschinen in den letzten Jahren generell stark abgenommen hat.
Ursache sind sicherlich die vielen unerwünschten Werbemails, vor denen
die Nutzer ihre Email-Adressen eher verstecken, statt in einer Suchmaschine
öffentlich machen wollen. Dieser Dienst wurde daher am 3.11.2006
eingestellt (und ist jetzt zu MetaGer verlinkt, denn auch dort kann
man natürlich Email-Adressen suchen).
- Newsgroups de.*-Volltextsuche,
eine Suchmaschine über die aktuellen Newsbeiträge in den Gruppen der
de-Hierarchie. Dieser Service ist bei uns mittlerweile eingestellt
- der Suchdienst von
DejaNews, mittlerweile übernommen
von Google http://groups.google.com/, bietet für die Suche
im Usenet einen solchen Dienst.
Überblick über weitere Entwicklungen (inkl. Studien- und Diplomarbeiten):
Neben diesen Entwicklungen, die auch unserer ständigen Wartung und
Pflege unterliegen, werden zahlreiche andere Entwicklungslinien, häufig in
Studien- oder Diplomarbeiten
verfolgt.
Ein Beispiel einer zu vergebenden Arbeit
über die "Analyse von Linkstrukturen"
finden Sie hier, ein anderes ist die Entwicklung einer Metasuche über CRIS-Systeme.
Diese Produkte sind jedoch tw. nur geschlossenen Benutzergruppen
zugänglich und ihre Module werden nicht ständig aktualisiert. Sie finden
einige Beispiele solcher Arbeiten im Folgenden:
- Excerpt-Generator: die heutige Form der Ergebnisdarstellung von Suchmaschinen ist
überwiegend so, dass lange Listen von "Treffern" mit jeweils kurzen Textauszügen
angezeigt werden. Wünschenswert ist aber häufig einfach ein Text, welcher die
Fragestellung der Eingabe beantwortet. Hierzu wurde in einer Diplomarbeit eine
Software entwickelt, welche aus der Ergebnisliste von MetaGer
durch Anklicken ausgewählter Treffer einen neuen, möglichst zusammenfassenden
Text erzeugt.
- MetaWorld: war eine
internationale Meta-Suchmaschine, die im Unterschied zu nahezu allen anderen
Maschinen dieser Art die an eine echte Metasuche zu stellenden
Kriterien
auch wirklich erfüllte. Wir haben Sie wieder eingestellt,
es gibt mittlerweile genug andere und gute
internationale Meta-Suchmaschinen, wie z.B.
http://www.vivisimo.com/.
- Level3,
ein Verfahren zur automatischen Generierung themenorientierter Suchmaschinen.
- MetaGer2,
eine Weiterentwicklung von MetaGer in einer anderen Richtung,
welche nach der Meta-Suche auf die
Original-Dokumente zugreift, und damit ein neues und wesentlich verbessertes Ranking machen kann.
Dieses Verfahren wurde um das Jahr 2000 im SuchmaschinenLabor implementiert, war
aber aufgrund der damaligen langsamen Internet-Verbindungen nicht praktikabel.
Seit ca. 2005 wurde es in anderer Umgebung wiederum aufgegriffen und realisiert.
- Such die richtigen Suchwörter!
Ein grosses Problem der Informationsbeschaffung aus dem Internet wird durch
die obige Überschrift deutlich: Bei einer Suche in einem bestimmten
Fachgebiet sind oftmals die richtigen Suchwörter, die Fachbegiffe und
das Begriffsumfeld noch gar nicht
bekannt. Um dieses Begriffsumfeld mit einem Mausklick erschliessen zu
können, haben wir den MetaGer-Web-Assoziator
entwickelt. Gibt man diesem ein Suchwort ein, welches dem zu untersuchenden
Fachgebiet "irgendwie" nahekommt, dann wird versucht, typische Fachsprache
dieses Gebietes aus dem WWW zu extrahieren.
Beispiel: Jemand möchte mehr über Zeckenbisse und dessen Gefahren wissen,
aber ihm fallen die medizinische Fachbegriffe für Erkrankungen
aus diesem Bereich nicht mehr ein.
Die Eingabe des Wortes "Zeckenbisse" in
den Web-Assoziator liefert dann u.a. die Begriffe "Borreliose" und "fsme".
Da diese Assoziationsanalyse u.a. aus Web-Dokumenten selber gewonnen wird,
ist sie sprachunabhängig; d.h. Sie können bei Eingabe deutscher Wörter
Fachgegriffe aus beliebigen Sprachen gewinnen (und umgekehrt). Wenn Ihnen
andererseits
Assoziationsanalysen auffallen, die mit Hilfe Ihrer Fachkenntnisse besser
sein könnten, dann zögern Sie bitte nicht, uns dieses samt Ihrem
Verbesserungsvorschlag mitzuteilen.
Ein Spin-Off des Suchmaschinenlabors ist SuMa-eV - Verein für
freien Wissenszugang,
eine unabhängige, gemeinnützige Non-Profit Organisation. Der Verein trug von 2004 bis 2009 zunächst den Namen:
"Gemeinnütziger Verein zur Förderung der Suchmaschinen-Technologie und des freien Wissenszugangs",
im Jahr 2009 wurde der Name geändert, um neben den Suchmaschinen auch andere Formen des Wissenszugangs
mit zu erfassen.
Publikationen und Vorträge
Zur weiteren Vertiefung finden Sie
im folgenden eine Liste von Veröffentlichungen und Vorträgen
zu unseren Suchmaschinen.
- Wolfgang Sander-Beuermann, "Suchmaschinen", Vortrag zum nordmedia Business-Frühstück, 27.10.2010, Hannover
- Wolfgang Sander-Beuermann und Hans Georg Krojanski, Bezahlen Sie mit Ihren Daten? Vortrag zur vierten Fachtagung für Datenschutzbeauftragte an Hochschulen und anderen wissenschaftlichen Einrichtungen, 24.9.2010, FU Berlin
- Sybille Peters, Claus-Peter Rückemann and Wolfgang Sander-Beuermann,
A New Approach towards Vertical Search Engines
- Intelligent Focused Crawling and Multilingual Semantic Techniques, 6th International Conference on Web Information Systems, WEBIST 2010, 7.-10. April 2010, Valencia
- Wolfgang Sander-Beuermann, Perspektiven der Informationsgewinnung,
Vortrag am Deutschen Institut für Wirtschaftsforschung e.V. (DIW Berlin),
25. November 2009
- Wolfgang Sander-Beuermann, Informationsströme
und ihr Impact-Potential, Proceedings zur 31. DGI-Online-Tagung auf der Frankfurter Buchmesse 2009,
und Vortrag,
Frankfurt am Main, 16. Oktober 2009
- Wolfgang Sander-Beuermann, Michael Nebel, Wolfgang Adamczak,
Searching the CRISses,
Proceedings of the 9th Internat.Conf.
on Current Research Information Systems, Maribor, Slovenia, June 5-7th, 2008
- Vortrag zur 30. Tagung der
Arbeitsgemeinschaft Datenschutzbeauftragte Niedersächsischer Hochschulen
Datenschutzkonforme Nutzung von IP-Adressen, Wolfgang Sander-Beuermann,
21.2.2008, Ahlhorn
- Vortrag zum 8. Expertenforum des Bundesverbandes Deutscher Internet-Portale (BDIP)
Suchmaschinen: Markt, Optimierung, Alternativen, 24.9.2007, Berlin
- Begrüßung und
Überblick SuMa-eV Aktivitäten, Wolfgang Sander-Beuermann,
SuMa-eV Kongress
am 20.9.2007, Berlin
- Vortrag zum Rechtsforum Infolaw, Wirtschaftsuniversität Wien, Suchmaschinen, Monopole, Marketing,
Wolfgang Sander-Beuermann,
15.11.2006, Wien
- Begrüßungsrede
von Wolfgang Sander-Beuermann
zum
3. SuMa-eV Forum am 28.9.2006, Berlin
- Vortrag zur Konferenz
"Suchen und Finden im Internet" des
Münchner Kreis :
"Herausforderungen der nächsten Jahre", Wolfgang Sander-Beuermann, 1.2.2006, München
- Vortrag zum 22.-ten CCCongress zur
Suchmaschinen-Monopol Problematik:
Search Engines - Oracles of the Information Society
(Video-Mitschnitt)
mit Prof. Hendrik Speck, Michael Christen, Frederic Philip Thiele, Dr. Wolfgang
Sander-Beuermann, 28.12.2005, Berlin
- Vortrag beim Verband der Bibliotheken und der Bibliothekarinnen/Bibliothekare der Schweiz in Luzern: "Monopolisierung des Wissens?", Wolfgang Sander-Beuermann, 3.11.2005, http://www.metager.de/luzern
- Vortrag zur Wizards of OS 3 (WOS) Konferenz in Berlin: "
Free SearchEngines = Free Access to Knowledge", Wolfgang Sander-Beuermann, 10.6.2004,
wos3/
- Vortrag zum 7. German-American Frontiers of Engineering Symposium zum
"State of the Art of Searching the Web",
Wolfgang Sander-Beuermann,
Washington D.C. 28.4. - 1.5. 2004,
http://metager.de/washington.html
- Wolfgang Sander-Beuermann und Dirk Hennig, Data Collectors meet Data Suppliers on the Internet,
Proceedings of the 6th Internat.Conf. on Current Research Information Systems, Kassel, Germany, August 29-31, 2002
- Vortrag zum 21. Oberhofer Kolloquium am 21.9.2000 in
Friedrichroda:
"Internet Suchmaschinen: 'Im Westen nichts Neues?'"
http://metager.de/dgd2000/
- Vortrag zur InetBib 2000 am 9.3.2000 in Dortmund:
"Neues und Megatrends bei Suchmaschinen":
inetbib2000, W. Sander-Beuermann
- Vortrag zum EUSIDIC Spring Meeting
in Strassbourg, am 10.3.1999:
"The Next Generation of Internet Searchengines":
eusidic, W. Sander-Beuermann
- Vortrag zum Workshop des Arbeitskreises MetaDaten der IuK Initiative Information und Kommunikation der wissenschaftlichen Fachgesellschaften in Deutschland am
11.12.1998 in Bonn:
"Meta-Strukturen und -Algorithmen in Internet-Suchmaschinen":
meta-strukt, W. Sander-Beuermann
- Vortrag zur 29.-ten DFN-Betriebstagung am 6.9.1998 in Berlin:
"Suchmaschinen - die nächsten Generationen":
dfn-forum, W. Sander-Beuermann
- Artikel in der Zeitschrift c't 13/98, S. 178:
"Die Internet-Suchmaschinen der Zukunft", W. Sander-Beuermann
- Wolfgang Sander-Beuermann und Mario Schomburg,
The Further Development of Meta-Searchengine Technology,
Proceedings of the INET'98 Internet Summit, Genf, Schweiz, Juli, 21-24, 1998
- Vortrag zur DGD-Online-Tagung im Mai 1998 in Frankfurt:
dgd, W. Sander-Beuermann
-
Vortrag im Rahmen der Ringvorlesung "Multimedia und virtuelle Welten
in internationalen
Netzwerken" an der Uni Potsdam, 21.1.1998: "Suchmaschinen - wohin geht
die Entwicklung?" potsdam, W. Sander-Beuermann
Projektleiter Suchmaschinenlabor: Dr.-Ing. Wolfgang Sander-Beuermann
Last modified: 22.02.2010
|
|