Wie arbeiten die (WebCrawler-) Automaten?


  1. Sammeln der Daten (gatherer, robot scooter, ...)

    • Vorgaben: Einstiegs-URLs ins Internet

    • Verfolgen der Links (Breitendurchlauf - Tiefendurchlauf)

    • Übertragen der Daten

    • erforderlich: CPU + Netzresourcen

  2. Anlegen einer Datenbank

    • Indexieren ("verschlagworten") der Daten, Schlüsselworte generieren

      • nach Schlüsselwort-Tabellen, Thesaurus

      • Meta-Tags

      • automatisch/Volltext (Häufigkeitsverteilungen)

    • erforderlich: Plattenplatz

  3. Anbieten der Abfrage-Schnittstelle


start         (C) RRZN, W.Sander-Beuermann