De:WatchCrawler

Aus YaCyWiki
Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Crawler Puffer

den Crawler beobachten

Diese Seite ist im Bereich Web Indexierung -> Crawl Start & Kontrolle über die Adresse http://localhost:8090/WatchCrawler_p.html zu erreichen und beinhaltet wichtige Werkzeuge zur Steuerung und Überwachung von Webcrawls.


Funktionsleiste

Über die Funktionsleiste am ober Rand der Seite können verschiedene weitere Steuerungs- und Überwachungsseiten aufgerufen werden:


Steuerungselemente

Unterhalb der Funktionsleiste sind folgende Steuerungselemente zu finden:

Aktualisierungsgeschwindigkeit ermöglicht Ihnen den Zeitraum zur Aktualisierung der Seite eingestellt. Standardeinstellung sind 5 Sekunden. Um die Vorgabe zu ändern wird einfach eine neue Zahl in das Eingabefeld eingetragen. Diese wird automatisch aktiv, sobald in einen beliebigen anderen Bereich der Seite geklickt wird.

Geschwindigkeit ermöglicht mittels der Schaltflächen Minimum, benutzerdefiniert und Maximum die Arbeitsgeschwindigkeit des Crawlers zu beschränken. Die Begrenzung wird in PPM angegeben.


Überwachungselemente

Im restlichen Teil der Seite sind verschiedene Tabellen sichtbar, die eine große Anzahl von Kennzahlen beinhalten, die dazu dient dem Crawler bei der Arbeit über die Schulter zu sehen.


Pufferkennzahlen

In einer Tabelle werden für verschiedene Puffer (Zwischenspeicher) deren Name, die aktuelle Größe, Status sowie die maximale Größe angegeben. Im Einzelnen werden Kennzahlen für folgende Puffer angezeigt:

  • Indexieren - Heruntergeladene Seiten, die darauf warten indexiert zu werden.
  • Lader - URLs, die darauf warten heruntergeladen zu werden.
  • Lokaler Crawler - Seiten, die darauf warten vom eigenen Crawler bearbeitet zu werden.
  • Limit Crawler - Seiten, die darauf warten von einem Crawler auf einem beliebigen YaCy Peer bearbeitet zu werden.
  • Remote Crawler - Seiten, die darauf warten durch den eigenen Crawler für einen Crawler auf einem entfernten YaCy Peer bearbeitet zu werden.

Wird in der Statusspalte ein rotes Quadrat angezeigt, so werden die Einträge des jeweiligen Puffers bearbeitet. Durch einen Klick auf das Symbol kann die Bearbeitung angehalten werden. Das Symbol verwandelt sich dann in ein grünes Dreieck.


Datenbankkenzzahlen

In dieser Tabelle wird die Anzahl der aktuell im Index enthaltenen Seiten (URLs) und Wörter (RWI) angezeigt.


Crawlerkennzahlen

In dieser Tabelle werden drei wichtige Kennzahlen angezeigt:

  • PPM (Seiten pro Minute) - Anzahl der aktuell pro Minute durch den Crawler bearbeiteten Seiten.
  • Traffic (Crawler) - Menge der durch den Crawler aus dem Web geladenen Daten seit dem letzten Neustart von YaCy
  • RWI RAM (Wörter Zwischenspeicher) - Größe und Füllstand des RWI Puffers


Crawler Puffer

Den größten Teil der Seite nimmt eine Tabelle ein, in der für die aktuell verarbeiteten Seiten verschiedene Informationen angezeigt werden:

  • Puffer - Name des Puffers in dem sich die Seite befindet
  • Profil - Name des Crawler Profils, für das diese Seite bearbeitet wird
  • Auftraggeber - Peername als Quelle des Crawler Profils
  • Tiefe - Anzahl der Links denen der Crawler von der Ausgangsseite bis zur aktuellen Seite folgen musste
  • Änderungsdatum - Zeitpunkt der letzten Aktualisierung des Datensatzes im Puffer
  • Linktitel - Name der Seite
  • URL - nun ja, URL der Seite
  • Größe - Umfang der Seite in Bytes
  • Löschen - aktuell unbenutzt
Meine Werkzeuge
Namensräume
Varianten
Aktionen
Gemeinschafts-Portal
Navigation
Werkzeuge