Ein wachsames Holzauge im Web

Wer als Erster Bescheid wissen will, wenn der Traumjob inseriert, eine bestimmte Wohnung neu vermietet oder ein besonderes Objekt in einer Online-Auktion angeboten wird, braucht ein Webmonitoring-Werkzeug wie Distill.io.

Ein Kollege hat mich neulich gefragt, wie man denn beliebige Websites auf Änderungen hin überprüfen könne – und ob distill.io diese Aufgabe denn erfüllen würde.

Da ich diese Software selbst noch nie benutzt hatte, konnte ich die Frage nicht beantworten – aber mir immerhin vornehmen, mir selbst ein Bild zu machen. Und das genau das soll hier und jetzt geschehen.

Denn Gründe, Websites zu überwachen, gibt es genügend: Man könnte daran interessiert sein zu erfahren, wann auf einer Immobilien-Website eine Anzeige für eine bestimmte Wohnung erscheint, in Online-Auktionen bestimmte Produkte angeboten werden oder Job-Annoncen erscheinen. Auch zur Konkurrenzbeobachtung könnte man so ein Programm einsetzen oder aber, um herauszufinden, ob sich auf dieser oder jener «Under Contruction» befindlichen Website doch noch etwas tut.

Per Browser-Erweiterung oder App

Um Distill zu verwenden, installiert man als Erstes eine Browser-Erweiterung bzw. App. Es gibt den Distill Web Monitor für Firefox, Google Chrome, Microsoft Edge und Opera, bzw. für iPhone/iPad. Die Version für Android befindet sich im Moment im Betatest.

Die Nutzung im Desktop-Browser scheint mir einfacher zu sein, daher beschreibe ich das Verfahren hier. Nach der Installation erscheint die Erweiterung als kleines Tränen-Icon in der Symbolleiste des Browsers. (Ich nehme an, das Symbol soll das Destillat versinnbildlichen und nicht andeuten, dass einem bei der weiteren Nutzung ums Weinen zumute sein wird.)

Nun navigiert man zur Website, die man überwachen möchte. Für eine realistische Versuchsanordnung begebe ich mich zu Ricardo, trage dort ins Suchfeld signierte erstausgabe momo michael ende ein und drücke Enter.

Die Auswahl des richtigen Bereichs auf der Website ist entscheidend, ob die Überwachung auch funkitioniert.

Jetzt erscheint, wie erwartet, die Meldung, dass kein Resultat vorliegt. Ich klicke auf das erwähnte Tränensymbol und betätige im Dialog der Erweiterung bei Add Monitor den Knopf Teile der Seite auswählen. Wenn man  die Maus über die Seite bewegt, werden einzelne Elemente mit einem Rechteck markiert. Ich markiere den Hinweis «Sorry, wir finden leider nichts für ‹signierte erstausgabe momo michael ende›».

Die Kunst, den richtigen Teil der Webseite zu überwachen

Über eine Werkzeugleiste könnte man die Selektion ausweiten oder verändern. Und das ist der springende Punkt: Die Kunst ist es, das richtige Elements auszuwählen. Man könnte natürlich die ganze Seite auswählen, doch dann ist damit zu rechnen, dass ständig Benachrichtigungen zu Änderungen erfolgen.

Das liegt daran, dass sich bei dynamischen Websites ständig etwas ändert. Auch Ricardo hält den Hinweis bereit, es gebe eine signierte Erstausgabe, einfach nicht von Michael Ende, sondern von Ernst Morgenthaler. Es gibt auch zwei Anzeigen, über die man «Momo» bei Buchhändlern bestellen könnte. Doch diese Informationen sollen nicht berücksichtigt werden und darum ist es wichtig, nur das Resultat der Suche in die Überwachung einzuschliessen.

Die Krux der Content Management Systeme

Wie gut oder schlecht sich das richtige Element auswählen lässt, hängt von der Website ab. Bei statischen Sites ist das einfach: Sie bestehen aus fixfertigen HTML-Seiten auf einem Webserver und verändern sich nur, wenn jemand sich die Mühe macht, mit einem Editor Änderungen vorzunehmen. Dynamische Websites, wie sie von Content-Management-Systemen geriert werden und heute die Norm sind, ändern sich ständig, da eine Seite (mehr oder weniger) bei jedem Abruf neu erzeugt wird.

Darum muss man bei einer dynamischen Site jenes Element markieren, das die entscheidende Information enthält, und möglichst nichts anderes. Wenn man das Resultat einer Suche auswerten möchte, würde ich nur die Statusmeldung markieren – also den Hinweis, dass nichts gefunden wurde oder aber die Anzahl Treffer. Wenn sich diese Information ändert, lohnt es sich, nachzusehen. (Es könnte natürlich sein, dass ein Treffer verschwindet und ein neuer hinzukommt, die Anzahl in dem Fall aber gleich bleibt. Wenn die neue Fundstelle genau die gewesen wäre, an der man Interesse gehabt hätte, dann ist das leider Künstlerpech.)

Die Gretchenfrage lautet, wie häufig die Überwachung erfolgen soll

Hat man den Bereich ausgewählt, dann klickt man in der Werkzeugleiste am unteren Rand auf Save Selection. Es erscheint ein Formular, in dem man seinen Suchauftrag bearbeitet: Man kann ihn benennen und bei Zeitplan das Intervall festlegen, wie oft die Website überprüft werden soll.

Hier gibt man an, wie oft nach Änderungen auf der fraglichen Website gesucht werden soll.

Auch diese Entscheidung ist knifflig: Wenn man das zu häufig tut, könnte es sein, dass man blockiert wird, da solche häufigen, regelmässigen Aufrufe nicht der normalen Nutzung entsprechen und verdächtig sind. Tut man es eher selten, besteht die Gefahr, den entscheidenden Moment zu verpassen.

Darum hängt es von den Umständen ab, welche Dauer man setzt. Für eine Auktionsplattform scheint mir eine häufige Überprüfung sinnvoll; also ein- bis zweimal pro Tag. Bei Wohnungs- oder Jobinseraten könnte man sich etwas mehr Zeit lassen. Und für Websites, auf denen sich seit Jahren nichts tut, reicht auch eine Überprüfung pro Woche. Es gibt auch eine Methode mit zufälligen Überprüfungen (Random), aber die scheint mir zu wenig berechenbar.

Bei Bedingungen ist es möglich, eine Einschränkung festzulegen, sodass die Erweiterung nur dann anschlägt, wenn der neu hinzugefügte Text bestimmte Bedingungen erfüllt. Auf diese Weise kann man sich bei Fehlalarmen helfen. Allerdings gilt natürlich, dass man die Einschränkung nicht zu spezifisch machen darf, weil dann die Gefahr besteht, dass einem Treffer durch die Lappen geht.

Auf der Bearbeitungsseite legt man auch fest, was passieren soll, wenn eine Änderung festgestellt wird: Man kann eine Klang-Benachrichtigung abspielen und ein Mail schicken lassen.

Nützlich, aber nicht narrensicher

An dieser Stelle ist es klar: Distill ist ein wirklich nützliches Hilfsmittel – allerdings nur dann, wenn man es richtig einsetzt. Das braucht ein bisschen Erfahrung, sodass ich Nutzern unbedingt empfehle, es erst einmal in verschiedenen Szenarien auszutesten und auch einige Kontroll-Einträge einzurichten.

Das gilt insbesondere dann, wenn man etwas so Seltenes sucht wie die Erstausgabe eines Buchs: Um zu verifizieren, dass mein Ansatz auch funktioniert, müsste ich bei Ricardo nach einigen Objekten suchen lassen, die dort mit Garantie immer wieder auftauchen und überprüfen, ob die mit meiner Methode auch gefunden werden.

Mit der beschriebenen Methode werden die Überprüfungen im eigenen Browser ausgeführt, und zwar kostenlos. Es hat aber den Nachteil, dass die Überprüfung nur stattfinden kann, wenn Computer und Browser auch laufen. Um sicher zu sein, möchte man den Check daher lieber von einem Webdienst erledigen lassen. Das geht auch, wenn man sich bei distill.io einen Account anlegt: Dann darf man kostenlos 25 solcher Überwachungs-Jobs anlegen, wovon 5 in der Cloud ausgeführt werden. Das minimale Intervall für Cloud-Jobs sind sechs Stunden.

Eine häufigere Überprüfung und mehr Jobs sind gegen Geld möglich: Mit dem Starter-Preisplan für zwölf US-Dollar pro Monat kann man alle zehn Minuten eine Überprüfung veranlassen und fünfzig Jobs einrichten. Für 28 US-Dollar pro Monat gibt es im Professional-Account 150 Jobs und eine minimale Wartezeit von fünf Minuten.

Zwei Ergänzungen: Erstens ist es nach wie vor so, dass eine gute Website einen RSS-Feed haben sollte: Über den bekommt man neue Beiträge automatisch in seinen Feedreader geliefert und braucht kein Scraping zu betreiben. Tipps dazu gibt es im Beitrag Hier wirst du gefüttert!.

Und eine beliebte Alternative zu Distill.io ist Huginn: Das ist eine freie Software für Windows und Linux, mit der man Änderungen von Websites überwachen, aber noch viel mehr tun kann. Auf der Website heisst es, es sei eine «hackbare» Version von Ifttt und Zapier. Das werde ich auch mal ausprobieren müssen.

Beitragsbild: Alles andere als hölzern (Omar Alnahi, Pexels-Lizenz).

Kommentar verfassen