Crawler – die nützliche Datenspinne

WirLernenOnline hat bisher über 200.000 Bildungsmaterialien durchsuchbar gemacht. Aber wie funktioniert das eigentlich? Was sind eigentlich Crawler? In diesem Blogbeitrag wollen wir euch unsere Entwicklungsarbeit vorstellen, wenn wir Crawler bauen.

Hintergrundwissen 💡

Als Crawler (oder auch Webcrawler) werden Softwareprogramme bezeichnet, die das Internet durchsuchen. Das bedeutet, dass dabei Inhalte von Webseiten wie Texte, Bilder oder auch Videos analysiert und indiziert werden. Du kennst den Crawler vielleicht auch als Spider, Searchbot oder Robot.

Wusstest du, dass der erste Webcrawler bereits Anfang 1990 startete? Dieser sollte das Wachstum des Internets messen. Seit jeher wächst die Anzahl der Suchmaschinen rasant, weshalb es heute eine Vielzahl von unterschiedlichen (Web-)Crawlern gibt.

Wichtige Fragestellungen 🔍

Warum brauchen wir Crawler? Um die vielen einzelnen Inhalte oder Unterrichtsmaterialien ganzer Webseiten auf einen Schlag bei uns aufzunehmen, ist es leichter und effizienter, diese zu crawlen. Sonst müssten diese alle per Hand eingetragen werden, was einen großen zeitlichen Aufwand mit sich bringen würde.

Funktionsweise (kurz & knapp) 💪

Ein Crawler arbeitet im Vorfeld definierte Aufgaben sukzessive ab. So werden ihm z. B. am Anfang einige URLs als Startpunkt vorgegeben, die er besuchen soll. Diese Liste wird auch „crawl frontier“ oder „Crawl-Grenze“ genannt.

Einführung Crawler: Ein Video 🎥

Zum Video

Web-Crawler im Allgemeinen 🖥️

Beim Durchsuchen des Webs folgt der Crawler prinzipiell jedem Link, den er auf einer Webseite entdeckt. Ein Webcrawler kann bei seiner Arbeit sowohl Hyperlinks als auch HTML-Code überprüfen. Nachdem eine Seite durchsucht worden ist, kann sie nahezu komplett von einem Suchmaschinenroboter kopiert werden. Somit kann sie später im Suchmaschinenindex schneller durchsucht werden. Ein Internetspider funktioniert immer in Abhängigkeit bestimmter Regeln sowie einer limitierten Anzahl an Seiten und Downloads. Ein einzelnes Suchergebnis ist immer als Momentaufnahme auf einer Zeitlinie zu verstehen. Aus diesem Grund kann es passieren, dass eine Seite schon wieder aktuellere Inhalte bereitstellt, obwohl ein Crawler erst vor Kurzem seine gesamte Arbeit abgeschlossen hat.

Web-Crawler bei WirLernenOnline ✔️

Im Kontext von WirLernenOnline sprechen wir von “abgespeckten” und zugleich hoch-spezialisierten Ausprägungen eines Crawlers:

Abgespeckt	Spezialisiert
Ein Spider wird nicht auf das komplette Internet losgelassen, sondern beschränkt sich beim “Krabbeln” über eine Webseite auf die URLs eben dieser.	Der Crawler hangelt sich an der jeweils einzigartigen Struktur einer Webseite entlang und hat dabei ausschließlich bildungsrelevante Metadaten im Fokus: Beim Indexieren einer Webseite erzeugt er eine Referenz der einzelnen, dort bereitgestellten Bildungsinhalte. Das heißt, die Inhalte bleiben bei den Webseitenanbietern – der Crawler begnügt sich mit den Hyperlinks darauf.

Web-Crawler bei WLO

Die tatsächliche “Magie” passiert beim Verknüpfen der vom Crawler eingesammelten Hyperlinks mit den (vom Webseitenbetreiber) bereitgestellten Metadaten: Der Mehrwert für Nutzende einer Suchmaschine entsteht schließlich nicht nur durch die wahllose Ansammlung von Links, sondern diese in einem für sie relevanten Kontext aufzubereiten.

Gut designte Webseiten stellen neben den eigentlichen Inhalten auch möglichst präzise Metadaten (= beschreibende Daten über Daten) bereit, die ein Crawler einsammeln kann. Dies fängt bei simplen, allgemeingültigen Metadaten (Titel, Beschreibungstext oder Schlüsselworten/Keywords) an und ist im Optimalfall soweit ausgeprägt, dass auch Informationen zur Lizenz eines Inhalts, den AutorInnen oder der Einordnung in bestehende Metadatenstandards eingebettet sind.

Aus diesem Bündel aus eingesammelten Hyperlinks eines Lerninhalts und den beschreibenden Metadaten dazu erstellt der Crawler einen Eintrag im Back-End von WirLernenOnline. Auf dieser Grundlage erfolgt nun die wertvolle Arbeit von Fachredakteur*innen: Jedes “langweilige” Metadatum, das maschinell eingesammelt und hinterlegt werden konnte, spart den Menschen hinter WirLernenOnline wichtige Zeit für die tatsächlich interessanten Aufgaben von Bildungsexperten. Dazu gehört beispielsweise das Einsortieren hochqualitativer Suchergebnisse in Themen-Sammlungen und Lehrplanthemen. Die Suchmaschinen-Bots kümmern sich um die Vorarbeit, damit Menschen ihre Zeit und Expertise für die spannenden Themen nutzen können.

Mehr zur Erschließung von Inhalten bei WirLernenOnline findest du hier.

Ein Problem bei Crawlern⚒️

Ein Großteil des gesamten Internets und daher auch Materialien, welche wir auf unsere Plattform aufnehmen wollen, können von Webcrawlern und damit auch von öffentlichen Suchmaschinen nicht erfasst werden. Viele Inhalte werden nicht über einfache Links, sondern beispielsweise nur über Suchmasken und zugangsbeschränkte Portale erreichbar. Man spricht in diesen Bereichen auch vom „Deep Web“. Außerdem stellt die ständige Veränderung des Webs sowie die Manipulation der Inhalte (Cloaking) ein Problem dar.

Zudem birgt die zunehmend aggressivere SEO-Optimerung von Webseiten auf einzelne Suchmaschinen-Platzhirsche den Nebeneffekt, dass eine “Verwässerung” von Metadaten stattfindet: Um bei Suchmaschinen höher zu ranken, wird insbesondere mit vielen, dafür aber nicht mehr so präzisen Schlüsselworten “um sich geworfen”. Dies kann für spezialisierte Suchmaschinen wie WirLernenOnline zum Problem werden:

Nutzer*innen interessieren sich eher für bildungsrelevante Inhalte und Metadaten, nicht aber für “SEO-Spam”, der primär für die Werbeindustrie und kommerzielle Suchmaschinen relevant ist.

Für Anbieter von Bildungsinhalten, Webseitenbetreiber*innen und Suchmaschinen gibt es für das Problem jedoch einen Kompromiss: Metadaten-Standards! (Mehr Infos: OEde Wiki zum Thema Standards). Am besten möglichst bildungsnah und frei zugänglich für alle. Für welchen der vielen Metadaten-Standards sich am Ende des Tages die Anbieter von Inhalten entscheiden, ist dabei weniger relevant. Wichtiger ist die grundsätzlich positive Entscheidung dazu, überhaupt strukturierte Metadaten zu seinen Inhalten anzubieten, diese auf der eigenen Webseite einzubetten und aus technischer Sicht eine “gemeinsame Sprache” zu sprechen. Dieser initiale Aufwand durch Webseitenbetreiber*innen ist den Aufwand eigentlich immer wert, wenn die eigenen Inhalte auch von (automatischen) Suchmaschinen-Crawlern (und in Folge davon: Nutzer*innen) einfach gefunden werden sollen.

Und wer steckt bei WLO dahinter?

Unser “Crawlerman” Andreas ist bei WLO für das crawlen zuständig.

Ein paar Facts über Andreas

💻 über Umwege bin ich (zurück) zur Informatik gelangt und habe knapp 9 Jahre als freier Redakteur (im Technik- (VR) & Videospiele-Bereich) gearbeitet

💬 Lebensmotto: “Gibt’s dafür auch ein Dark-Theme?”

👥 Tätig im Team 4 (von 6): Entwicklung von Web-Crawlern, maschinelle Quellenerschließung uvm.

💪 Ohne mich könnten wir keine Inhalte crawlen! 😉

🆓 Ich erhoffe mir von der Arbeit bei WLO, dass ich einen Teil dazu beitragen kann, dass Bildung & Wissen frei sein können.

🔓 Ich wünsche mir mehr offene Standards und weniger Bezahlschranken!

👨🏻‍💻 Ein paar persönliche Facts: hohe Frustresistenz, viele Hobbys wie z.B. Lesen, Videospielen, Musik hören, Kochen, mit Soft-und Hardware “rumnerden” 😉

Hast du noch Fragen zu den Crawlern? Dann melde dich bei uns unter: redaktion@wirlernenonline.de

Zur Autorin:

Autorin Vanessa Krämer — **Vanessa Krämer**

Vanessa Krämer arbeitet bei WLO als studentische Hilfskraft im Team KFC (Kommunikation, Fachredaktion und Community). Das beinhaltet, Twitterbeiträge, Newsletter und Blogbeiträge zu schreiben sowie das Team mit allen Kräften zu unterstützen. Nebenher studiert sie im 1. Mastersemester Grundschullehramt mit den Fächern Deutsch, Mathe und Sachunterricht. Ihre Bachelorarbeit hat sie zum Thema Einsatz von OER-Materialien im Deutschunterricht der Primarstufe geschrieben.

Zur Übersicht