De zoekmachinerobot is verantwoordelijk voor het crawlen van webpagina's. Het programma leest automatisch gegevens van alle sites en registreert deze in een voor de zoekmachine zelf begrijpelijke vorm, zodat het systeem later voor de gebruiker de meest geschikte resultaten toont.
Functies
Alle geïndexeerde informatie wordt vastgelegd in een gemeenschappelijke database.
Een zoekrobot is een programma dat automatisch door de pagina's van internet reist, de nodige documenten opvraagt en de structuur van de gecrawlde sites ontvangt. De robot selecteert zelfstandig de te scannen pagina's. In de meeste gevallen worden de te scannen sites willekeurig geselecteerd.
Bottypen
Een niet goed functionerende robot verhoogt de belasting van het netwerk en de server aanzienlijk, waardoor de resource niet beschikbaar kan zijn.
Elke zoekmachine heeft verschillende programma's die robots worden genoemd. Elk van hen kan een specifieke functie vervullen. Bij Yandex zijn sommige robots bijvoorbeeld verantwoordelijk voor het scannen van RSS-nieuwsfeeds, wat handig zal zijn voor het indexeren van blogs. Er zijn ook programma's die alleen naar afbeeldingen zoeken. Het belangrijkste is echter de indexeringsbot, die de basis vormt voor elke zoekopdracht. Er is ook een snelle hulprobot die is ontworpen om te zoeken naar updates over nieuwsfeeds en evenementen.
Scanprocedure:
Een andere manier om het crawlen van inhoud te voorkomen, is door toegang tot de site te creëren via het registratiepaneel.
Bij een bezoek aan de site scant het programma het bestandssysteem op de aanwezigheid van robots.txt-instructiebestanden. Als er een document is, begint het lezen van de richtlijnen die in het document zijn geschreven. Robots.txt kan het scannen van bepaalde pagina's en bestanden op de site verbieden of juist toestaan.
Het scanproces is afhankelijk van het type programma. Soms lezen robots alleen de paginatitels en enkele alinea's. In sommige gevallen wordt het hele document gescand, afhankelijk van de HTML-opmaak, wat ook kan werken als een middel om sleutelzinnen op te geven. Sommige programma's zijn gespecialiseerd in verborgen of metatags.
Toevoegen aan de lijst
Elke webmaster kan voorkomen dat de zoekmachine pagina's crawlt via robots.txt of de META-tag. De maker van de site kan de site ook handmatig toevoegen aan de indexeringswachtrij, maar het toevoegen ervan betekent niet dat de robot onmiddellijk de gewenste pagina zal crawlen. Om een site aan de wachtrij toe te voegen, bieden zoekmachines ook speciale interfaces. Het toevoegen van een site versnelt het indexeringsproces aanzienlijk. Ook voor snelle registratie in een zoekmachine kunnen webanalysesystemen, sitedirectories, enz. worden gebruikt.