Hoe Een Robots Txt-bestand Samen Te Stellen

Inhoudsopgave:

Hoe Een Robots Txt-bestand Samen Te Stellen
Hoe Een Robots Txt-bestand Samen Te Stellen

Video: Hoe Een Robots Txt-bestand Samen Te Stellen

Video: Hoe Een Robots Txt-bestand Samen Te Stellen
Video: Google AdSense: site-afwijzing en volgende stappen 2024, November
Anonim

Een van de tools voor het beheren van de indexering van sites door zoekmachines is het robots.txt-bestand. Het wordt voornamelijk gebruikt om te voorkomen dat alle of alleen bepaalde robots de inhoud van bepaalde paginagroepen downloaden. Hiermee kunt u "vuilnis" in de zoekresultaten van de zoekmachine verwijderen en, in sommige gevallen, de rangschikking van de bron aanzienlijk verbeteren. Het is belangrijk om het juiste robots.txt-bestand te hebben voor een succesvolle toepassing.

Hoe een robots txt-bestand samen te stellen
Hoe een robots txt-bestand samen te stellen

Noodzakelijk

tekstverwerker

instructies:

Stap 1

Maak een lijst van robots waarvoor speciale uitsluitingsregels worden ingesteld of richtlijnen van de uitgebreide robots.txt-standaard, evenals niet-standaard en specifieke richtlijnen (extensies van een specifieke zoekmachine) zullen worden gebruikt. Voer in deze lijst de waarden in van de User-Agent-velden van de HTTP-verzoekheaders die door de geselecteerde robots naar de siteserver zijn verzonden. De namen van de robots zijn ook te vinden in de referentiesecties van de zoekmachinesites.

Stap 2

Selecteer de groepen URL's van de sitebronnen waartoe toegang moet worden geweigerd aan elk van de robots in de lijst die in de eerste stap is samengesteld. Voer dezelfde bewerking uit voor alle andere robots (een onbepaalde reeks indexeringsbots). Met andere woorden, het resultaat moet meerdere lijsten zijn met links naar secties van de site, groepen pagina's of bronnen van media-inhoud die niet mogen worden geïndexeerd. Elke lijst moet overeenkomen met een andere robot. Er moet ook een lijst zijn met verboden URL's voor alle andere bots. Maak lijsten op basis van de vergelijking van de logische structuur van de site met de fysieke locatie van de gegevens op de server, en door de URL's van de pagina's te groeperen op basis van hun functionele kenmerken. U kunt bijvoorbeeld in de weigerlijsten de inhoud van alle servicecatalogi (gegroepeerd op locatie) of alle gebruikersprofielpagina's (gegroepeerd op doel) opnemen.

Stap 3

Selecteer de URL-tekens voor elk van de bronnen in de lijsten die in de tweede stap zijn samengesteld. Wanneer u uitsluitingslijsten voor robots verwerkt met alleen standaard robots.txt-richtlijnen en ongedefinieerde robots, markeer dan de unieke URL-gedeelten met de maximale lengte. Voor de overige sets adressen kunt u sjablonen maken volgens de specificaties van specifieke zoekmachines.

Stap 4

Maak een robots.txt-bestand. Voeg er groepen richtlijnen aan toe, die elk overeenkomen met een reeks verbodsregels voor een specifieke robot, waarvan de lijst in de eerste stap is samengesteld. Dit laatste moet worden gevolgd door een groep richtlijnen voor alle andere robots. Scheid regelgroepen met een enkele lege regel. Elke regelset moet beginnen met een User-agent-richtlijn die de robot identificeert, gevolgd door een Disallow-richtlijn, die het indexeren van URL-groepen verbiedt. Maak de regels verkregen in de derde stap met de waarden van de Disallow-richtlijnen. Scheid de richtlijnen en hun betekenis met een dubbele punt. Beschouw het volgende voorbeeld: User-agent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Deze set richtlijnen instrueert de hoofdrobot van de Yandex-zoekmachine om de URL niet te indexeren. Deze bevat de substring / temp / data / afbeeldingen /. Het voorkomt ook dat alle andere robots URL's indexeren die /temp /data /.

Stap 5

Vul robots.txt aan met uitgebreide standaardrichtlijnen of specifieke zoekmachinerichtlijnen. Voorbeelden van dergelijke richtlijnen zijn: Host, Sitemap, Request-rate, Visit-time, Crawl-vertraging.

Aanbevolen: