Utelukke en webside eller nettsted fra søkemotorer ved hjelp av en Robots tekstfil

September 9  by Eliza

Du kan bruke en roboter tekstfil for å blokkere en søkemotor edderkopp fra å gjennomgå ditt nettsted eller en del av nettstedet ditt. For eksempel kan du ha en utvikling versjon av ditt nettsted hvor du jobber på endringer og tillegg til å teste dem før de blir en del av live webområde. Du ønsker ikke søkemotorene å indeksere dette "in-progress" kopi av ditt nettsted fordi det ville føre til en duplikat-innhold konflikt med det faktiske webområde. Du ville heller ikke ønsker at brukerne skal finne dine in-progress sider. Så du trenger å blokkere søkemotorer i å se disse sidene.

Den roboter tekstfil jobb er å gi søkemotorene instruksjoner om hva som ikke skal edderkopp innenfor ditt nettsted. Dette er en enkel tekstfil som du kan lage ved hjelp av et program som Notisblokk, og deretter lagre med filnavnet robots.txt. Plassere filen i roten på ditt nettsted (som www. Dittdomene .com / robots.txt), som er der edderkoppene forventer å finne det. Faktisk, når søkemotoren edderkopper kommer til webområdet ditt, er det første de ser for roboter tekstfil. Dette er grunnen til at du bør alltid ha en roboter tekstfil på nettstedet ditt, selv om det er tomt. Du ønsker ikke edderkoppene 'første inntrykk av nettstedet ditt for å være en 404-feil (feil som kommer opp når en fil ikke kan lokaliseres).

Med en roboter tekstfil, kan du velge å ekskludere enkelte sider, kataloger eller hele nettstedet. Du må skrive HTML-koden bare så, eller edderkopper ignorere det. Kommandosyntaksen du trenger å bruke kommer fra Robots Exclusion Protocol (REP), som er en standard protokoll for alle webområder. Og det er veldig presis; bare bestemte kommandoer er tillatt, og de må være skrevet riktig med spesiell plassering, store / små bokstaver, tegnsetting og mellomrom. Denne filen er et sted der du ikke vil at Webmaster bli mer kreativ.

En veldig enkel roboter tekstfil kan se slik ut:

User-agent: *
Forby: / personlig /

Dette roboter tekstfil forteller alle søkemotor roboter at de er velkommen til å krype hvor som helst på nettstedet ditt bortsett fra katalog kalt / personlig /.

Før du skriver en kommandolinje (for eksempel Forby: / personlig /), må du først identifisere hvilke robot (e) du er adressering. I dette tilfellet er linjen Bruker-middel: * løser alle roboter fordi den bruker en stjerne, som er kjent som den ville kort karakter fordi den representerer hvilket som helst tegn. Hvis du ønsker å gi forskjellige instruksjoner til ulike søkemotorer, så mange steder gjør, skrive egne User-agent-linjer fulgt av deres spesifikke kommandolinjer. I hvert User-agent: linje, ville du erstatte stjerne (*) tegnet med navnet på en bestemt robot:

User-agent: Googlebot ville få Google oppmerksomhet.

User-agent: Slurp ville adresse Yahoo !.

User-agent: MSNBot ville adresse Microsoft Live Search.

Merk at hvis dine roboter tekstfil har User-agent: * instrukser samt en annen User-agent: line spesifisere en bestemt robot, følger den spesifikke roboten kommandoene du ga det individuelt i stedet for de mer generelle instrukser.

Du kan skrive inn bare noen få forskjellige kommandoer til en robots.txt-fil:

  • . Unntatt hele området å utelukke roboten fra hele serveren, bruker du kommandoen:

    Forby: /

    Denne kommandoen fjerner faktisk alt av nettstedets websider fra søkeindeksen, så vær forsiktig så du ikke å gjøre dette med mindre det er det du virkelig ønsker.

  • Unntatt en katalog (Et ord av forsiktighet - vanligvis, vil du være mye mer selektiv enn å ekskludere en hel katalog.) For å utelukke en katalog (inkludert alt innhold og underkataloger), legg den inne skråstreker.:

    Forby: / personlig /

  • Unntatt en side. Du kan skrive en kommando for å utelukke bare en bestemt side. Du kun bruke en skråstrek i begynnelsen og må inneholde filtypen på slutten. Her er et eksempel:

    Forby: /private-file.htm

  • . Regissere edderkopper til nettstedet ditt kart I tillegg til Forby :, annen nyttig kommando for SEO-innsats angir hvor roboten kan finne nettstedet ditt kart - siden som inneholder linker gjennom nettstedet organisasjon, som en innholdsfortegnelse:

Sitemap: http://www.yourdomain.com/sitemap.xml

Det skal påpekes at i tillegg til de som tidligere er nevnt kommandoer, gjenkjenner Google tillater også. Dette gjelder bare Google og kan forvirre andre motorer, så du bør unngå å bruke det.

Du bør alltid ta på slutten av roboter tekstfil en Sitemap: kommandolinje. Dette sikrer at robotene finne nettstedet ditt kart, som hjelper dem å navigere mer fullstendig gjennom nettstedet ditt slik at flere av nettstedet blir indeksert.

Noen notater om roboter tekstfil syntaks:

  • Kommandoene er store og små bokstaver, så du trenger en hovedstad D i tillat.
  • Det skal alltid være en plass etter kolon etter kommandoen.
  • Å ekskludere en hel katalog, sette en skråstrek etter så vel som før mappenavnet.
  • Hvis du kjører på en UNIX-maskin, er alt store og små bokstaver.
  • Alle filer som ikke er spesifikt utelatt er tilgjengelig for spidering og indeksering.

For å se en fullstendig liste over kommandoer, robot navn, og instruksjoner om å skrive roboter tekstfiler, gå til Web Robot Pages.

Som en ytterligere sikkerhet, gjør det en del av din ukentlige nettstedet vedlikehold for å sjekke roboter tekstfil. Det er en så kraftig på / av-bryter for nettstedets SEO innsats at det fortjener en vanlig titt å sørge for at det fortsatt er "på" og fungerer som den skal.