Der kan være mange årsager til, at man ikke ønsker at en specifik side, mappe eller fil på ens website bliver indekseret i Google. I dette indlæg forklarer jeg, hvilke muligheder du har, og hvad du kan gøre, hvis uheldet allerede har været ude, og du har fået noget indekseret, som du ikke ønskede.
saadan-blokerer-du-for-indeksering2

Disallow i robots.txt

Robots.txt er en lille fil, du har liggende på din webserver. Hvis du ikke har en, kan du blot oprette den selv. Med en robots.txt fil kan du sende Google og andre crawlere direktiver, som crawlerne vil respektere.

Du kan eksempelvis fortælle botter, at de ikke må kigge nærmere på en specifik mappe, fil eller hele websitet. Robots.txt følger REP (The robots Exclusion Protocol), en webstandard for regulering af webrobotter.

Eksempler på blokering igennem robots.txt:

Hele websitet

Disallow: /

Specifik mappe

Disallow: /mappenavn/

Specifik Fil

Disallow: /mappenavn/filnavn.jpeg

Specifikke filtyper (Du kan indtaste en hvilken som helst fil-ekstension)

Disallow: /*.jpg$

Udeluk alt der indeholder ordet hemmelig

Disallow: *hemmelig

Vær opmærksom på
Siderne, der udelukkes igennem robots.txt, kan stadig findes i Googles supplerende indeks, og her vil man kunne finde sidetitel samt et snippet, der fortæller, at siden er blokeret. Har du fortroligt indhold liggende, er robots.txt derfor en dårlig løsning, da man både kan se udelukkelsen i robots.txt og finde siderne igennem en site kommando i Google. Skal du have udelukket filer eller store mængder duplikeret indhold, er robots.txt dog et fantastisk værktøj, især fordi du kan benytte wildcards i dine direktiver. Du kan også vælge at sende direktiver til specifikke søgemaskiner. Men vil du kun sende direktiver til Googlebot, kan du sætte Googlebot ind som User-agent.

Noindex i robots.txt

Google understøtter ikke officielt noindex i robots.txt, men lytter faktisk til det i de fleste tilfælde. Men du kan ikke være sikker på, at de lytter til det. Derfor anbefaler jeg at lade være med at bruge funktionen. I stedet kan man sætte noindex i headeren eller igennem .htaccess. Det er her, det hører til.

Noindex

Brugen af noindex er den korrekte måde at forhindre indeksering, og det er i virkeligheden kun denne, du skal benytte, hvis du vil holde sider eller mapper ude af søgeindekset. Implementerer du noindex i headeren, vil Google og de andre søgemaskiner slet ikke lægge siden i deres indeks. De vil læse siden, men den vil ikke være at finde i indekset.

Hvis du bruger noindex, skal du derfor være sikker på, at Google kan indeksere siderne. Kan de ikke det, kan de ikke læse dit noindex-tag. Derfor vil brugen af både robots.txt og noindex, annullere noindexet.

Indsæt følgende kode i din header, for at frabede dig indeksering af en side:

<meta name="robots" content="noindex">

Du kan også tilføje follow eller nofollow til strengen, men det giver ikke rigtig mening at gøre. Du bør ikke bruge nofollow internt, og at påsætte follow giver samme resultat som ikke at have det på, og dermed er det fuldstændig overflødigt.

X-Robots-Tag http header

Noindex-tagget er som sagt den rigtige løsning at benytte, hvis man helt skal udelukke sider fra søgeindekset. Problemet er bare, at noindex skal indsættes i en header, og filer bærer ikke en header. For at komme ud over denne problematik, kan man benytte et X-robots-tag, som indsættes i dit websites: .htaccess fil (Apache).

Bloker hele websitet:

Header set X-Robots-Tag "noindex"

Bloker doc-filer

<FilesMatch ".doc$">
Header set X-Robots-Tag "noindex”

Flere forskellige filtyper

<FilesMatch".(htm|html|css|js|php)$">
Header set X-Robots-Tag "noindex”

Kodeordsbeskyttelse

Følsomt indhold kan beskyttes med kodeord. Kodeordsbeskyttelse kan sættes på webserverniveau eller applikationsniveau. Problemet med kodeordsbeskyttelse er, at Google stadig vil kunne vise stien i deres indeks, hvis der eksempelvis laves en site-forespørgsel i Google. Som udgangspunkt kan brugere og søgemaskiner dog ikke få adgang til indholdet, og derfor kan du også benytte kodeordsbeskyttelse til at holde en side ude af det rigtige søgeindeks.

Hvis uheldet har været ude og indeksering har fundet sted

Hvis du har sider eller filer, du ikke ønsker indekseret, men som alligevel er blevet det, er det om at komme i gang og få lukket ned for det. Som det første skal du sørge for at få implementeret noindex eller tage robots.txt i brug.

Efter implementering vil siden forsvinde ud af det normale indeks, men det kan tage rigtig lang tid. Har du ikke tid til at vente, er der heldigvis råd her for. Det kræver blot, at du benytter Googles Search Console (Det gamle Webmaster Tool), men det gør du forhåbentlig allerede. Hvis ikke er det om at få oprettet en konto og tilknyttet dit website.

Log ind i Search Console og naviger til Google Index i navigationsmenuen til venstre. Klik på Remove URLs, klik herefter på ”Create a new removal request” og indsæt den URL, du gerne vil have fjernet fra Googles indeks.

Fjernelse af adresse i Google Search Console
Fjernelse af adresse i Google Search Console

Hvis du skal have fjernet noget i Bing, har de også et super nemt værktøj til formålet. Det hedder Bing Content Removal Tool, og det kræver, som ved Googles værktøj også, at du har en profil tilknyttet og dit website verificeret.