Der kan være mange årsager til, at man ikke ønsker at en specifik side, mappe eller fil på ens website bliver indekseret i Google. I dette indlæg forklarer jeg, hvilke muligheder du har, og hvad du kan gøre, hvis uheldet allerede har været ude, og du har fået noget indekseret, som du ikke ønskede.
Indholdsfortegnelse
Disallow i robots.txt
Robots.txt er en lille fil, du har liggende på din webserver. Hvis du ikke har en, kan du blot oprette den selv. Med en robots.txt fil kan du sende Google og andre crawlere direktiver, som crawlerne vil respektere.
Du kan eksempelvis fortælle botter, at de ikke må kigge nærmere på en specifik mappe, fil eller hele websitet. Robots.txt følger REP (The robots Exclusion Protocol), en webstandard for regulering af webrobotter.
Eksempler på blokering igennem robots.txt:
Hele websitet
Disallow: /
Specifik mappe
Disallow: /mappenavn/
Specifik Fil
Disallow: /mappenavn/filnavn.jpeg
Specifikke filtyper (Du kan indtaste en hvilken som helst fil-ekstension)
Disallow: /*.jpg$
Udeluk alt der indeholder ordet hemmelig
Disallow: *hemmelig
Vær opmærksom på
Siderne, der udelukkes igennem robots.txt, kan stadig findes i Googles supplerende indeks, og her vil man kunne finde sidetitel samt et snippet, der fortæller, at siden er blokeret. Har du fortroligt indhold liggende, er robots.txt derfor en dårlig løsning, da man både kan se udelukkelsen i robots.txt og finde siderne igennem en site kommando i Google. Skal du have udelukket filer eller store mængder duplikeret indhold, er robots.txt dog et fantastisk værktøj, især fordi du kan benytte wildcards i dine direktiver. Du kan også vælge at sende direktiver til specifikke søgemaskiner. Men vil du kun sende direktiver til Googlebot, kan du sætte Googlebot ind som User-agent.
Noindex i robots.txt
Google understøtter ikke officielt noindex i robots.txt, men lytter faktisk til det i de fleste tilfælde. Men du kan ikke være sikker på, at de lytter til det. Derfor anbefaler jeg at lade være med at bruge funktionen. I stedet kan man sætte noindex i headeren eller igennem .htaccess. Det er her, det hører til.
Noindex
Brugen af noindex er den korrekte måde at forhindre indeksering, og det er i virkeligheden kun denne, du skal benytte, hvis du vil holde sider eller mapper ude af søgeindekset. Implementerer du noindex i headeren, vil Google og de andre søgemaskiner slet ikke lægge siden i deres indeks. De vil læse siden, men den vil ikke være at finde i indekset.
Hvis du bruger noindex, skal du derfor være sikker på, at Google kan indeksere siderne. Kan de ikke det, kan de ikke læse dit noindex-tag. Derfor vil brugen af både robots.txt og noindex, annullere noindexet.
Indsæt følgende kode i din header, for at frabede dig indeksering af en side:
<meta name="robots" content="noindex">
Du kan også tilføje follow eller nofollow til strengen, men det giver ikke rigtig mening at gøre. Du bør ikke bruge nofollow internt, og at påsætte follow giver samme resultat som ikke at have det på, og dermed er det fuldstændig overflødigt.
X-Robots-Tag http header
Noindex-tagget er som sagt den rigtige løsning at benytte, hvis man helt skal udelukke sider fra søgeindekset. Problemet er bare, at noindex skal indsættes i en header, og filer bærer ikke en header. For at komme ud over denne problematik, kan man benytte et X-robots-tag, som indsættes i dit websites: .htaccess fil (Apache).
Bloker hele websitet:
Header set X-Robots-Tag "noindex"
Bloker doc-filer
<FilesMatch ".doc$"> Header set X-Robots-Tag "noindex”
Flere forskellige filtyper
<FilesMatch".(htm|html|css|js|php)$"> Header set X-Robots-Tag "noindex”
Kodeordsbeskyttelse
Følsomt indhold kan beskyttes med kodeord. Kodeordsbeskyttelse kan sættes på webserverniveau eller applikationsniveau. Problemet med kodeordsbeskyttelse er, at Google stadig vil kunne vise stien i deres indeks, hvis der eksempelvis laves en site-forespørgsel i Google. Som udgangspunkt kan brugere og søgemaskiner dog ikke få adgang til indholdet, og derfor kan du også benytte kodeordsbeskyttelse til at holde en side ude af det rigtige søgeindeks.
Hvis uheldet har været ude og indeksering har fundet sted
Hvis du har sider eller filer, du ikke ønsker indekseret, men som alligevel er blevet det, er det om at komme i gang og få lukket ned for det. Som det første skal du sørge for at få implementeret noindex eller tage robots.txt i brug.
Efter implementering vil siden forsvinde ud af det normale indeks, men det kan tage rigtig lang tid. Har du ikke tid til at vente, er der heldigvis råd her for. Det kræver blot, at du benytter Googles Search Console (Det gamle Webmaster Tool), men det gør du forhåbentlig allerede. Hvis ikke er det om at få oprettet en konto og tilknyttet dit website.
Log ind i Search Console og naviger til Google Index i navigationsmenuen til venstre. Klik på Remove URLs, klik herefter på ”Create a new removal request” og indsæt den URL, du gerne vil have fjernet fra Googles indeks.
Hvis du skal have fjernet noget i Bing, har de også et super nemt værktøj til formålet. Det hedder Bing Content Removal Tool, og det kræver, som ved Googles værktøj også, at du har en profil tilknyttet og dit website verificeret.
Vi har fjernet en del URL fra vores domain via google tool.
Når man søger kommer der mere end 10 sider frem, men trykker man på side 10, så er der alligevel kun 4, så de øverige har det slettede indhold som man ikke kan se på linket her
https://www.google.dk/#q=site:nordiccall.dk
Men klikker man her
For at vise dig de mest relevante resultater har vi udeladt nogle poster, der ligner de 36, der allerede vises.
Hvis du vil, kan du gentage søgningen, hvor de udeladte resultater medtages.
Så kan man alligevel godt se siderne selvom der står
En beskrivelse for dette resultat er ikke tilgængelig på grund af robots.txt for dette website – få flere oplysninger.
Men som jeg læser det skal man bruge Noindex, men hvis man bruger det på filer under ens domain, kan det så påvirke hvordan google generelt ser på ens domain, at man vælger at skjule noget via Noindex?
Hej Palle,
Tak for din kommentar. Det skyldes at siderne ligger i supplemental indeks og dermed ikke er kvalificeret til at ligge i det rigtige indeks, det ændrer dog ikke på, at det ikke er hensigtsmæssigt, at have resultater liggende, som lander her. Og ja, det er fordi du bruger robots.txt til at ekskludere de sider, skal du have dem helt væk, skal du benytte noindex.
Nej – de foretrækker jo netop at du skjuler det, som ikke skal indekseres.
Super artikel og kommer lige på rette tid og sted, da jeg har en masse ældre produkter, som ved en fejl var “synlige” og blev indexeret så nu kan jeg gå i krig med det.
Held og lykke med din nye tilværelse som selvstændig :-)
Har tidligere brugt dig som foredragsholder og med succes :-)
Hej Henrik,
Godt at høre, du kunne bruge artiklen. Og mange tak :-)
Hej Henrik
Vi er ved at opbygge en engelsk version af vores website, og i den forbindelse vil jeg høre, om det ikke er best practice at lukke ned for indekseringen, mens vi bygger indholdet?. Jeg har konsulteret mig med vores IT afdeling og de har ikke anvendt angivet i robots.txt filen, at det engelske indhold ikke skal indekseres. Men bør det ikke det, nu når det tager noget tid for at at bygge siderne og lave det engelske indhold? Når indholdet er færdigt, ville jeg åbne op for indekseringen igen.
De bedste hilsnener
Maria
Hej Maria,
Absolut og jeg kan se at uheldet allerede har været ude, i har allerede fået indekseret 62 sider fra det engelske website, prøv at lave en site:https://idaforsikring.dk/en i Google, så kan du se dem. Det skal i have lukket ned for hurtigst muligt.
Samtidig skal i have lavet en korrekt opsætning, så Google forstår at indholdet under /en/ er målrettet det engelske sprog, lige nu deklarerer i blot sproget, men husk på at det engelske indhold ligger på et dansk domæne, her er det meget vigtigt, at man definerer at det altså ikke er tiltænkt det dansktalende folk.
Hvis i har behov for lidt sparring, skal i være velkomne til at tage fat i mig, kan fanges på [email protected] eller [email protected]
Hej Henrik
Skal header og footer sættes til noindex i en wordpress opsætning?
Jeg bruger Rank math til SEO og her skal jeg sætte et nøgleord på henholdsvis header og footer. Men giver det mening at det overhovedet indexerers?
Hvis man sætter header til noindex, påvirker det så indholdet på resten af sitet?
Hej Christina,
Nej, det skal du ikke gøre. Det vil blokere for vigtige navigationslinks, i din header og footer. Det giver dog ikke mening at sætte søgeord i header og footer, det lyder som om den behandler det som et stykke content? I Yoast vil man typisk have mulighed for at lukke ned for taksanomier mv. igennem indstillingerne, men ikke header og footer.