Siden lanceringeren af det nye Search Console, modtager jeg ofte e-mails fra folk, der bliver nervøse over de mange advarsler der sendes ud derfra. Det er ikke så underligt, for det nye Search Console har det med at ”male fanden på væggen”. I denne guide vil jeg forklare dig, hvad de forskellige elementer under dækningsoversigten betyder, og hvad du kan bruge dem til. Jeg vil gøre det klart, hvornår du skal være nervøs og ikke mindst hvornår du ikke skal.
Indholdsfortegnelse
- Oversigts-siden
- Dækningsoversigten
- Den indsendte webadresse er angivet som Noindex
- Der er crawlproblemer med den indsendte webadresse
- Identisk side uden kanonisk tag
- Google har valgt en anden kanonisk side end brugeren
- Side med omdirigering
- Den indsendte webadresse blev ikke fundet (404-fejl)
- Den indsendte webadresse lader til at indeholde en blød 404-fejl
- Omdirigeringsfejl
- Crawlet endnu ikke indekseret
- Den indsendte webadresse er angivet som ”noindex”
- Serverfejl (5xx)
- Den indsendte webadresse er blokeret af robots.txt
- Den indtastede URL svarer med en uautoriseret forespørgsel (401)
- Registreret – endnu ikke indekseret
Oversigts-siden
Den første side du bliver mødt af i det nye Search Console er oversigtssiden. I denne finder du en hurtigt oversigt over dit websites helbred og synlighed. Herfra kan der navigeres til resten af Search Console-universet.
Dækningsoversigten
Under indeks findes feltet ”Dækning”, som kort fortalt er en oversigt over dækningen af ens website i Googles indeks.
I det første felt får man en hurtig oversigt, der viser hvor mange sider der melder fejl, sider der er gyldige, men som indeholder advarsler, gyldige sider (kompatible URLs) og ekskluderet (ikke kompatible) som er en liste over alle de sider Google kender til, men som af den ene eller anden årsag ikke er inkluderet i indekset.
Kompatible URLs er URLs vi gerne vil have indekseret. Det betyder, at URLen hverken bærer et noindex, et canonical, ikke er blokeret i robots.txt eller på andre måder forhindret i at blive indekseret.
Den indsendte webadresse er angivet som Noindex
Denne oversigt viser sider, som du har sendt til indeksering i Google, men som er påsat et Noindex-tag og derfor ikke kan inkluderes i Googles søgeresultater. Du får denne advarsel, da det kan være, du ikke er opmærksom på, at siderne er sat til noindex.
Det kan også virke lidt besynderligt at sende en side til indeksering, der bærer noindex. At sende en side til indeksering betyder dog ikke andet end: du enten har linket til siden, tilføjet den til et sitemap eller bedt Google om at indeksere den igennem Search Console.
For websitet jeg bruger til denne gennemgang, drejer det sig om tre sider, en kurv-side, en min-konto side, og en kasse-side. Disse sider ønsker jeg ikke indekseret, derfor er de påsat et noindex-tag, de har intet at gøre i søgeresultaterne, da de ikke er målrettede nogen søgetermer.
Det ændrer dog ikke på, at der kommer en advarsel fra Search Console om, at disse sider der er sendt til indeksering, er påsat noindex. Siderne er ”sat til indeksering” fordi der linkes til dem, igennem websitenavigationen.
På store websites kan indsættelse af noindexes se voldsomt ud, særligt notifikationen på mail
På et kundewebsite, har jeg fornyligt indsat en række noindexes på en lang række parameter sider. Der linkes til disse sider igennem strukturen på websitet, ikke overraskende, da de bruges til at indsnævre og sortere indholdet på websitet.
I det her tilfælde var der tale om mange millioner sider, hvorfor websiteejerne fik en advarsel om at adskillige millioner sider, der var sat til indeksering, nu kørte med noindex. Den besked lød naturligvis faretruende, men det var jo blot en information fra Search Console omkring den ændring, der er foretaget.
Og sådan er de fleste af de advarsler, man får fra det nye Search Console.
Der er crawlproblemer med den indsendte webadresse
Denne status er langt sværere at afkode end alle de andre statusser tilsammen. Dette er boksen Google smider URLs ind i, hvor de ikke kan definere årsagen til, at siden ikke kan crawles. Du er dermed på egne ben og skal selv prøve at analysere dig frem til, hvorfor den ikke kan crawles.
Og hvordan gør du så det? Her er et par pointers til at komme videre:
- Kør siden igennem ”Fetch som Google” og se om du kan finde forskelle imellem hvad Google renderer og hvad du selv får frem på skærmen, når du tilgår siden i din almindelige browser.
- Undersøg hvor lang tid de pågældende URLs er om at svare. Hvis siderne er for lang tid om at svare, kan de ende på denne liste. På meget store websites er dette meget ofte årsagen! Eksempelvis websites bestående af millioner af sider, hvor forskellige URLs på skift melder crawling-fejl. Dette er meget ofte fra dybe crawls, hvor Googlebots budget løber ud, og derfor ikke kommer igennem alle siderne pga. langsom loadtid.
- Undersøg om der er store mængder Javascript på de sider, du får fejl på. Googlebot venter ikke mere end 5 sekunder på at et Javascript køres. Tager det længere tid, vil Google ikke loade det. Det kan være meget problematisk, hvis man eksempelvis kører med en Javascript-menu, kombineret med et meget stort website.
- Undersøg om du har blokeringer af ressourcer, der hindrer ordentligt crawling af de konkrete sider.
Advarsler i denne statusboks skal tages seriøst. Det betyder helt konkret, at du har sider, som er indsendt til indeksering, men som Google ikke har kunne crawle.
Identisk side uden kanonisk tag
I denne oversigt finder man URLs, der forefindes flere steder på websitet, hvor der ikke er valgt en kanonisk adresse (canonical).
Google lister her de sider, de ikke mener er den korrekte versionering. Derfor skal man i langt de fleste tilfælde få indsat et canonical tag, der så peger på den primære kanoniske version.
Google har valgt en anden kanonisk side end brugeren
Denne oversigt er virkelig brugbar og er en oversigt, som Google altid burde have haft i deres Search Console. I denne oversigt finder du URLs, som du som websmater har defineret som kanonisk, men hvor Google er uenig og derfor har valgt en anden adresse at vise i stedet.
Det er selvfølgelig vigtigt, at den pågældende URL undersøges, samt at man tilretter den kanoniske adresse, hvis Google altså har ret i deres formodning, hvilket de ofte har.
Side med omdirigering
Denne oversigt indeholder ikke overraskende URLs med omdirigeringer. URLs der omdirigeres, skal selvfølgelig ikke indekseres, kun de sider der omdirigeres til.
Denne oversigt bør derfor kun indeholde URLs, som ikke bør være i indekset, da der er valgt en anden side, der omstilles til i stedet for.
Den indsendte webadresse blev ikke fundet (404-fejl)
Denne status giver sig selv, du har indsendt adresser til indeksering som ikke svarer korrekt. Dette kan skyldes fejl i dit sitemap.
Du har måske fjernet sider og dit sitemap er endnu ikke opdateret. Derfor indeholder det URLs der ikke længere eksisterer. Er de at finde i dit sitemap, som du har tilmeldt i Search Console, vil Google blive ved med at prøve at besøge siderne, netop fordi du inviterer dem til at gøre det.
Gennemgå dine sitemaps og se om du kan finde de URLs, der ikke fungerer. Det kan også være, du har indsendt en adresse igennem Search Console, hvor du har indtastet URL forkert. Endelig kan det være, at du internt linker til gamle sider, der er fjernet.
Er dette tilfældet, vil du kunne se det, ved at klikke på den enkelte fejlside og se hvor der kommer links fra. Links kan også være fra eksterne kilder, der også sikrer, at Google kommer forbi igen og igen.
Den indsendte webadresse lader til at indeholde en blød 404-fejl
En blød 404-fejl betyder, at en webadresse på websitet returnerer en side, der fortæller brugeren at den ikke eksisterer, men siden returnerer en statuskode 200 OK i stedet for en 404 statuskode.
En blød 404-side indeholder som ofte lidt eller intet brugbart indhold – eksempelvis: vi fandt ikke hvad du søgte, måske du kan bruge følgende artikler/produkter i stedet. Ofte er disse sider, uden den store sammenhæng og dermed ikke relevante sider at returnere.
Ifølge Google selv, er det dårlig praksis. Det tvinger nemlig Googlebot til hele tiden at besøge siden, og det fjerner fokus fra at crawle dine rigtige sider.
Soft 404-fejlsider stammer ofte fra sitemaps, der ikke er opdateret. Du kan igen, ved at klikke på undersøgelse af webadresse, få at vide, hvordan Google finder frem til den og dermed få elimineret elementet.
Omdirigeringsfejl
Udarbejder du mange redirects og glemmer du første del af kæden, når der skal laves nye, opstår der ofte det man kalder for omdirigeringskæder, hvor en side omdirigerer til en anden side, for så at omdirigere videre til en tredje side.
Omdirigeres der for mange gange, følger Googlebot ikke med. Denne grænse skulle efter sigende, nås efter 5 omdirigeringer.
Omdirigeringsfejl kan dog også bestå af redirect-loops, hvor den ene side omdirigerer til den ene side, for så at omdirigere tilbage igen, altså det man kalder en uendelige lykke.
Fælles for alt i denne liste, er at der skal tages handling på omdirigeringsfejlene.
Crawlet endnu ikke indekseret
Denne oversigt indeholder sider som Googlebot har crawlet, men som de endnu ikke har lagt i deres indeks. Hvorvidt siderne kommer i indeks, fortæller oversigten dog intet om, udelukkende at Googlebot kender til siden og at de har crawlet den.
Det er vigtigt du holder øje med denne oversigt, da dine sider meget gerne skulle blive indekseret over tid, gør de ikke dette, har dit website udfordringer med dets indeksering.
Der kan være mange årsager til at sider ikke bliver indekseret, selvom Google kender til dem. Siderne kan være af så ringe kvalitet, at de ikke ønsker dem i indekseret og der er desværre ikke en sorteringsfunktion i Search Console, der viser os de sider, Google ikke mener bør være i deres indeks.
Som ofte skyldes dette redundant indhold, tyndt indhold eller duplikeret indhold.
Den indsendte webadresse er angivet som ”noindex”
Denne oversigt viser alle sider der er sendt til indeksering igennem links, Search Console eller sitemap der bærer noindex-tagget. Årsagen til at Google påpeger dette, er ikke overraskende, at det ikke giver mening at bede om at indeksere en side, der er påsat noindex.
Derfor kan og bør denne oversigt bruges til to ting. Dobbelttjekke om siden virkelig skal bære noindex-tagget og hvis dette er tilfældet, bruges oversigten til at sørge for at afkoble det element, der gør at den sendes til indeksering.
Serverfejl (5xx)
I denne oversigt findes sider der ikke kan nås, hvor det er serveren, der melder fejl på forespørgslen. Googlebot har prøvet at tilgå URLen, men forespørgslen er enten timet ud eller også har websitet haft for travlt til at håndtere den.
Serverfejl skal naturligvis ordnes med det samme de registreres, hvis de altså kan. Det er meget normalt, at Googlebot får store websites til at melde 500-fejl, fordi der ikke er nok kapacitet på serveren til deres crawl. I sådanne tilfælde, kan man prøve at nedjustere crawlrate. Vi taler dog her kun om websites, der består af millioner af URLs.
Og bedre er det, hvis man finder en bedre serverløsning, der kan håndtere både brugere, data og Googlebot på en og samme tid.
Den indsendte webadresse er blokeret af robots.txt
Denne oversigt indeholder URLs Google har besøgt, som er blokeret igennem robots.txt. Under grafen finder man som altid en oversigt over URLs.
Klikker man på en URL, kan man vælge at teste, om URLen stadig er blokeret af robots.txt. Nedenstående screenshot er fra et website, der består af millioner af URLs, hvor der som et forsøg, blev blokeret for hele websitet, for at spare på serverkapaciteten under Black Friday tilbage i november måned i år.
Hele websitet var blokeret igennem robots.txt i et døgn og nedenstående sider, er dem Google nåede at registrere som blokeret i det døgn, der var blokering på. Det fulde website er mange gange større, end det antal sider, der her er berørt.
I et sådan tilfælde, skal man kunne klikke på de enkelte URLs og efterfølgende validere, at de ikke længere er blokeret. Selve oversigten og URLs forsvinder først, når Google har besøgt siderne igen og registreret, at der ikke længere er en blokering eller indtil det tidspunkt hvor man genvaliderer igennem Search Console.
At advarslen består i Search Console, betyder altså ikke nødvendigvis, der stadig er udfordringer.
Har du mod forventning blokeret for noget, du ikke skulle have blokeret, kan du igennem Search Console teste, hvad det er for en streng i robots.txt, der blokerer den pågældende side. Herefter er det blot at redigere og ændre sin robots.txt og fjerne blokeringen, så Googlebot igen kan få adgang.
Den indtastede URL svarer med en uautoriseret forespørgsel (401)
Denne oversigt indeholder URLs, der svarer med en 401 statuskode (uautoriseret forespørgsel). URLs der placeres her, er begrænsede og der kræves autorisation for at få adgang.
Er det ikke meningen, at siden skal være blokeret, er det blot at fjerne autorisationsprocessen, så Google kan få adgang til siden.
Registreret – endnu ikke indekseret
Denne oversigt viser sider, som Googlebot har set, men som de ikke har crawlet endnu. I næsten alle tilfælde skyldes dette, at serveren har været overbelastet, hvorfor Googlebot ikke har kunne nå siderne og derfor ikke har kunne crawle dem.
Google husker dog adressen, og prøver på et senere tidspunkt igen at få adgang til siden for at få den crawlet.
Hej Henrik – god artikel :-) Synes personligt, at det nye makeover er pænt, men det mangler i den grad en del funktionalitet/muligheder fra den gamle Search Console.
Jeg har en kunde hvor alle sider er indekseret helt fint, med undtagelse af selve Booking sitet. Der er altså Online Booking på deres WordPress hjemmeside, og det køres igennem et plugin der hedder Checkfront. Vil du mene, at det er kritisk at booking-siden ikke er indekseret? Den er ikke sat til No-index, og siden er nogle år gammel. Det må derfor være noget i robot.txt, tænker du?
Venlig hilsen
Nicolai Sørensen
Jeg ser en meget stor mængde Omdirigerings fejl på rigtig mange sider, men disse sider bliver hverken omdirigeret fra eller til. Enkelte gange har Google ret. Der bliver omdirigeret 1 gang. Men de fleste gange er der overhovedet ingen redirects i nærheden…
Jeg stoler ikke på Google…
tak for god artikel, hilsen bjørn :)