Dynamiske sitemaps er sitemaps, der opdateres automatisk. Disse sitemaps formateres oftest i XML-format – det er denne type sitemaps, man indsender til eksempelvis Googles Search Console for at gøre opmærksom på de sider, der er tilgængelige på ens website. Dynamiske sitemaps kan være brugbare i mange henseender, men de kan også skjule indekseringsproblematikker – og det gør de ofte. Det er et af de elementer, jeg kigger på først, når jeg skal analysere på indekseringen af et website.
Googlebot finder og indekserer sider igennem crawl af links. Når den indekserer en webside, følger den alle links, der måtte være på en side og går fra den ene side til den anden. Linkes der ikke til en side, vil Googlebot ikke blive præsenteret for siden og vil derfor ikke indeksere den.
Er der indsendt et dynamisk sitemap, vil Google følge dette sitemap, uagtet om der er interne links til de sider, der er listet i sitemappet. Indsender man et sitemap, opfordrer man meget kraftigt Google til at tage stilling til de sider, der indsendes, og Google vil se nærmere på dem, så længe siderne er i sitemappet.
Det kan føre til, at sider, der ikke skulle indekseres, bliver det. Det kan også skabe orphan pages, som i realiteten ingen jordisk chance vil have for at rangere i søgemaskinerne, da de ingen intern linkværdi bærer. Orphan pages er sider uden interne links. Dem kan du læse meget mere om i kapitlet om orphan pages.
Det er derfor helt essentielt, at dit XML-sitemap er 100 % retvisende. Er det ikke det, er det bedre ikke at benytte sig af et XML-sitemap.
Hvad skal et XML-sitemap indeholde?
Et XML-sitemap skal indeholde et link til hver eneste side på websitet, som er kompatibel (indekserbar). Et XML-sitemap må IKKE indeholde ikke-kompatible URL’s.
Det vil sige, at sider, der eksempelvis har et canonical-tag til en anden side end sig selv, aldrig bør være at finde i et sitemap, for der er ingen grund til, vi beder Googlebot tage stilling til den pågældende side. Det samme gør sig gældende for alle andre former for ikke-kompatible sider.
Hvis en side blokeret crawling igennem robots.txt, skal den ikke være en del af dit sitemap. Har en side påsat noindex, så skal den heller ikke være i dit sitemap! Sådan noget som sorteringssider påsat filtre må altså under ingen omstændigheder være at finde i et sitemap.
Et sitemap skal altså, kort sagt, indeholde alle kompatible URL’s og ingen ikke-kompatible URL’s.
Hvordan finder jeg ud af, om mit sitemap indeholder ikke-kompatible URL’s?
Det er heldigvis nemt at finde frem til fejl og mangler i ens sitemap, hvis man har indsendt det til Google Search Console og har en aktiv konto.
For at finde frem til siderne skal du åbne din Search Console-konto og logge ind, klik herefter på ‘Dækning’.
Ovenstående oversigt kommer nu frem. Som det kan ses, er der 2.200 gyldige sider og 2.330 sider, der er ekskluderet. Øverst i venstre hjørne er der en lille fane, man kan klikke på. Der står som udgangspunkt ‘Alle kendte sider’. Klik nu på denne, og vælg i stedet ‘Alle indsendte sider’, du får nu en ny sortering, udelukkende med de URLs, optræder i dit sitemap.
Når du har klikket på filtret, får du som sagt nu en ny oversigt. Som man kan se på ovenstående oversigt, vises nu kun resultater for alle indsendte sider (sider fra sitemap). Som det ses, er der i sitemappet 2.100 gyldige URL’s, men der er også 56 sider, der ekskluderet.
En eksklusion kan have mange årsager, fx en side, der er crawlet, men endnu ikke indekseret. Men ofte vil der være tale om ikke-kompatible URL’s, man har glemt at fjerne fra sit sitemap. Har du nogle resultater her, kan du klikke på ‘Ekskluderet’, hvorefter en ny skærm kommer frem.
Her fra ser du alle de udfordringer, der er med dit sitemaps URL’s, og som det kan ses på ovenstående, er der nogle af URL-adresserne, der blot er nye, men endnu ikke indekseret – derfor optræder de i denne liste.
Er du i tvivl, bør du se nærmere på den pågældende udfordring.
Den øverste boks viser ‘Dublet’. Den indsendte webadresse er ikke angivet som kanonisk. Det betyder, at alle URL’s i denne liste peger på en anden adresse end sig selv som værende den kanoniske version.
Hvis dette er tilfældet, skal man ikke have dem i vores sitemap. Man skal blot have de versioner, som de andre peger på, altså de kompatible.
Klik dig ind på dublet for at danne dig et overblik. Der kommer nu en række eksempler frem. Denne liste vil altid maksimalt bestå af 1.000 URL-adresser. Du bør nu sikre dig, at de URL’s, der ligger i den pågældende liste, ikke blot har fået påsat et forkert canonical.
Kan du verificere, at det er korrekt, at disse skal bære et canonical-tag, der peger på en anden side, skal du sørge for at få fjernet adresserne i dit XML-sitemap, så Google ikke længere tager stilling til dem.
Bliver de i sitemappet, vil Google besøge siderne, hver gang den besøger websitet og kigger på sitemappet, hvilket på ingen måder er optimalt.
Henviser du til 4xx-sider, vil de blive ved med at være en udfordring, fordi du stadig henviser til dem igennem dit sitemap – også selvom du ikke linker til dem på dit website. Du dikterer, at Google skal tage stilling til den. Du vil også kunne finde disse fejlsider i ovenstående oversigt i Search Console.
Husk også på, at du kun har en vis mængde crawlbudget til rådighed, for hvert crawl du får foretaget – derfor vil du ikke spilde budgettet på ikke-kompatible sider.