SEO Ordbog

Crawling

Webcrawlere • Googlebot • Opdagelse af sider • Teknisk SEO

🕐

24/7

Googlebot crawler kontinuerligt

🤖

6+ typer

Forskellige Google crawlers

🔍

Følger links

For at opdage nyt indhold

Hvordan fungerer crawling?

Søgemaskiner fungerer ved at crawle sider på Internettet med deres web crawlers, Googles webcrawlers hedder GoogleBot og der findes mange af dem, ikke kun en enkelt. Googlebot har travlt, den skal finde alle nye sider på Internettet og samtidig holde øje med sider der bliver opdateret med ny information.

Søgemaskinebotter navigerer Internettet ved at følge links på sider de crawler. Hver gang en søgemaskinebot falder over et link det ikke har set før, vil den prøve at følge det, for at finde ud af hvad der findes på den pågældende side. Når hjemmesideadressen først er registreret og crawlet, skal den efterfølgende indekseres.

Googlebot crawler

Det er vigtigt, at man forstår hvordan en webcrawler fungerer, hvis man ønsker at arbejde med og forbedre sine organiske placeringer i søgeresultaterne.

Google's forskellige crawlers

Googlebot Desktop

Crawling af desktop-versioner af websites

Karakteristika:

• Følger JavaScript

• Renderer sider

• Desktop viewport

Frekvens: Dagligt for store sites

💡 Optimer for desktop-oplevelse og hastighed

User Agent:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Smartphone

Mobile-first indexing og crawling af mobilversioner

Karakteristika:

• Mobil-viewport

• Touch-simulering

• Mobile-first indexing

Frekvens: Primær crawler for de fleste sites

💡 Prioriter mobil hastighed og responsivt design

User Agent:

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Image

Crawling og indeksering af billeder

Karakteristika:

• Fokus på billedindhold

• Analyse af alt-tekst

• Understøtter image sitemap

Frekvens: Baseret på billedopdateringer

💡 Optimer alt-tekster og billedkomprimering

User Agent:

Googlebot-Image/1.0

Googlebot Video

Opdagelse og indeksering af videoindhold

Karakteristika:

• Udtrækker video-metadata

• Genererer thumbnails

• Analyserer varighed

Frekvens: Video-specifik crawling

💡 Strukturerede data for videoer og video-sitemaps

User Agent:

Googlebot-Video/1.0

Googlebot News

Nyhedsindhold til Google News

Karakteristika:

• Hurtig crawling

• Nyhedsspecifikke signaler

• Fokus på friskhed

Frekvens: Realtid for nyhedssites

💡 News-sitemap og strukturerede data for artikler

User Agent:

Googlebot-News

Google-InspectionTool

URL Inspection-værktøjet i Search Console

Karakteristika:

• Live test

• Realtidsrendering

• Debug-information

Frekvens: On-demand fra Search Console

💡 Test crawlability gennem Search Console

User Agent:

Mozilla/5.0 (compatible; Google-InspectionTool/1.0)

Hvad er crawling?

Når der indtastes en søgeforespørgsel i en søgemaskine, kunne man måske foranlediges til at tro, at søgemaskinen kiggede hele Internettet igennem for at levere svar.

Det gør de i princippet også, men de svar de leverer, kender de allerede til, de er allerede blevet crawlet og efterfølgende indekseret så de lynhurtigt kan gengives for søgemaskinens brugere.

Søgemaskiner er afhængige af store databaser over sider, og det er i de databaser du søger, ikke hele Internettet.

Databasen er fyldt op med sider, søgemaskinen allerede har godkendt som gode og brugbare svar, der kan bruges til at matche brugeres forespørgsler med.

Søgemaskinebotter (crawlere) har i princippet kun to opgaver de skal løse:

• Finde nye sider på Internettet der kan indekseres

• Udtrække information fra hver ny webside de finder

Herefter analyseres indholdet og sorteres, for dernæst at lande i søgemaskinernes indeks.

Botterne tager dog forbehold for hvad der sendes til indeksering, eksempelvis vil sider der bryder loven ikke blive sendt videre til indeksering, det kunne eksempelvis være sådan noget som salg af våben, narkotika eller andet illegalt.

💡 Næste skridt: Vil du vide mere om hvad der sker, efter crawlerne har leveret informationen tilbage til Google og indekseringsprocessen startes? Så læs videre om indeksering, i denne artikel.

Crawl budget faktorer

Crawl Demand

Høj indflydelse

Hvor meget Google har lyst til at crawle dit site

Komponenter:

• Sitets popularitet og autoritet

• Hvor friskt indholdet er og hvor ofte det opdateres

• Sidehastighed og samlet performance

• Intern linkstruktur

Optimering:

• Byg backlinks af høj kvalitet

• Udgiv friskt, relevant indhold regelmæssigt

• Forbedr sidehastighed og Core Web Vitals

• Styrk den interne linkstruktur

Crawl Rate Limit

Middel til høj indflydelse

Den maksimale crawl-hastighed uden at det går ud over sitets performance

Komponenter:

• Serverens svartider

• Serverkapacitet og hosting

• Historiske crawl-data

• Sitets størrelse og kompleksitet

Optimering:

• Opgrader hosting for bedre performance

• Brug effektiv caching

• Optimer database-forespørgsler

• Hold øje med serverbelastning under crawl

Crawl Health

Høj indflydelse

Sitets sundhed og tekniske tilstand

Komponenter:

• Antal serverfejl (5xx)

• Redirect-kæder og loops

• Problemer med duplicate content

• Robots.txt skal være tilgængelig

Optimering:

• Ret serverfejl med det samme

• Minimer redirect-kæder

• Løs duplicate content

• Sørg for at robots.txt er tilgængelig

Site arkitektur for optimal crawling

Flad sitestruktur

Kritisk

Reducer antallet af klik fra forsiden til enhver underside

Implementering:

• Maks 3-4 niveauer i dybden

• Logisk kategorihierarki

• Brødkrummenavigation

• Tydelig URL-struktur

Fordele:

• Mere effektiv crawling

• Bedre fordeling af PageRank

• Hurtigere opdagelse af nye sider

• Bedre brugeroplevelse

📊 Måling: Analyse af klik-dybde i crawling-værktøjer

Strategisk intern linking

Høj

Gennemtænkt linking der guider crawlere til de vigtigste sider

Implementering:

• Hub-sider med mange udadgående links

• Kontekstuelle links i indholdet

• Sektioner med relaterede indlæg

• Strategiske footer- og navigationslinks

Fordele:

• Bedre opdagelse af sider

• Optimering af PageRank-flow

• Højere crawl-frekvens på de vigtige sider

• Stærkere emneautoritet

📊 Måling: Analyse af interne links og PageRank-simulering

URL-optimering

Middel til høj

SEO-venlige og crawler-venlige URL-strukturer

Implementering:

• Beskrivende URLs med søgeord

• Ensartede URL-mønstre

• Undgå dynamiske parametre hvor muligt

• Canonical-tags ved duplicate content

Fordele:

• Bedre forståelse af indholdet under crawl

• Højere relevans på søgeord

• Færre problemer med duplicate content

• Lettere at dele

📊 Måling: URL-audit og URL Inspection i GSC

Mobile-first arkitektur

Kritisk

Design sitestrukturen med mobil-crawling som prioritet

Implementering:

• Responsivt design

• Mobilvenlig navigation

• Touch-optimerede interaktive elementer

• Hurtig indlæsning på mobil

Fordele:

• Følger Googles mobile-first indexing

• Bedre mobil brugeroplevelse

• Bedre placeringer på mobil

• Ensartet crawling på tværs af enheder

📊 Måling: Mobil brugbarhedstest og PageSpeed på mobil

Almindelige crawling problemer

Blokering af crawlere

Kritisk

Crawlere bliver utilsigtet blokeret fra sitet

Årsager:

• For restriktiv robots.txt

• Server-side blokering af bot-trafik

• Blokering fra CDN eller firewall

• Adgangskode på offentlige sider

Symptomer:

• Dramatisk fald i indekserede sider

• Lavere organisk synlighed

• GSC-fejl om blokerede ressourcer

• Manglende sider i site:-søgninger

Løsninger:

• Gennemgå og ret direktiver i robots.txt

• Whitelist legitime crawlere

• Sæt CDN op til at tillade crawlere

• Fjern unødvendig adgangskodebeskyttelse

🛡️ Forebyggelse: Løbende GSC-overvågning og test med crawler-simulering

Uendelige crawl-rum

Høj

Facetnavigation og URLs med parametre skaber uendelige stier

Årsager:

• Ukontrolleret facetnavigation

• Kalender- og pagineringsurls

• Session-ID i URLs

• Tracking-parametre

Symptomer:

• Crawl budget spildes på irrelevante URLs

• Problemer med duplicate content

• Langsom opdagelse af nye vigtige sider

• GSC rapporterer crawled but not indexed

Løsninger:

• Sæt URL-parameterhåndtering op

• Brug robots.txt til at blokere problematiske mønstre

• Canonical-tags på duplikerede variationer

• Noindex på irrelevante sider med parametre

🛡️ Forebyggelse: Analyse af URL-mønstre og crawl-simulering

Langsom serverrespons

Middel til høj

Høje svartider fra serveren går ud over crawl-effektiviteten

Årsager:

• Underdimensioneret hosting

• Ineffektive database-forespørgsler

• Manglende caching

• Tunge tredjepartsscripts

Symptomer:

• Lavere crawl-frekvens

• Timeout-fejl i GSC

• Dårlig brugeroplevelse

• Lavere placeringer

Løsninger:

• Opgrader hosting eller server

• Indfør en gennemarbejdet caching-strategi

• Optimer database-forespørgsler

• Minimer påvirkningen fra tredjepartsscripts

🛡️ Forebyggelse: Løbende performance-overvågning og belastningstest

JavaScript-rendering

Middel

Indhold ligger bag JavaScript som crawlere ikke kan tilgå

Årsager:

• Client-side rendering uden SSR

• JavaScript-fejl der blokerer indholdet

• Lange JavaScript-eksekveringstider

• Navigation der afhænger af JavaScript

Symptomer:

• Manglende indhold i cachede versioner

• GSC viser tomt eller delvist indhold

• Dårlig indeksering af dynamisk indhold

• Inkonsistente crawl-resultater

Løsninger:

• Indfør server-side rendering (SSR)

• Brug progressive enhancement

• Ret JavaScript-fejl

• Sørg for fallback-navigation

🛡️ Forebyggelse: Løbende JavaScript-SEO-audits og rendering-test

Robots.txt direktiver for crawling kontrol

User-agent

Angiver hvilken crawler reglerne gælder for

Syntax:

User-agent: *

Eksempler:

User-agent: * (alle crawlere)

User-agent: Googlebot (kun Googlebot)

User-agent: Bingbot (kun Bingbot)

User-agent: Googlebot-Image (kun Googles billed-crawler)

Best practices:

Brug specifik user-agent til målrettet blokering, * til regler der gælder alle

Disallow

Blokerer crawlere fra at tilgå bestemte stier

Syntax:

Disallow: /path/

Eksempler:

Disallow: /admin/ (blokerer admin-sektionen)

Disallow: /*?print=1 (blokerer print-versioner)

Disallow: /search (blokerer søgeresultatsider)

Disallow: / (blokerer hele sitet)

Best practices:

Vær specifik med stierne, og undgå at blokere vigtigt indhold

Allow

Giver eksplicit adgang til stier (overstyrer Disallow)

Syntax:

Allow: /path/

Eksempler:

Allow: /admin/public/

Allow: /*.css

Allow: /*.js

Allow: /wp-admin/admin-ajax.php

Best practices:

Brug det til at give adgang til vigtige ressourcer i ellers blokerede mapper

Sitemap

Reference til hvor XML-sitemappet ligger

Syntax:

Sitemap: https://domain.com/sitemap.xml

Eksempler:

Sitemap: https://site.com/sitemap.xml

Sitemap: https://site.com/sitemap-index.xml

Sitemap: https://site.com/news-sitemap.xml

Sitemap: https://site.com/image-sitemap.xml

Best practices:

Inkluder alle relevante sitemaps, og brug absolutte URLs

Få de nyeste SEO tips og tricks direkte i din indbakke.

Tilmeld nyhedsbrev

Ofte stillede spørgsmål

Hvad er crawling?

Crawling er den proces hvor søgemaskiner bruger webcrawlere (som Googlebot) til at opdage og besøge sider på internettet. Crawlerne følger links fra side til side for at finde nyt indhold og opdateringer, som derefter kan blive indekseret i søgemaskinens database.

Hvordan fungerer Googlebot?

Googlebot er Googles webcrawler som navigerer rundt på internettet ved at følge links på de sider den crawler. Den findes i forskellige versioner til desktop, mobil, billeder og video. Googlebot opdager nye sider gennem links, sitemaps og URL-indsendelser i Search Console.

Hvad påvirker hvor ofte min side bliver crawlet?

Crawl-frekvensen påvirkes af sitets autoritet, hvor friskt indholdet er, sidehastighed, intern linkstruktur og crawl budget. Sites med højere autoritet og hyppige opdateringer bliver crawlet oftere end statiske sites med lav autoritet.

Hvordan kan jeg forbedre min sides crawlability?

Optimer sidehastigheden, ret crawl-fejl, opbyg en klar intern linkstruktur, brug XML-sitemaps, optimer robots.txt, reducer duplicate content og sørg for at de vigtige sider er tilgængelige gennem interne links fra andre crawlede sider.

Hvad er crawl budget og hvorfor er det vigtigt?

Crawl budget er det antal sider Googlebot vil crawle på dit site inden for en given periode. Det påvirkes af sidehastighed, serverkapacitet og indholdets kvalitet. De vigtige sider skal prioriteres, så dit crawl budget bliver brugt der hvor det giver mest værdi.

Kan jeg styre hvilke sider der bliver crawlet?

Ja, gennem robots.txt kan du guide crawlere væk fra bestemte sider eller mapper. Du kan også bruge noindex-tags, canonical-tags og strategisk intern linking til at styre hvilke sider der bliver prioriteret til crawling og indeksering.