SEO Ordbog

Crawling

Webcrawlere • Googlebot • Opdagelse af sider • Teknisk SEO

🕐
24/7
Googlebot crawler kontinuerligt
🤖
6+ typer
Forskellige Google crawlers
🔍
Følger links
For at opdage nyt indhold

Hvordan fungerer crawling?

Søgemaskiner fungerer ved at crawle sider på Internettet med deres web crawlers, Googles webcrawlers hedder GoogleBot og der findes mange af dem, ikke kun en enkelt. Googlebot har travlt, den skal finde alle nye sider på Internettet og samtidig holde øje med sider der bliver opdateret med ny information.

Søgemaskinebotter navigerer Internettet ved at følge links på sider de crawler. Hver gang en søgemaskinebot falder over et link det ikke har set før, vil den prøve at følge det, for at finde ud af hvad der findes på den pågældende side. Når hjemmesideadressen først er registreret og crawlet, skal den efterfølgende indekseres.

Googlebot crawler - et sort-hvidt billede af en robot, der holder forstørrelsesglas

Googlebot crawler

Det er vigtigt, at man forstår hvordan en webcrawler fungerer, hvis man ønsker at arbejde med og forbedre sine organiske placeringer i søgeresultaterne.

Google's forskellige crawlers

Googlebot Desktop

Crawling af desktop-versioner af websites

Karakteristika:
Følger JavaScript
Renderer sider
Desktop viewport
Frekvens: Dagligt for store sites
💡 Optimer for desktop-oplevelse og hastighed
User Agent:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Smartphone

Mobile-first indexing og crawling af mobilversioner

Karakteristika:
Mobil-viewport
Touch-simulering
Mobile-first indexing
Frekvens: Primær crawler for de fleste sites
💡 Prioriter mobil hastighed og responsivt design
User Agent:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Googlebot Image

Crawling og indeksering af billeder

Karakteristika:
Fokus på billedindhold
Analyse af alt-tekst
Understøtter image sitemap
Frekvens: Baseret på billedopdateringer
💡 Optimer alt-tekster og billedkomprimering
User Agent:
Googlebot-Image/1.0

Googlebot Video

Opdagelse og indeksering af videoindhold

Karakteristika:
Udtrækker video-metadata
Genererer thumbnails
Analyserer varighed
Frekvens: Video-specifik crawling
💡 Strukturerede data for videoer og video-sitemaps
User Agent:
Googlebot-Video/1.0

Googlebot News

Nyhedsindhold til Google News

Karakteristika:
Hurtig crawling
Nyhedsspecifikke signaler
Fokus på friskhed
Frekvens: Realtid for nyhedssites
💡 News-sitemap og strukturerede data for artikler
User Agent:
Googlebot-News

Google-InspectionTool

URL Inspection-værktøjet i Search Console

Karakteristika:
Live test
Realtidsrendering
Debug-information
Frekvens: On-demand fra Search Console
💡 Test crawlability gennem Search Console
User Agent:
Mozilla/5.0 (compatible; Google-InspectionTool/1.0)

Hvad er crawling?

Når der indtastes en søgeforespørgsel i en søgemaskine, kunne man måske foranlediges til at tro, at søgemaskinen kiggede hele Internettet igennem for at levere svar.

Det gør de i princippet også, men de svar de leverer, kender de allerede til, de er allerede blevet crawlet og efterfølgende indekseret så de lynhurtigt kan gengives for søgemaskinens brugere.

Søgemaskiner er afhængige af store databaser over sider, og det er i de databaser du søger, ikke hele Internettet.

Databasen er fyldt op med sider, søgemaskinen allerede har godkendt som gode og brugbare svar, der kan bruges til at matche brugeres forespørgsler med.

Søgemaskinebotter (crawlere) har i princippet kun to opgaver de skal løse:

Finde nye sider på Internettet der kan indekseres
Udtrække information fra hver ny webside de finder

Herefter analyseres indholdet og sorteres, for dernæst at lande i søgemaskinernes indeks.

Botterne tager dog forbehold for hvad der sendes til indeksering, eksempelvis vil sider der bryder loven ikke blive sendt videre til indeksering, det kunne eksempelvis være sådan noget som salg af våben, narkotika eller andet illegalt.

💡 Næste skridt: Vil du vide mere om hvad der sker, efter crawlerne har leveret informationen tilbage til Google og indekseringsprocessen startes? Så læs videre om indeksering, i denne artikel.

Crawl budget faktorer

Crawl Demand

Høj indflydelse

Hvor meget Google har lyst til at crawle dit site

Komponenter:
Sitets popularitet og autoritet
Hvor friskt indholdet er og hvor ofte det opdateres
Sidehastighed og samlet performance
Intern linkstruktur
Optimering:
Byg backlinks af høj kvalitet
Udgiv friskt, relevant indhold regelmæssigt
Forbedr sidehastighed og Core Web Vitals
Styrk den interne linkstruktur

Crawl Rate Limit

Middel til høj indflydelse

Den maksimale crawl-hastighed uden at det går ud over sitets performance

Komponenter:
Serverens svartider
Serverkapacitet og hosting
Historiske crawl-data
Sitets størrelse og kompleksitet
Optimering:
Opgrader hosting for bedre performance
Brug effektiv caching
Optimer database-forespørgsler
Hold øje med serverbelastning under crawl

Crawl Health

Høj indflydelse

Sitets sundhed og tekniske tilstand

Komponenter:
Antal serverfejl (5xx)
Redirect-kæder og loops
Problemer med duplicate content
Robots.txt skal være tilgængelig
Optimering:
Ret serverfejl med det samme
Minimer redirect-kæder
Løs duplicate content
Sørg for at robots.txt er tilgængelig

Site arkitektur for optimal crawling

Flad sitestruktur

Kritisk

Reducer antallet af klik fra forsiden til enhver underside

Implementering:
Maks 3-4 niveauer i dybden
Logisk kategorihierarki
Brødkrummenavigation
Tydelig URL-struktur
Fordele:
Mere effektiv crawling
Bedre fordeling af PageRank
Hurtigere opdagelse af nye sider
Bedre brugeroplevelse
📊 Måling: Analyse af klik-dybde i crawling-værktøjer

Strategisk intern linking

Høj

Gennemtænkt linking der guider crawlere til de vigtigste sider

Implementering:
Hub-sider med mange udadgående links
Kontekstuelle links i indholdet
Sektioner med relaterede indlæg
Strategiske footer- og navigationslinks
Fordele:
Bedre opdagelse af sider
Optimering af PageRank-flow
Højere crawl-frekvens på de vigtige sider
Stærkere emneautoritet
📊 Måling: Analyse af interne links og PageRank-simulering

URL-optimering

Middel til høj

SEO-venlige og crawler-venlige URL-strukturer

Implementering:
Beskrivende URLs med søgeord
Ensartede URL-mønstre
Undgå dynamiske parametre hvor muligt
Canonical-tags ved duplicate content
Fordele:
Bedre forståelse af indholdet under crawl
Højere relevans på søgeord
Færre problemer med duplicate content
Lettere at dele
📊 Måling: URL-audit og URL Inspection i GSC

Mobile-first arkitektur

Kritisk

Design sitestrukturen med mobil-crawling som prioritet

Implementering:
Responsivt design
Mobilvenlig navigation
Touch-optimerede interaktive elementer
Hurtig indlæsning på mobil
Fordele:
Følger Googles mobile-first indexing
Bedre mobil brugeroplevelse
Bedre placeringer på mobil
Ensartet crawling på tværs af enheder
📊 Måling: Mobil brugbarhedstest og PageSpeed på mobil

Almindelige crawling problemer

Blokering af crawlere

Kritisk

Crawlere bliver utilsigtet blokeret fra sitet

Årsager:
For restriktiv robots.txt
Server-side blokering af bot-trafik
Blokering fra CDN eller firewall
Adgangskode på offentlige sider
Symptomer:
Dramatisk fald i indekserede sider
Lavere organisk synlighed
GSC-fejl om blokerede ressourcer
Manglende sider i site:-søgninger
Løsninger:
Gennemgå og ret direktiver i robots.txt
Whitelist legitime crawlere
Sæt CDN op til at tillade crawlere
Fjern unødvendig adgangskodebeskyttelse
🛡️ Forebyggelse: Løbende GSC-overvågning og test med crawler-simulering

Uendelige crawl-rum

Høj

Facetnavigation og URLs med parametre skaber uendelige stier

Årsager:
Ukontrolleret facetnavigation
Kalender- og pagineringsurls
Session-ID i URLs
Tracking-parametre
Symptomer:
Crawl budget spildes på irrelevante URLs
Problemer med duplicate content
Langsom opdagelse af nye vigtige sider
GSC rapporterer crawled but not indexed
Løsninger:
Sæt URL-parameterhåndtering op
Brug robots.txt til at blokere problematiske mønstre
Canonical-tags på duplikerede variationer
Noindex på irrelevante sider med parametre
🛡️ Forebyggelse: Analyse af URL-mønstre og crawl-simulering

Langsom serverrespons

Middel til høj

Høje svartider fra serveren går ud over crawl-effektiviteten

Årsager:
Underdimensioneret hosting
Ineffektive database-forespørgsler
Manglende caching
Tunge tredjepartsscripts
Symptomer:
Lavere crawl-frekvens
Timeout-fejl i GSC
Dårlig brugeroplevelse
Lavere placeringer
Løsninger:
Opgrader hosting eller server
Indfør en gennemarbejdet caching-strategi
Optimer database-forespørgsler
Minimer påvirkningen fra tredjepartsscripts
🛡️ Forebyggelse: Løbende performance-overvågning og belastningstest

JavaScript-rendering

Middel

Indhold ligger bag JavaScript som crawlere ikke kan tilgå

Årsager:
Client-side rendering uden SSR
JavaScript-fejl der blokerer indholdet
Lange JavaScript-eksekveringstider
Navigation der afhænger af JavaScript
Symptomer:
Manglende indhold i cachede versioner
GSC viser tomt eller delvist indhold
Dårlig indeksering af dynamisk indhold
Inkonsistente crawl-resultater
Løsninger:
Indfør server-side rendering (SSR)
Brug progressive enhancement
Ret JavaScript-fejl
Sørg for fallback-navigation
🛡️ Forebyggelse: Løbende JavaScript-SEO-audits og rendering-test

Robots.txt direktiver for crawling kontrol

User-agent

Angiver hvilken crawler reglerne gælder for

Syntax:
User-agent: *
Eksempler:
User-agent: * (alle crawlere)
User-agent: Googlebot (kun Googlebot)
User-agent: Bingbot (kun Bingbot)
User-agent: Googlebot-Image (kun Googles billed-crawler)
Best practices:
Brug specifik user-agent til målrettet blokering, * til regler der gælder alle

Disallow

Blokerer crawlere fra at tilgå bestemte stier

Syntax:
Disallow: /path/
Eksempler:
Disallow: /admin/ (blokerer admin-sektionen)
Disallow: /*?print=1 (blokerer print-versioner)
Disallow: /search (blokerer søgeresultatsider)
Disallow: / (blokerer hele sitet)
Best practices:
Vær specifik med stierne, og undgå at blokere vigtigt indhold

Allow

Giver eksplicit adgang til stier (overstyrer Disallow)

Syntax:
Allow: /path/
Eksempler:
Allow: /admin/public/
Allow: /*.css
Allow: /*.js
Allow: /wp-admin/admin-ajax.php
Best practices:
Brug det til at give adgang til vigtige ressourcer i ellers blokerede mapper

Sitemap

Reference til hvor XML-sitemappet ligger

Syntax:
Sitemap: https://domain.com/sitemap.xml
Eksempler:
Sitemap: https://site.com/sitemap.xml
Sitemap: https://site.com/sitemap-index.xml
Sitemap: https://site.com/news-sitemap.xml
Sitemap: https://site.com/image-sitemap.xml
Best practices:
Inkluder alle relevante sitemaps, og brug absolutte URLs

Få de nyeste SEO tips og tricks direkte i din indbakke.

Tilmeld nyhedsbrev

Ofte stillede spørgsmål

Hvad er crawling?

Crawling er den proces hvor søgemaskiner bruger webcrawlere (som Googlebot) til at opdage og besøge sider på internettet. Crawlerne følger links fra side til side for at finde nyt indhold og opdateringer, som derefter kan blive indekseret i søgemaskinens database.

Hvordan fungerer Googlebot?

Googlebot er Googles webcrawler som navigerer rundt på internettet ved at følge links på de sider den crawler. Den findes i forskellige versioner til desktop, mobil, billeder og video. Googlebot opdager nye sider gennem links, sitemaps og URL-indsendelser i Search Console.

Hvad påvirker hvor ofte min side bliver crawlet?

Crawl-frekvensen påvirkes af sitets autoritet, hvor friskt indholdet er, sidehastighed, intern linkstruktur og crawl budget. Sites med højere autoritet og hyppige opdateringer bliver crawlet oftere end statiske sites med lav autoritet.

Hvordan kan jeg forbedre min sides crawlability?

Optimer sidehastigheden, ret crawl-fejl, opbyg en klar intern linkstruktur, brug XML-sitemaps, optimer robots.txt, reducer duplicate content og sørg for at de vigtige sider er tilgængelige gennem interne links fra andre crawlede sider.

Hvad er crawl budget og hvorfor er det vigtigt?

Crawl budget er det antal sider Googlebot vil crawle på dit site inden for en given periode. Det påvirkes af sidehastighed, serverkapacitet og indholdets kvalitet. De vigtige sider skal prioriteres, så dit crawl budget bliver brugt der hvor det giver mest værdi.

Kan jeg styre hvilke sider der bliver crawlet?

Ja, gennem robots.txt kan du guide crawlere væk fra bestemte sider eller mapper. Du kan også bruge noindex-tags, canonical-tags og strategisk intern linking til at styre hvilke sider der bliver prioriteret til crawling og indeksering.

Brug for hjælp til teknisk SEO og crawling?

Fra optimering af crawl budget til avanceret sitearkitektur. Jeg hjælper dig med at få det hele til at spille.

Hurtige facts

Primær crawler:Googlebot
Crawling-metode:Følger links
Crawl budget:Site-specifikt
Kontrolmetode:Robots.txt
Næste trin:Indeksering

Crawl sundhed tjekliste

✅ Sidehastighed
Under 3 sekunders indlæsningstid
✅ Robots.txt
Korrekt konfigureret og tilgængelig
✅ XML-sitemap
Opdateret og indsendt til GSC
✅ Interne links
Logisk struktur og navigation

Crawling værktøjer

Google Search Console
Crawl-statistik og URL Inspection
Screaming Frog
Crawler-simulering på desktop
DeepCrawl
Crawling-platform til større sites
Log file analyzers
Analyse af crawlerens reelle adfærd