Hvordan fungerer crawling?
Søgemaskiner fungerer ved at crawle sider på Internettet med deres web crawlers, Googles webcrawlers hedder GoogleBot og der findes mange af dem, ikke kun en enkelt. Googlebot har travlt, den skal finde alle nye sider på Internettet og samtidig holde øje med sider der bliver opdateret med ny information.
Søgemaskinebotter navigerer Internettet ved at følge links på sider de crawler. Hver gang en søgemaskinebot falder over et link det ikke har set før, vil den prøve at følge det, for at finde ud af hvad der findes på den pågældende side. Når hjemmesideadressen først er registreret og crawlet, skal den efterfølgende indekseres.

Googlebot crawler
Det er vigtigt, at man forstår hvordan en webcrawler fungerer, hvis man ønsker at arbejde med og forbedre sine organiske placeringer i søgeresultaterne.
Google's forskellige crawlers
Googlebot Desktop
Crawling af desktop-versioner af websites
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)Googlebot Smartphone
Mobile-first indexing og crawling af mobilversioner
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)Googlebot Image
Crawling og indeksering af billeder
Googlebot-Image/1.0Googlebot Video
Opdagelse og indeksering af videoindhold
Googlebot-Video/1.0Googlebot News
Nyhedsindhold til Google News
Googlebot-NewsGoogle-InspectionTool
URL Inspection-værktøjet i Search Console
Mozilla/5.0 (compatible; Google-InspectionTool/1.0)Hvad er crawling?
Når der indtastes en søgeforespørgsel i en søgemaskine, kunne man måske foranlediges til at tro, at søgemaskinen kiggede hele Internettet igennem for at levere svar.
Det gør de i princippet også, men de svar de leverer, kender de allerede til, de er allerede blevet crawlet og efterfølgende indekseret så de lynhurtigt kan gengives for søgemaskinens brugere.
Søgemaskiner er afhængige af store databaser over sider, og det er i de databaser du søger, ikke hele Internettet.
Databasen er fyldt op med sider, søgemaskinen allerede har godkendt som gode og brugbare svar, der kan bruges til at matche brugeres forespørgsler med.
Søgemaskinebotter (crawlere) har i princippet kun to opgaver de skal løse:
Herefter analyseres indholdet og sorteres, for dernæst at lande i søgemaskinernes indeks.
Botterne tager dog forbehold for hvad der sendes til indeksering, eksempelvis vil sider der bryder loven ikke blive sendt videre til indeksering, det kunne eksempelvis være sådan noget som salg af våben, narkotika eller andet illegalt.
💡 Næste skridt: Vil du vide mere om hvad der sker, efter crawlerne har leveret informationen tilbage til Google og indekseringsprocessen startes? Så læs videre om indeksering, i denne artikel.
Crawl budget faktorer
Crawl Demand
Høj indflydelseHvor meget Google har lyst til at crawle dit site
Crawl Rate Limit
Middel til høj indflydelseDen maksimale crawl-hastighed uden at det går ud over sitets performance
Crawl Health
Høj indflydelseSitets sundhed og tekniske tilstand
Site arkitektur for optimal crawling
Flad sitestruktur
KritiskReducer antallet af klik fra forsiden til enhver underside
Strategisk intern linking
HøjGennemtænkt linking der guider crawlere til de vigtigste sider
URL-optimering
Middel til højSEO-venlige og crawler-venlige URL-strukturer
Mobile-first arkitektur
KritiskDesign sitestrukturen med mobil-crawling som prioritet
Almindelige crawling problemer
Blokering af crawlere
KritiskCrawlere bliver utilsigtet blokeret fra sitet
Uendelige crawl-rum
HøjFacetnavigation og URLs med parametre skaber uendelige stier
Langsom serverrespons
Middel til højHøje svartider fra serveren går ud over crawl-effektiviteten
JavaScript-rendering
MiddelIndhold ligger bag JavaScript som crawlere ikke kan tilgå
Robots.txt direktiver for crawling kontrol
User-agent
Angiver hvilken crawler reglerne gælder for
User-agent: *User-agent: * (alle crawlere)User-agent: Googlebot (kun Googlebot)User-agent: Bingbot (kun Bingbot)User-agent: Googlebot-Image (kun Googles billed-crawler)Disallow
Blokerer crawlere fra at tilgå bestemte stier
Disallow: /path/Disallow: /admin/ (blokerer admin-sektionen)Disallow: /*?print=1 (blokerer print-versioner)Disallow: /search (blokerer søgeresultatsider)Disallow: / (blokerer hele sitet)Allow
Giver eksplicit adgang til stier (overstyrer Disallow)
Allow: /path/Allow: /admin/public/Allow: /*.cssAllow: /*.jsAllow: /wp-admin/admin-ajax.phpSitemap
Reference til hvor XML-sitemappet ligger
Sitemap: https://domain.com/sitemap.xmlSitemap: https://site.com/sitemap.xmlSitemap: https://site.com/sitemap-index.xmlSitemap: https://site.com/news-sitemap.xmlSitemap: https://site.com/image-sitemap.xmlFå de nyeste SEO tips og tricks direkte i din indbakke.
Tilmeld nyhedsbrevOfte stillede spørgsmål
Hvad er crawling?
Crawling er den proces hvor søgemaskiner bruger webcrawlere (som Googlebot) til at opdage og besøge sider på internettet. Crawlerne følger links fra side til side for at finde nyt indhold og opdateringer, som derefter kan blive indekseret i søgemaskinens database.
Hvordan fungerer Googlebot?
Googlebot er Googles webcrawler som navigerer rundt på internettet ved at følge links på de sider den crawler. Den findes i forskellige versioner til desktop, mobil, billeder og video. Googlebot opdager nye sider gennem links, sitemaps og URL-indsendelser i Search Console.
Hvad påvirker hvor ofte min side bliver crawlet?
Crawl-frekvensen påvirkes af sitets autoritet, hvor friskt indholdet er, sidehastighed, intern linkstruktur og crawl budget. Sites med højere autoritet og hyppige opdateringer bliver crawlet oftere end statiske sites med lav autoritet.
Hvordan kan jeg forbedre min sides crawlability?
Optimer sidehastigheden, ret crawl-fejl, opbyg en klar intern linkstruktur, brug XML-sitemaps, optimer robots.txt, reducer duplicate content og sørg for at de vigtige sider er tilgængelige gennem interne links fra andre crawlede sider.
Hvad er crawl budget og hvorfor er det vigtigt?
Crawl budget er det antal sider Googlebot vil crawle på dit site inden for en given periode. Det påvirkes af sidehastighed, serverkapacitet og indholdets kvalitet. De vigtige sider skal prioriteres, så dit crawl budget bliver brugt der hvor det giver mest værdi.
Kan jeg styre hvilke sider der bliver crawlet?
Ja, gennem robots.txt kan du guide crawlere væk fra bestemte sider eller mapper. Du kan også bruge noindex-tags, canonical-tags og strategisk intern linking til at styre hvilke sider der bliver prioriteret til crawling og indeksering.
Brug for hjælp til teknisk SEO og crawling?
Fra optimering af crawl budget til avanceret sitearkitektur. Jeg hjælper dig med at få det hele til at spille.