🤖

Robots.txt

Crawler kontrol • Crawl budget optimering • Sikkerhed • Bedste praksis

Hurtig definition:

Robots.txt er en tekstfil der kontrollerer hvilke dele af dit website søgemaskine crawlere må besøge - vigtig for crawl budget optimering og crawler styring.

🔒
Kontrollerer crawling
Optimerer crawl budget
🎯
Dirigerer crawler fokus

Hvad er robots.txt?

robots.txt er en lille tekstfil, der ligger i roden af et website og fortæller søgemaskinernes crawlere, hvad de må og ikke må tilgå. Den bruges som en form for adgangskontrol, men kun for crawl – ikke for indeksering.

⚠️ Vigtig forskel: Robots.txt kontrollerer crawling, ikke indeksering - brug noindex til at forhindre indeksering

Hvad gør robots.txt?

Den instruerer søgemaskinens bot i, hvilke områder af websitet den må crawle. Den blokerer altså ikke for indeksering i sig selv, men den forhindrer botten i at besøge visse sider eller mapper. Hvis en side er linket fra andre steder på nettet, kan den stadig indekseres – også selvom den er blokeret i robots.txt.

User-agent: *
Disallow: /private/

Ovenstående blokerer alle bots fra at crawle mappen /private/, men det forhindrer ikke, at sider i mappen bliver indekseret, hvis Google kender dem fra links.

Hvornår bruger man den?

  • – Når man vil undgå crawl af filtre, kalendersider, interne søgninger eller lignende
  • – Når man vil spare crawlbudget
  • – Når man vil holde ikke-værdifuldt indhold væk fra Googles fokus

Men den må aldrig bruges til at skjule sider, du ikke vil have indekseret – til det bruger du noindex.

Robots.txt kommandoer og syntaks

User-agent

Specificerer hvilke crawlere kommandoen gælder for

Syntaks: User-agent: [crawler navn eller *]

Eksempler:

User-agent: * (alle crawlere)
User-agent: Googlebot (kun Google)
User-agent: Bingbot (kun Bing)

⚠️ Vigtig note: Skal altid være den første linje for hver sektion

Disallow

Blokerer adgang til specifikke stier eller filer

Syntaks: Disallow: [sti eller mønster]

Eksempler:

Disallow: /admin/ (blokerer admin mappe)
Disallow: *.pdf (blokerer alle PDF filer)
Disallow: /search?* (blokerer søgeparametre)

⚠️ Vigtig note: Tom disallow (Disallow: ) tillader alt

Allow

Tillader adgang til specifikke stier indenfor blokerede områder

Syntaks: Allow: [sti]

Eksempler:

Allow: /admin/public/
Allow: /*.css
Allow: /wp-admin/admin-ajax.php

⚠️ Vigtig note: Bruges til at lave undtagelser fra Disallow regler

Sitemap

Angiver placering af XML sitemap

Syntaks: Sitemap: [fuld URL til sitemap]

Eksempler:

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml

⚠️ Vigtig note: Skal være absolut URL, ikke relativ sti

Praktisk eksempel: E-commerce optimering

Online butik optimering

Scenario: Online butik med filtre, sortering og interne søgninger

Problem: Tusindvis af filterside kombinationer spildt crawl budget

Løsning:

User-agent: *
Disallow: /search?*
Disallow: /filter?*
Disallow: /?sort=*
Disallow: /products/?color=*
Disallow: /products/?price=*
Allow: /products/
Sitemap: https://shop.dk/sitemap.xml

Forklaring:

  • • Blokerer søgeparametre og filtre
  • • Tillader hovedprodukt sider
  • • Bevarer crawl budget til vigtige sider
  • • Inkluderer sitemap for korrekt indeksering

💡 Resultat: Fokuseret crawling på produktsider og kategorier

Typiske fejl

  • – At blokere noget i robots.txt og tro det ikke kan blive indekseret
  • – At udelukke vigtige ressourcer (CSS, JS), som Google skal bruge for at forstå siden
  • – At glemme, at robots.txt er offentligt tilgængelig og dermed afslører, hvad du forsøger at skjule

Hvis du vil styre, hvad Google ikke skal vise i søgeresultaterne, skal du bruge noindex. Hvis du vil forhindre Google i at tilgå noget, bruger du robots.txt. Bland aldrig de to ting sammen.

Almindelige fejl og løsninger

Blokering af vigtige ressourcer

❌ Forkert eksempel:

User-agent: * Disallow: /css/ Disallow: /js/ Disallow: /images/

✅ Korrekt løsning:

User-agent: * Allow: /css/ Allow: /js/ Allow: /images/ Disallow: /admin/

Problem: Google kan ikke se hvordan siden ser ud

Forklaring: CSS, JavaScript og billeder skal være tilgængelige for korrekt rendering

Konsekvens ved fejl: Dårligere rankings pga. rendering problemer

Forkert wildcard brug

❌ Forkert eksempel:

User-agent: * Disallow: /*.pdf*

✅ Korrekt løsning:

User-agent: * Disallow: /*.pdf$

Problem: Blokerer mere end intentionen

Forklaring: Brug $ for at angive linje-ending

Konsekvens ved fejl: Uventet blokering af vigtige sider

Ofte stillede spørgsmål om robots.txt

Kan robots.txt forhindre at mine sider bliver indekseret?

Nej, robots.txt kontrollerer kun crawling, ikke indeksering. Hvis en side er linket fra andre steder på internettet, kan Google stadig indeksere den selvom den er blokeret i robots.txt. For at forhindre indeksering skal du bruge noindex meta tag eller HTTP header.

Skal jeg inkludere CSS og JavaScript filer i robots.txt?

Nej, du skal IKKE blokere CSS, JavaScript eller billedfiler. Google har brug for adgang til disse ressourcer for at se hvordan din side ser ud og fungerer. Blokering af disse kan påvirke dine rankings negativt.

Hvor skal robots.txt filen placeres?

Robots.txt skal ligge i root directory af dit domæne, tilgængelig via https://ditwebsite.dk/robots.txt. Den kan ikke placeres i undermapper eller have et andet navn. Hver subdomæne skal have sin egen robots.txt fil.

Kan jeg have forskellige regler for forskellige søgemaskiner?

Ja, du kan specifiere forskellige User-agent direktiver for hver søgemaskine. For eksempel kan du have forskellige regler for Googlebot, Bingbot, og andre crawlere. Brug User-agent: * for at gælde for alle crawlere.

Er robots.txt påkrævet for alle websites?

Nej, robots.txt er ikke påkrævet. Hvis du ikke har en robots.txt fil, kan crawlere tilgå hele dit website. Men det anbefales at have en, selvom det kun indeholder sitemap reference, for at have kontrol over crawling.

Kan robots.txt påvirke mit crawl budget?

Ja, en veloptimeret robots.txt kan hjælpe med at dirigere crawl budget mod dit vigtigste indhold ved at blokere lavværdi sider som filtre, søgningsresultater og dubletter. Dette er særligt vigtigt for store websites.

Hvad sker der hvis min robots.txt har fejl?

Syntaks fejl kan føre til at hele filen ignoreres, eller at reglerne ikke fungerer som forventet. Brug Google Search Console's robots.txt tester til at validere din fil og test specifikke URLs for at sikre korrekt funktionalitet.

Kan jeg se hvem der tilgår min robots.txt fil?

Ja, du kan se adgang til robots.txt i dine server logs. Dette kan give indsigt i hvilke crawlere der besøger dit site og hvor ofte de checker for opdateringer til din robots.txt fil.

⚡ Hurtig reference

Placering: /robots.txt i root
Alle crawlere: User-agent: *
Blokér mappe: Disallow: /mappe/
Tillad alt: Disallow:
Sitemap: Sitemap: https://...

✅ Robots.txt tjekliste

Placeret i root directory
Korrekt syntaks valideret
CSS/JS ikke blokeret
Sitemap reference inkluderet
Testet i GSC værktøj
Crawl impact overvåget

🎯 Almindelige mønstre

WordPress standard

Blokér /wp-admin/, tillad uploads

E-commerce

Blokér filtre og sorteringer

Medlemsside

Blokér private områder

🛠️ Test værktøjer

🔍 Google Search Console Tester
📊 Robots.txt Validators
📈 Crawl Log Analyzers
🎯 SERP Monitoring Tools

⚠️ Sikkerhedsadvarsler

Offentligt tilgængelig
Afslører website struktur
Ikke reel sikkerhed
Kombiner med rigtig auth

Brug for hjælp til robots.txt og teknisk SEO optimering?

Fra robots.txt audit til crawl budget optimering og teknisk SEO implementering - få professionel hjælp til at optimere dit website for søgemaskine crawlere og maksimere SEO performance.