Robots.txt
Crawler kontrol • Crawl budget optimering • Sikkerhed • Bedste praksis
Hurtig definition:
Robots.txt er en tekstfil der kontrollerer hvilke dele af dit website søgemaskine crawlere må besøge - vigtig for crawl budget optimering og crawler styring.
Hvad er robots.txt?
robots.txt er en lille tekstfil, der ligger i roden af et website og fortæller søgemaskinernes crawlere, hvad de må og ikke må tilgå. Den bruges som en form for adgangskontrol, men kun for crawl – ikke for indeksering.
⚠️ Vigtig forskel: Robots.txt kontrollerer crawling, ikke indeksering - brug noindex til at forhindre indeksering
Hvad gør robots.txt?
Den instruerer søgemaskinens bot i, hvilke områder af websitet den må crawle. Den blokerer altså ikke for indeksering i sig selv, men den forhindrer botten i at besøge visse sider eller mapper. Hvis en side er linket fra andre steder på nettet, kan den stadig indekseres – også selvom den er blokeret i robots.txt.
User-agent: *
Disallow: /private/
Ovenstående blokerer alle bots fra at crawle mappen /private/, men det forhindrer ikke, at sider i mappen bliver indekseret, hvis Google kender dem fra links.
Hvornår bruger man den?
- – Når man vil undgå crawl af filtre, kalendersider, interne søgninger eller lignende
- – Når man vil spare crawlbudget
- – Når man vil holde ikke-værdifuldt indhold væk fra Googles fokus
Men den må aldrig bruges til at skjule sider, du ikke vil have indekseret – til det bruger du noindex.
Robots.txt kommandoer og syntaks
User-agent
Specificerer hvilke crawlere kommandoen gælder for
Syntaks: User-agent: [crawler navn eller *]
Eksempler:
⚠️ Vigtig note: Skal altid være den første linje for hver sektion
Disallow
Blokerer adgang til specifikke stier eller filer
Syntaks: Disallow: [sti eller mønster]
Eksempler:
⚠️ Vigtig note: Tom disallow (Disallow: ) tillader alt
Allow
Tillader adgang til specifikke stier indenfor blokerede områder
Syntaks: Allow: [sti]
Eksempler:
⚠️ Vigtig note: Bruges til at lave undtagelser fra Disallow regler
Sitemap
Angiver placering af XML sitemap
Syntaks: Sitemap: [fuld URL til sitemap]
Eksempler:
⚠️ Vigtig note: Skal være absolut URL, ikke relativ sti
Praktisk eksempel: E-commerce optimering
Online butik optimering
Scenario: Online butik med filtre, sortering og interne søgninger
Problem: Tusindvis af filterside kombinationer spildt crawl budget
Løsning:
User-agent: *
Disallow: /search?*
Disallow: /filter?*
Disallow: /?sort=*
Disallow: /products/?color=*
Disallow: /products/?price=*
Allow: /products/
Sitemap: https://shop.dk/sitemap.xml
Forklaring:
- • Blokerer søgeparametre og filtre
- • Tillader hovedprodukt sider
- • Bevarer crawl budget til vigtige sider
- • Inkluderer sitemap for korrekt indeksering
💡 Resultat: Fokuseret crawling på produktsider og kategorier
Typiske fejl
- – At blokere noget i robots.txt og tro det ikke kan blive indekseret
- – At udelukke vigtige ressourcer (CSS, JS), som Google skal bruge for at forstå siden
- – At glemme, at robots.txt er offentligt tilgængelig og dermed afslører, hvad du forsøger at skjule
Hvis du vil styre, hvad Google ikke skal vise i søgeresultaterne, skal du bruge noindex. Hvis du vil forhindre Google i at tilgå noget, bruger du robots.txt. Bland aldrig de to ting sammen.
Almindelige fejl og løsninger
Blokering af vigtige ressourcer
❌ Forkert eksempel:
User-agent: *
Disallow: /css/
Disallow: /js/
Disallow: /images/
✅ Korrekt løsning:
User-agent: *
Allow: /css/
Allow: /js/
Allow: /images/
Disallow: /admin/
Problem: Google kan ikke se hvordan siden ser ud
Forklaring: CSS, JavaScript og billeder skal være tilgængelige for korrekt rendering
Konsekvens ved fejl: Dårligere rankings pga. rendering problemer
Forkert wildcard brug
❌ Forkert eksempel:
User-agent: *
Disallow: /*.pdf*
✅ Korrekt løsning:
User-agent: *
Disallow: /*.pdf$
Problem: Blokerer mere end intentionen
Forklaring: Brug $ for at angive linje-ending
Konsekvens ved fejl: Uventet blokering af vigtige sider
Ofte stillede spørgsmål om robots.txt
Kan robots.txt forhindre at mine sider bliver indekseret?
Nej, robots.txt kontrollerer kun crawling, ikke indeksering. Hvis en side er linket fra andre steder på internettet, kan Google stadig indeksere den selvom den er blokeret i robots.txt. For at forhindre indeksering skal du bruge noindex meta tag eller HTTP header.
Skal jeg inkludere CSS og JavaScript filer i robots.txt?
Nej, du skal IKKE blokere CSS, JavaScript eller billedfiler. Google har brug for adgang til disse ressourcer for at se hvordan din side ser ud og fungerer. Blokering af disse kan påvirke dine rankings negativt.
Hvor skal robots.txt filen placeres?
Robots.txt skal ligge i root directory af dit domæne, tilgængelig via https://ditwebsite.dk/robots.txt. Den kan ikke placeres i undermapper eller have et andet navn. Hver subdomæne skal have sin egen robots.txt fil.
Kan jeg have forskellige regler for forskellige søgemaskiner?
Ja, du kan specifiere forskellige User-agent direktiver for hver søgemaskine. For eksempel kan du have forskellige regler for Googlebot, Bingbot, og andre crawlere. Brug User-agent: * for at gælde for alle crawlere.
Er robots.txt påkrævet for alle websites?
Nej, robots.txt er ikke påkrævet. Hvis du ikke har en robots.txt fil, kan crawlere tilgå hele dit website. Men det anbefales at have en, selvom det kun indeholder sitemap reference, for at have kontrol over crawling.
Kan robots.txt påvirke mit crawl budget?
Ja, en veloptimeret robots.txt kan hjælpe med at dirigere crawl budget mod dit vigtigste indhold ved at blokere lavværdi sider som filtre, søgningsresultater og dubletter. Dette er særligt vigtigt for store websites.
Hvad sker der hvis min robots.txt har fejl?
Syntaks fejl kan føre til at hele filen ignoreres, eller at reglerne ikke fungerer som forventet. Brug Google Search Console's robots.txt tester til at validere din fil og test specifikke URLs for at sikre korrekt funktionalitet.
Kan jeg se hvem der tilgår min robots.txt fil?
Ja, du kan se adgang til robots.txt i dine server logs. Dette kan give indsigt i hvilke crawlere der besøger dit site og hvor ofte de checker for opdateringer til din robots.txt fil.
⚡ Hurtig reference
✅ Robots.txt tjekliste
🎯 Almindelige mønstre
WordPress standard
Blokér /wp-admin/, tillad uploads
E-commerce
Blokér filtre og sorteringer
Medlemsside
Blokér private områder
🛠️ Test værktøjer
⚠️ Sikkerhedsadvarsler
Relaterede termer
Brug for hjælp til robots.txt og teknisk SEO optimering?
Fra robots.txt audit til crawl budget optimering og teknisk SEO implementering - få professionel hjælp til at optimere dit website for søgemaskine crawlere og maksimere SEO performance.