Et PDF-dokument kan være en rigtig god måde at præsentere data på og de gør sig især godt til salgspræsentationer, produktinformationer og ydelser. PDF-dokumenter kan dog skabe en række problemer i forhold til SEO og rent brugermæssigt, kan de også skabe problemer og frustrationer.

Manglende navigation (links)

Et PDF-dokument indeholder i meget få tilfælde en menu-struktur, oftest er der tale om et dokument indeholdende ren tekst og lidt billeder. Lander en bruger i et PDF-dokument igennem en Google søgning, lander de direkte i et dokument, hvor de i langt de fleste tilfælde er fastlåst.

Ofte er der ikke et link tilbage til hjemmesiden, hvor fra dokumentet stammer. Dette gør, at brugeren er fanget i PDF-dokumentet og må trykke på tilbageknappen, der sender brugeren tilbage til søgeresultaterne, uden i realiteten overhovedet at have besøgt det website, hvor Pdf-filen lå tilgængelig. Dermed får du som websiteejer, ikke meget ud af besøget.

Mistet PageRank

Mange tror fejlagtigt, at PageRank ikke længere eksisterer, dette passer naturligvis ikke. PageRank er og vil altid være en stor del af Googles popularitetsanalyser, der baseres på links. At Google ikke længere opdaterer den visuelle PageRank, har intet med selve konceptet at gøre.

PageRank fungerer på den måde, at hver side der linkes til, får tildelt en portion popularitet, denne popularitet glider videre igennem den interne linkstruktur. Problemet med PDF-dokumenter er som sagt, at de i sjældne tilfælde besidder interne links, der peger tilbage på websitet.

Besidder dokumentet ingen links, ender den mængde popularitet, der flyder fra websitet igennem linket til PDF-dokumentet i selve dokumentet og kan ikke flyde tilbage igen, da dokumentet ikke er forbundet med den interne linkstruktur. Det betyder helt konkret, at man siger farvel til en mængde af den faktiske PageRank, ens website har til rådighed.

Duplikeret indhold

Mange websiteejere giver mulighed for at man nemt og simpelt kan downloade og gemme en artikel, dette er ofte i PDF-format. Som udgangspunkt en fin service, især når der er tale om større produktblade eller andet indhold, med en masse data. Brugeren kan herefter finde materialet lokalt på et tidspunkt, hvor tiden måske er bedre, end da man stødte på indholdet.

Rigtig mange CMS’er tilbyder helt per automatik et PDF-output i alle artikler, som en default-indstilling, dette forekommer eksempelvis i det populære CMS, Joomla.

Når dette er tilfældet på et website, vil hvert eneste dokument på websitet gå igen to gange. Der er den normale webversion og så en ekstra PDF-versionering, indeholdende præcis samme indhold. Det er hvad vi i fagsprog kalder for duplikeret indhold.

PDF dokumenter kan give problemer med duplikeret indhold

Dette kan og vil skade dine placeringer og bør altid undgås fuldstændigt. Selvom Google er blevet bedre til at håndtere problemer med duplikeret indhold de sidste par år, er de stadig ikke bedre end, at det kan give dit website problemer i søgeresultaterne.

Servér dit gode indhold, i almindelig HTML

På mange websites tilbydes større skriv, afhandlinger, rapport mv. udelukkende i et PDF-format og det er ærgerligt, da de ofte besidder en masse spændende data og indhold. Google vil som sagt, indeksere PDF-filerne, så længe der linkes til dem, men brugerne bliver også trukket ind i selve PDF-dokumentet. Syntes en bruger godt om indholdet og vil linke til det, linkes der til PDF-dokumentet og ikke til selve websitet, som ville have meget større gavn af det eksterne link. Herudover er der i stort set alle tilfælde, mere ræson og mere værdi i at få brugeren ind på websitet.

Derfor bør man, hvis man ønsker PDF-versioner af sit indhold, blot tilbyde dette som en ekstra mulighed og ikke som den eneste. Har man en masse indhold liggende, der udelukkende forefindes i PDF-format, bør man placere indholdet på selve websitet i stedet. Derudover kan man så tilbyde PDF-versionen, hvis man mener, at formatet er korrekt at bruge i denne henseende og herefter påsætte noindex eller anden blokering på PDF-versionen og/eller et canonical tag der peger på webversionen.

Sørg for at dine Pdf-er ikke indekseres, medmindre det er hensigten

Den bedste måde at sikre at indhold ikke indekseres og at Google ikke kigger på dem, er at bruge noindex. Modsat af hvad mange tror, er det muligt at påsætte noindex på PDF-filer, ligesom det er på alle andre tænkelige filtyper.

Ved hjælp af .htaccess er det muligt at påsætte noindex, selvom et dokument ikke har en header. Et PDF-dokument har ikke en header, ligesom et billede heller ikke har en header, derfor er vi nødt til at påsætte noindex på et andet niveau.

Ved at indsætte følgende streng i .htaccess, påsættes noindex på alle PDF-dokumenter på websitet, uanset dets lokation.

<Files ~ ".pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

Det er også muligt helt at blokere søgemaskinebotter fra PDF-filer. Dette kan gøres igennem robots.txt.

Har du dem alle liggende i en og samme mappe, kan denne mappe blot ekskluderes.

Disallow: /mappe-med-pdf-filer/

Har du dine PDF-filer spredt ud i mange forskellige mapper, kan nedenstående streng, bruges til at ramme dem alle.

Disallow: *.pdf$

Et Noindex er dog uden tvivl, den bedste løsning og bør altid benyttes, når det er muligt. Blokering bør kun udføres, hvis der ingen anden vej er og det er der, i dette tilfælde. Er du i tvivl om hvorvidt du har indekserede PDF-filer på dit website, kan du lave en Google site-søgning som vist i nedenstående eksempel:

Site:ditdomænenavn.dk inurl:.pdf

Herefter får du outputtet, de resultater, Google har indekseret, med filendelsen .pdf.

Et par vigtige fakta om PDF-filer

  • PDFer indekseres som en hver anden type side på Internettet.
  • Det er muligt at indsætte meta-data, i et PDF-dokument under oprettelse, herunder beskrivelse og title.
  • Google bruger også ankertekster fra interne links, til at sætte titlen. Vær derfor opmærksom på, hvad du bruger som ankertekst, når du linker til dine PDF-filer, især hvis du ikke har sat en META-title i PDF-dokumentet da du skabte det
  • Det er ikke muligt, at implementere struktureret data i et PDF-dokument
  • Google besøger ikke PDF-dokumenter lige så ofte som almindelige HTML-dokumenter, da de forventer indholdet er mere statisk
  • Hvis Google finder et link til et PDF-dokument, er det en indbydelse til at de følger linket og indekserer dokumentet.
  • Google indekserer ikke billeder i PDF-filer
  • PDF-dokumenter kan rangere lige så godt som en almindelig webside
  • Det er ikke muligt at tracke brugerne, når de lander i et PDF-dokument, du kan dog sagtens spore overgangen fra website til download af Pdf eksempelvis igennem et onclick event tracking.