Data er guld værd, og ikke så overraskende er din data også guld værd for søgemaskiner og sprogmodeller, der indsamler og organiserer data på internettet. Crawlere hjælper med at få dit indhold indekseret, men denne indeksering gør det også muligt for udbyderne at benytte dit indhold. I forhold til søgemaskiner har byttet været nemt; du lader dem crawle dit website og indeksere dit indhold, for så til gengæld at modtage besøgende igennem deres indeks. Men hvordan er det i forhold til sprogmodeller som ChatGPT og Bing Chat, der ikke umiddelbart citerer dig, når de bruger dit indhold?

Spørgsmålet om gensidighed

Her fremgår det lidt mindre tydeligt, hvorfor vi skal lade disse benytte vores indhold. Hvad får vi igen? Ikke nok, frygter mange, og netop derfor har over 20% af de mest besøgte websteder i verden nu blokeret for AI-crawlere.

Teknologiens udvikling og dataejerskab

Enhver side, der kan tilgås fra en webbrowser, kan også “scrapes” af en crawler. Men med fremkomsten af store sprogmodeller som GPT-3.5 og GPT-4 skabes der nye spørgsmål om ejerskab og brug af data. OpenAI og Bing arbejder med branchen for at standardisere disse processer.

Dette er dog ikke sket endnu, og derfor ser vi lidt de samme krampetrækninger, som vi også så de store indholdsudbydere have dengang Google begyndte at “låne” deres indhold. Hurtigt gik det dog op for medierne, at udelukkelse af Googles bots betød en væsentlig nedgang i antallet af besøg og at det nok var bedst at lade deres sider stå åbne for webcrawlere.

Risici og gevinst

Denne gang er det dog lidt mere diffust, hvad man som websiteejer får ud af at lade sit indhold blive crawlet af for eksempel GPTBot, der bruger indholdet til at træne deres sprogmodeller (LLMs). Det kan potentielt betyde, at dit indhold bliver benyttet til at udforme nyt indhold, og det indhold kunne blive benyttet på en af dine konkurrenters websites – en lidt ærgerlig situation. Det kan også være, der refereres til undersøgelser, du har lavet, men hvor der ikke henvises, som det normalt er kutymen, du skal decideret bede ChatGPT om at kildehenvise, før den gør det.

Skal du blokere eller ej?

Skal du blokere for indeksering fra AI? Det er et rigtig godt spørgsmål, som jeg ikke kan svare dig på på nuværende tidspunkt. Jeg kan til gengæld fortælle dig, at jeg selv har valgt at blokere her på denne blog. Årsagen er, at det endnu ikke er tydeligt, hvad jeg kan få ud af at lade dem få adgang. Hvis jeg ikke får noget retur for at give noget væk, er det ikke umiddelbart en god byttehandel. Hvis det på et tidspunkt tydeligt fremgår, hvad jeg får ud af det, ændrer jeg sikkert mening.

Teknologiske tilgange: OpenAI og Bing

Mens Bing fokuserer på at bruge allerede eksisterende webstandarder som meta-tags, går OpenAI i en mere fremtidsorienteret retning. Begge virksomheder arbejder aktivt med industrien for at finde balancepunktet mellem teknologisk innovation og webstedsejernes rettigheder.

Sådan blokerer du for ChatGPT / GPTBot

  1. Brug af Robots.txt: Åbn din robots.txt fil og tilføj følgende linjer for at forhindre ChatGPT i at tilgå dit websted.

    User-agent: ChatGPT

    Disallow: /

     

  2. Brug af htaccess: Hvis dit websted kører på en Apache-server, kan du tilføje disse linjer til din .htaccess fil.

    RewriteEngine on

    RewriteCond %{HTTP_USER_AGENT} ^ChatGPT [OR]

    RewriteRule ^.*$ “http\:\/\/127\.0\.0\.1\/” [R=301,L]

     

  3. Serverindstillinger: For dem med avancerede serverkendskaber kan du gå direkte til serverens firewall og blokere indgående trafik fra specifikke IP-adresser associeret med ChatGPT eller GPTBot. Du finder en liste over disse her

Sådan blokerer du for Bings AI og Bing Chat

  1. NOCACHE-tag: Indhold med dette tag kan inkluderes i Bing Chat, men kun URL, titel og snippet vil blive vist.
  2. NOARCHIVE-tag: Indhold med dette tag vil ikke blive inkluderet i Bing Chat-svar og vil ikke blive brugt til at træne AI-modeller.

Det er klart, at vi lige p.t. befinder os i en overgangsfase, hvor dynamikkerne mellem søgemaskiner, AI-selskaber og webstedsejere ændrer sig hurtigt. Uden en klar vejledning vil vi fortsat se en kamp om kontrol over denne nye digitale valuta – information og den bør du potentielt set værne om.