Hvordan fungerer en søgemaskine?
I denne artikel, får du en introduktion til hvordan søgemaskiner fungerer i praksis. Artiklen vil både behandle emnet crawling samt emnet indeksering, disse to elementer danner tilsammen grundlaget for hvordan en søgemaskine fungerer.
Sådan fungerer en søgemaskine
Hver gang en bruger søger, er der flere tusinde og nogle gange mange millioner af websider, med nyttige oplysninger. Udvælgelsen af de resultater som søgemaskinen viser dig, starter langt tidligere end det tidspunkt, hvor søgeforespørgslen indtastes i en søgemaskine. Før en bruger søger, organiserer søgemaskiner oplysninger om websider i deres indeks, der kan sammenlignes med et bibliotek, verdens største bibliotek.
I løbet af brøkdele af et sekund gennemgår søgemaskinens algoritmer milliarder af websider, i deres indeks, for at finde det mest relevante resultat, til den indtastede forespørgsel. Hele denne proces, starter igennem crawling af Internettet.
Crawling
Søgemaskiner fungerer ved at crawle milliarder af websider, med deres egne webcrawlere.
Søgemaskinernes botter downloader hjemmesider og følger links på siderne, for at finde nye tilgængelige websider. Selve processen for crawling, begynder med en liste over webadresser som er kendt fra tidligere crawls, samt sitemaps, der leveres af websiteejere. Websiteejere kan henvise til Deres sitemaps igennem robots.txt eller eksempelvis Googles Search Console. Ud fra disse lister, finder søgemaskinebotten andre sider, igennem links. Søgemaskinebotter er særligt opmærksomme på nye websites og ændringer af eksisterende websites, samt døde links.
En algoritme afgør, hvilke websites der skal crawles, hvor ofte de skal crawles og hvor mange sider der skal hentes. Værdier der varierer alt efter hvilken type af website der er tale om, eksempelvis besøges nyhedswebsites langt oftere end andre typer af hjemmesider, da de har en tendens til at blive opdateret langt mere frekvent.
Internettet vokser konstant og hver dag kommer der endnu mere nyt til. Ved at crawle Internettet og følger hjemmesider, ligesom et menneske ville gøre det, igennem links, der forbinder hjemmesider, finder og lagrer søgemaskiner konstant ny information til deres indeks.
Organiseres i et indeks
Efter at en crawler har fundet en webside, gengives indholdet på siden, på samme måde som en browser gør det og der tages forbehold for signaler som opdateringsfrekvens, søgeord mv. Alt dette håndteres i selve indekset. Søgemaskinernes indekses er ikke overraskende meget store, dette indeks indeholder ikke blot kopier af websiderne selv, men også en struktureret oversigt over websidernes indhold og metadata, som for eksempel opdateringsfrekvens og nøgleordstæthed. Google’s indeks er et eksempel på skalaen af denne opgave, med hundredvis af milliarder af websider, der spænder over 100 petabytes af data.
Indekseringen gør det muligt for søgemaskinen hurtigt at gennemse sin massive database for at finde sider, der matcher en brugers søgeforespørgsel. Dette trin er kritisk, da det sikrer, at kun den mest relevante og opdaterede information præsenteres for brugeren.
Algoritmens Rolle
Når en bruger indtaster en søgeforespørgsel, træder søgemaskinens algoritmer i kraft. Disse algoritmer vurderer siderne i indekset for at afgøre, hvilke der bedst svarer på brugerens forespørgsel. Ranking af disse sider involverer hundredvis af signaler, herunder, men ikke begrænset til, sidens relevans i forhold til søgeordet, brugeroplevelsen (herunder mobilvenlighed og indlæsningshastighed), og antallet samt kvaliteten af indgående links. Disse algoritmer er konstant under udvikling for bedre at forstå brugerens intention og for at kunne levere resultater, der ikke kun er relevante, men også af høj kvalitet og troværdighed.
Søgemaskinernes historie – Fra Archie til A.I
Søgemaskinernes historie er en fascinerende rejse, der begyndte i de tidlige 1990’ere, en tid hvor internettet var i sin spæde start. “Archie” markerede begyndelsen på denne æra i 1990 som den første prototyp af en søgemaskine, der fungerede ved at søge gennem en database af filnavne fra FTP-servere. Selvom dette var en begrænset funktion sammenlignet med nutidens søgemaskiner, var det et vigtigt første skridt i vejen mod de søgemaskiner, vi kender i dag.
I 1993 tog “Wanderer” søgemaskinernes funktionalitet et skridt videre ved at introducere webcrawling, hvilket lagde grundstenen for fremtidens søgeteknologier. Det efterfølgende år bragte “WebCrawler” en revolutionerende forandring, som tillod brugerne at søge i tekstindholdet på websider, et koncept der er kernen i alle moderne søgemaskiner.
WebCrawler var dermed den første af sin slags, af det vi i dag kender som en søgemaskine. 1994 var et afgørende år med lanceringen af “Yahoo!”, som startede som en webkatalog og senere udviklede sig til en ren søgemaskine, der organiserede internettet på en mere brugervenlig måde. Herefter fulgte “HotBot” og “Ask Jeeves” (nu Ask.com) i 1996, der introducerede henholdsvis hurtige søgetider og spørgsmål-svar-baseret søgning, en teknologi der nu også bruges i alle etablerede søgemaskiner.
Google, der blev lanceret i 1998, revolutionerede søgemaskinemarkedet med sin PageRank-algoritme, som vurderede websiders relevans baseret på linkstrukturer. Dette var startskuddet til Googles dominans på markedet, som har fortsat ufortrødent siden.
I det efterfølgende årti oplevede søgemaskinerne en markant udvikling med introduktionen af nye teknologier som semantisk søgning, som forbedrer deres forståelse af brugeres søgeintentioner, og personaliserede søgeresultater baseret på brugerdata. Denne periode så også fremkomsten af Bing, Microsofts svar på Google, som blev lanceret i 2009 og bragte sin egen række af innovationer til feltet. Bing formåede dog aldrig at udfordre Google, selvom de uden sammenligning, er den største konkurrent, på søgemarkedet, i hvert fald i den vestlige verden.
Den seneste udvikling inden for søgemaskiner har set en stadig større integration af kunstig intelligens og maskinlæring, hvilket har gjort det muligt at tilbyde endnu mere præcise og relevante søgeresultater. Disse teknologier har gjort søgemaskinerne i stand til at forstå komplekse forespørgsler, forudsige brugerintentioner og levere personlige søgeresultater på et hidtil uset niveau.
I dag står søgemaskinerne som essentielle værktøjer i vores daglige liv, og deres evige udvikling lover kun forbedringer i måden, vi søger efter og finder information på internettet.