Google søkemotor på en mobil

Viktigheten av TF-IDF i innholdsproduksjon

Hvis du med viten og vilje har havnet inne på denne siden: Velkommen! Du kommer nå til å lære mer om TF-IDF og dets betydning for organisk synlighet i de store søkemotorene.

Her skal vi først og fremst greie ut om teorien bak TF-IDF slik at du kan benytte deg av dette i innholdsarbeidet ditt, og ta innersvingen på konkurrentene.

 

Hva er semantisk søk?

Google har benyttet seg av semantikk i sine algoritmer i en årrekke. Semantisk søk dreier seg om et mål om å forstå søkerens intensjon, og hva han eller hun egentlig mener ved det aktuelle søket.

La oss ta et enkelt eksempel: 

I eksempelet av Erna Solberg (se bilde nederst i saken) har brukeren formulert seg slik et barn kanskje ville gjort. Det understreker at det er en rekke ulike måter å utføre dette søket på:

  • Hvor gammel er Erna Solberg
  • Erna Solberg alder
  • Hvor gammel er Norges statsminister
  • Statsministeren i Norge hvor gammel
  • Hvor mange år er Erna Solberg
    …osv.

 

Jeg er sikker på at du kan komme med et titalls andre mulige variasjoner, basert på geografi, demografi, hvor vant man er til å bruke Google, osv. Semantisk søk gjør at Google forstår at ved alle disse variasjonene har brukeren én og samme målsetting:

Å finne ut alderen til Erna Solberg.

Å gi brukeren det rette svaret ved søk som kan ha hundrevis eller tusenvis av variasjoner er altså kjernen ved semantisk søk. Bak dette ligger det avanserte algoritmer. Algoritmer du kan utnytte til din fordel. Dette bringer oss inn på TF-IDF.

 

Hva i all verden er TF-IDF?

TF-IDF (Term Frequency-Inverse Document Frequency) har som formål å kartlegge viktigheten av et gitt nøkkelord på en gitt side. I korte trekk dreier seg om hvor ofte et nøkkelord eller en frase opptrer på én spesifikk side, og hvor ofte dette er forventet å opptre på en typisk nettside med relatert tematikk. Dette gjør det mulig å fastslå hvor viktig det spesifiserte nøkkelordet er for siden som helhet.

Jo høyere TF-IDF-scoren er, jo sjeldnere er begrepet. Dette betyr at et begrep med en høy TF-IDF ikke er heldig å optimalisere mot, da dette ikke benyttes av flertallet av relevante sider.

 

TF eller Term Frequency

Term Frequency handler om hvor ofte et gitt begrep er brukt på en side. Dette peker tilbake til det gode gamle keyword frequency

For eksempel, om et dokument på 500 ord inneholder begrepet “kaffe” 70 ganger, blir Term Frequency for ordet kaffe 0,14, ved å følge denne formelen:

TFkaffe = 70/500 = 0,14

 

Inverse Document Frequency

Dette måler hvor ofte nøkkelordet og relaterte nøkkelord benyttes på andre sider. Googles RankBrain analyserer grupper av sider som rangerer godt for lignende søkeresultater, og ser på hva disse har til felles. Dette blir så brukt som bransjespesifikke rangeringssignaler for relaterte søk. Slike rangeringssignaler er ofte spesifikke termer eller setninger som er utbredt for den aktuelle tematikken eller i den aktuelle bransjen.

La oss si at ordet “Kaffe” gir treff på 1 000 000 dokumenter, og selve ordet “Kaffe” benyttes i 800 000 av disse:

IDF (kaffe) = log (1 000 000/800 000) = 1.25

Dette gir en TD-IDF for ordet “kaffe” på 0,14 * 1,25 = 0.175

 

Hvordan vet Google hvilke ord og fraser som hører til hvilken tematikk?

Det er her Googles RankBrain kommer inn i bildet. Det er to sider ved RankBrain:

  1. Analyse av søket
  2. Rangering av relevante sider

I den første delen av prosessen forsøker RankBrain å tolke søket ved å sette det i sammenheng med andre utbredte søk, for å lettere kunne vite hva du egentlig er ute etter.

I det neste steget analyser RankBrain de indekserte sidene, og forsøker å hente frem sider som er relevante for søket basert på enkelte spesifikke egenskaper relatert til det aktuelle søket. Ofte er disse egenskapene ord og begreper du kanskje ikke har tenkt på som relevante, men som du kan avdekke ved å benytte deg av TF-IDF i arbeidet ditt.

 

Men ingen fortalte meg at jeg måtte bruke matematiske formler da jeg begynte å produsere innhold

Det er bare å slappe av. Du kan kan selvfølgelig benytte deg av formlene, og gjøre dette helt manuelt. Du kan gjøre et søk, gå inn på sidene som rangerer høyest for søket, og se hvilke ord og begreper som brukes. Dette er dog tidkrevende, komplisert og det er vanskelig å få det komplette bildet – kanskje går du glipp av flere av de viktigste begrepene?

 

Heldigvis finnes det en rekke verktøy som gjør denne jobben for deg. LinkAssistants Website Auditor og Ryte er to eksempler på programmer som sparer deg for tid, og som gjør at du kan lage målrettet innhold spesielt utarbeidet for å rangere på enkelte definerte søkeord og søkefraser.

 

På tide med en søkemotoranalyse?