Vil «skitne data» bli «fake news» for 2020?
Skal samfunnet bygges på kunstig intelligens, må vi sørge for at byggeklossene – datagrunnlaget – ikke gjør at alt raser sammen.
Stadig oftere blir data omtalt som «den nye oljen» – altså noe så verdifullt at vi kanskje kan leve av det en dag den ekte oljen tar slutt.
Men det er ikke fullt så enkelt, skal vi tro Telenors oversikt over 20 trender for 2020. Høyt oppe på lista troner nemlig «skitne data» – et begrep som kan bli like vanlig som «falske nyheter» i 2020.
Viktig for kunstig intelligens
Ifølge Ieva Martinkenaite, visepresident hos Telenor Research og ansvarlig for kunstig intelligens (AI) og IoT, er det en veldig god grunn til hvorfor vi bør være obs på skitne data:
– Kunstig intelligens vil være en svært viktig driver den teknologiske utviklingen på svært mange områder i 2020 og videre. I dag bruker vi AI og automatisering til en rekke viktige oppgaver, sier hun, fra diagnostisering av kreft til effektivisering av industriell produksjon på store offshore-installasjoner.
– Men skal vi bruke maskiner til dette, må vi vite at maskinene blir matet med gode, rene data. Ellers vil vi kunne se uforutsette konsekvenser av bruk av kunstig intelligens og maskinlæring – med ubalanserte data, misbruk av data og i verste fall fiendtlig bruk.
Ieva Martinkenaite, visepresident hos Telenor Research.
Et spørsmål om tillit
Om datagrunnlaget og prosessene er «skitne» – altså upresise, partiske eller manipulerte – kan nemlig beslutningene bli feil, eller til og med ulovlige.
– I et moderne demokrati må vi ha innsyn i hvordan et lovarbeid foregår for å kunne stole på lovene. På samme måte må vi vite hvilke data som ligger til grunn for en avgjørelse tatt av en kunstig intelligens for å kunne stole på resultatet, sier Martinkenaite.
Etter hvert som datadrevne beslutninger basert på kunstig intelligens eller maskinlæring blir mer vanlig, vil dette også komme i offentlighetens søkelys. Folk vil spørre om løsningene er rettferdige og objektive.
– Følger vi ikke nøye med på arbeidsprosesser når vi jobber med data, eller ikke kan forklare hvordan datautvalget har vært, kan man ende opp med AI-resultater som er partiske, urettferdige, feil eller direkte farlige, sier Martinkenaite.
Hvem velger dataene?
Et «klassisk» eksempel på dette er at om dataforskerne som velger ut relevante data er hvite menn, kan dette føre til at beslutningene som tas av den kunstige intelligensen favoriserer nettopp hvite menn.
– Dette kan være gjort helt ubevisst eller med de beste intensjoner, men det viser viktigheten av å ha dokumentert praksis og styringssystemer når man jobber med data. Det kan for eksempel kreve at personer med forskjellige faglige bakgrunner er ansvarlige for datautvalg, sier Martinkenaite, og legger til:
– Så har du også de aktørene som ikke nødvendigvis ikke har de beste intensjoner, som ser sitt snitt til å bevisst velge «raske» AI-løsninger basert på «skitne» data for å komme raskt til markedet.
Krever bevissthet – og forskning
Spørsmålet nå er derfor om AI-ekspertene vil klare å holde tritt med farten de nye dataene skapes i.
– Dette er i stadig større grad en jobb for ledere – og ikke bare dataforskerne. Bevisstheten rundt problemstillingene må økes, det må tas mer kvalifiserte valg rundt prosessene – samt investeres nok penger slik at man kan forske på problemstillingen, sier Martinkenaite.
Heldigvis er mange av selskapene som jobber med avansert datanalyse og kunstig intelligens – inkludert Telenor – bevisst på denne utfordringen, og arbeider ifølge Martinkenaite hardt for å sikre god datakvalitet.
– Har vi ikke en bevissthet rundt dette, vil vi kunne møte en «AI-vinter» – der mange fantastiske muligheter går tapt fordi grunnarbeidet ikke var godt nok, og tilliten til og finansiering av kunstig intelligens svikter.