Forskere fra Sør-Korea har nå oppfunnet en ny AI-modell som de har kalt «DarkBERT». Forskerne har trent opp AI-modellen ved bruk av kunstig intelligens. Hovedmålet med denne AI-modellen er at den skal bidra til å bekjempe nettkriminalitet.

 

Det finnes en del av internett som kalles «Dark Web» som inneholder nettsider med skjulte IP-adresser. For å komme inn på det mørke nettet (Dark Web) må man ta i bruk en spesialisert programvare kalt Tor (The Onion Router). All trafikk til sidene er kryptert og derfor er det flere kriminelle som benytter Dark Web til å planlegge kriminalitet uten å bli oppdaget. Ofte gjelder de kriminelle handlingene kjøp og salg av narkotika, våpen, salg av stjålne data og mer.

I samarbeid med en data-intelligens-gruppe kalt S2W har forskere fra Korea Advanced Institute of Science and Technology (KAIST) utviklet DarkBERT, en generativ AI-språkmodell som kun er trent på datasett fra Dark Web.

 

Et omfattende utviklingsarbeid

For å utvikle DarkBERT samlet forskerteamet inn en stor mengde data ved å søke gjennom Tor-nettverket. På denne måten fikk de optimalisert hvordan DarkBERT kan tilpasse seg språket som brukes på det mørke nettet. Deretter fjernet de duplikater og filtrerte data i et forsøk på å redusere etiske bekymringer knyttet til det sensitive innholdet som finnes på Dark Web. Dette innebar å fjerne blant annet organisasjonsnavn, informasjon om datalekkasjer, trusselkommentarer og ulovlige bilder.

 

Dataene som ble samlet inn og brukt som treningsdata forbedret DarkBERTs evne til å forstå og trekke ut meningsfull informasjon fra det komplekse innholdet som finnes på Dark Web. Totalt har DarkBERT blitt matet med rundt 6,1 millioner sider som finnes på Dark Web som er en del av den omfattende treningen av tekster.

Målet til forskerne var å overgå egenskapene til de allerede eksisterende språkmodellene og skape et AI-verktøy som kunne bekjempe nettkriminalitet.

Skiller seg ut fra andre språkmodeller

DarkBERT skiller seg ut fra andre språkmodeller ved sin evne til å forstå de ulike kodede meldingene som er utbredt på Dark Web. I flere tilfeller relatert til nettkriminalitet overgår DarkBERT andre språkmodeller som BERT og RoBERTa.

Teamet bak DarkBERT fant fort ut at språkmodellen til AI-modellen de utviklet presterte mye bedre når det kom til å forstå Dark Web enn andre modeller som er trent til å gjøre de samme oppgavene, inkludert RoBERTa, som ble utviklet til å forutsi skjulte tekst-seksjoner. De fant også ut at DarkBERT potensielt kan brukes til å bistå nettsikkerheten ved å identifisere nettsteder som selger eller publiserer private data som er blitt lekket. I tillegg kan den også brukes til å gjennomsøke de mange ulike forumene som finnes på Dark Web og overvåke utveksling av ulovlig informasjon.

DarkBERT er fortsatt i utvikling

DarkBERt er ikke tilgjengelig for allmennheten helt enda på grunn av det potensielt farlige innholdet som finnes på Dark Web, men forespørsler om å benytte modellen til vitenskapelige formål er nå blitt tillatt.

Forskere fortsetter å finjustere DarkBERT og undersøker mer avansert teknologi og mulighetene til å forbedre modellen slik at den kan brukes til å bekjempe nettkriminalitet ytterligere.