I dag publicerar Kungliga biblioteket (KB) tre svenska språkmodeller baserade på Googles “BERT” (Bidirectional Encoder Representations from Transformers).
De första testerna visar att KB:s modeller överträffar Googles flerspråkiga modell.
En språkförståelsemodell är ett omfattande artificiellt neuralt nätverk som tränats på stora mängder text för att få en flexibel och djup språkförståelse. KB:s BERT har lärt sig mekanismerna i svenska språket och kan analysera och strukturera text i stora underlag.
Tillsammans med grundmodellen släpper KB även en BERT som har finjusterats för att kunna extrahera objekt, tid, händelser, organisationer, platser och personer ur text. Dessutom publicerar KB en preliminär version av ALBERT – en utveckling av BERT som är markant mindre och därför mer tillgänglig.
Modellerna har tagits fram av KB-labb, som är Kungliga bibliotekets infrastruktur för datadriven forskning.
– Språkförståelsemodeller är ett genombrott för språkteknologin, som kommer få långtgående konsekvenser för all textbaserad forskning och utveckling. En svensk BERT bidrar till att Sveriges datadrivna forskning hänger med i det paradigmskifte som redan har startat i andra länder, säger Love Börjeson, föreståndare för KB-labb.
Hur används en modell för språkförståelse?
KB:s BERT kan till exempel tränas till att avgöra om en dagstidningstext kommer från en ledar- eller kultursida. Den kan spåra Selma Lagerlöfs stilistiska inflytande över 1900-talslitteraturen, men även identifiera skribenter från en trollfabrik baserat på stil och innehåll.
Modellen kan tränas till specifik språkförståelse, det vill säga lära sig förstå text inom särskilda ämnesområden och för olika frågeställningar. Det innebär att BERT kan användas till i princip vilken textbaserad uppgift som helst, inom forskning, myndigheter och industrin.
Varför tar KB fram språkförståelsemodeller?
KB:s omfattande samlingar är grunden för språkförståelsen hos den nyutvecklade BERT. Bredden i samlingarna gör att olika typer av svenska, och olika delar av samhället, representeras. Modellen har tränats på en kombination av öppet tillgängligt och upphovsrättskyddat material, inklusive svenska Wikipedia, svenska dagstidningar, offentliga utredningar, böcker, digitala publikationer, sociala medier och webbforum.
Var hittar jag KB:s modeller?
Modellerna och dokumentation om hur de kan användas finns på KB:s GitHub-konto. I ett första steg släpps en färdigtränad BERT-modell, en alfaversion av ALBERT samt en modell finjusterad för extraktion av bland annat namn och platser, så kallad Named Entity Recognition (NER).
Vad händer nu?
KB-labb kommer under 2020 ta fram fler språkmodeller. Fokus ligger på att förbättra testmetoder, att täcka in fler delar av det svenska samhället och språket, samt att göra modellerna så tillgängliga som möjligt för olika typer av användare. Utvecklingen sker i samarbete med bland annat det statliga forskningsinstitutet RISE och Språkbanken Text vid Göteborgs universitet.
FAKTA: Datadriven forskning
Utmärkande för datadriven forskning är att den använder stora sammanlänkade datamängder i form av dataset. Det kan ställas i motsats till traditionell forskning på enskilda digitala objekt.
I forskningspropositionen Kunskap i samverkan (2016/17:50) lyfter regeringen fram betydelsen av att bibliotek, arkiv och museer främjar datadriven forskning genom att ge tillgång till material i digital form.
KB har sedan maj 2019 etablerat KB-labb, en infrastruktur för forskare som vill utföra datorstödda analyser på KB:s digitala samlingar. Denna grund ska sedan kunna användas för forskning med datorstödd text-, ljud- och bildanalys som metod. Det gäller på sikt även material utanför KB:s samlingar.