Nye norske språkmodeller
Nye BERT-baserte språkmodeller for norsk
Da jeg begynte å lage løsninger for sentimentanalyse, var M-BERT det eneste alternativet for norsk tekst. Så kom RoBERTa, den har også norskedata i seg. Se tidligere innlegg i denne bloggen. Nå, et stykke ut i 2021, har vi fått to nye modeller basert på bare norsk tekst, tror jeg.
Det ser ut til at Universitetet i Oslo og Nasjonalbiblioteket har en vennskapelig konkurranse gående, om å lage de beste modellene for norsk. Det er jo supert for oss oss som vil ta i bruk slike modeller. Jeg har begynt å lese Large-Scale Contextualised Language Modelling for Norwegian som rapporterer resultatene de får, og sammenligner med M-BERT og Nasjonalbibliteket sin NB-BERT-Base. Se også denne siden for sammenligninger.
Modellene fra begge miljøene er heldigvis også tilgjengelige via Huggingface sitte repository, så det skulle gå greit å plugge de inn i eksisterende kode.