Multilingual BERT
Jeg har lagd løsninger for Targeted sentimentanalyse for norsk tekst både med LSTM og med m-BERT. Jeg vet ikke om jeg kommer til å legge ut LSTM-løsningen, siden den fungerer en del dårligere. Men programmet for å bruke m-BERT ligger her. Multilingual BERT, eller m-BERT er en Transformer-basert modell som gjør det bra i veldig mange oppgaver. Først kom BERT, en modell med bare engelsk, som på imponerende måte plukker opp språkets mønstre. Så lagde de m-BERT som er trent på Wikipedia-tekstene til over hundre språk. Norsk er ett av de. Det er ikke publisert så mye ennå, av resultater ved å bruke m-BERT i norsk språkteknologi, men jeg kan røpe at det fungerer bra. m-BERT gir oss “contextual word embeddings” som gir deg en tallkode for hvert ord, avhengig av sammenhengen ordet står i. Så hvis modellen har sett ordet “hoppe” brukt både som verb og substantiv, vil modellen gi deg ulik representasjon av “hoppe”, avhengig av om setningen er “Jeg tør ikke hoppe fra timeteren”, eller om det er “Jeg har kjøpt ei gammel hoppe av naboen”. Når vi (vi som i jeg) skal ta i bruk BERT i mitt program, trenger vi pyTorch. Det kunne vært TensorFlow, men jeg har lært pyTorch. Og så bruker vi Transformers fra Huggingface til å koble sammen BERT og m-BERT med dataene våre. Og for å få enda litt mindre plunder med oppsettet, bruker vi “Simpletransformers” for å forenkle innmatingen av data.