I finegrained sentiment analysis har jeg brukt sequence tagging som metode, der hvert ord merkes for å enten være med, eller ikke være med i en sekvens av ord som vi er ute etter. Den vanligste oppgaven å løse med denne metoden er kanskje Named Entity Recognition NER som skal finne alle steder der en person, et geografisk sted, en organisasjon er nevnt, og så videre. Vi har et datasett for dette på norsk som heter NorNE. Jeg gjorde et prosjekt på dette datasettet i 2019. Da var LSTM verktøyet vi tok i bruk, og jeg fikk en F-score på om lag 85%. I NorNE er det noen kategorier som brukes lite, men denne F-score fikk jeg med alle kategorier i bruk.

I går testet jeg hvordan det ville fungere å trene en modell med multilingual BERT på denne oppgaven. Jeg fant fram dataene som jeg allerede hadde konvertert, og jobben kjørte på første forsøk. Jeg fikk en F-score på 90% på dev-settet uten noe mer søking etter beste hyperparametre.

   model_args.train_batch_size = 32
   model_args.num_train_epochs = 8
   model_args.weight_decay = 0.001
   
   
   eval_loss 	precision 	recall 		f1_score 	
 	0.03983 	0.894337 	0.907583 	0.900911
   
      

Du finner jupyter notebooken og hjelperutinene i norec_fine_tools.