Eye-tracking hjælper computere til at lave automatisk grammatisk analyse af tekst

Vores øjnes bevægelser siger meget om ords egenskaber. Det måler Maria Barrett med en eye-tracker.

INTERVIEW Kan en computer lære at bestemme, om et ord er et navneord eller et udsagnsord baseret på, hvordan vi læser en tekst? Ph.d.-studerende Maria Barrett på Københavns Universitet forsker i, hvordan hun ved hjælp af øjnenes bevægelser kan optimere maskinlæringsalgoritmer til at lave bedre ordklasseopmærkning. Den teknologi kan få stor betydning for udviklingen af computeroversættelse for sprog, der ikke har mange nedskrevne sproglige ressourcer.

Twi er en dialekt af det vestafrikanske sprog Akan. I øjeblikket taler 6 til 9 millioner mennesker i det centrale Ghana sproget. Skønt der er flere, der taler Twi end dansk, bliver sproget betegnet som et lav-ressource sprog. Der bliver nemlig ikke forsket meget i Twi, og der findes få eller ingen samlinger, hvor sproget er beskrevet.

Hvis et sprog som Twi skal have mere ud af digitale muligheder som maskinlæring, kunstig intelligens og automatisk oversættelse (som kendt fra Google Translate), er det vigtigt først at skabe en stor digital samling af tekst, hvor ord er inddelt i klasser efter deres overordnede betydning, grammatiske funktion og bøjningsmuligheder. Dvs. en samling hvor hvert ord er tildelt et part-of-speech tag – et mærke – der angiver, om ordet er et navneord, udsagnsord, konjunktion etc. Når computeren kender ordenes betydning, klasse og bøjning, kan den også tilbyde en kvalificeret oversættelse af teksten.

Normalt bygger forskerne sådanne digitale samlinger med viden fra store mængder opmærket tekst. Men da mange sprog omkring i verden ikke har sproglige digitale ressourcer, har Maria Barrett, ph.d.-studerende på Center for Sprogteknologi på Københavns Universitet, taget en alternativ tilgang til at bestemme ords klasse. Ved at måle på læseres øjenbevægelser med en eye-tracker undersøger hun, om computeren kan lære at skelne mellem ordklasser på baggrund af, hvordan ordene i teksten bliver læst.

Maria Barrett
Maria Barrett er ph.d.-studerende på Center for Sprogteknologi på Københavns Universitet. Hun arbejder på at få computere til automatisk at bestemme ordklasser baseret på, hvordan mennesker læser tekster. Se Maria Barretts profil på Københavns Universitet.

Dine øjne siger meget om et ords egenskaber

– “Når mennesker læser en tekst, gør de alt det, som vi gerne vil have computeren til at gøre. Mennesker finder syntaktiske roller og ordklasser inde i hovedet. Det er noget vi kan aflæse i øjnenes bevægelser”.

– “Når vi læser, bevæger vores øjne sig hen over teksten. Nogle gange går vi tilbage til et ord, vi allerede har kigget på en gang, andre gange kigger vi på bestemte ord i længere tid end andre ord. Disse læsemønstre siger meget om tekstens indhold”.

Når Maria Barrett tænder eye-trackeren, er det processeringstider hun ser på. Processering i denne sammenhæng betyder, hvor lang tid vores hjerne er om at beregne et bestemt ords mening. Med eye-trackeren kan hun præcist måle, hvor længe en læser kigger på hvert ord. Det kaldes fiksering (fixation).

– “Fiksering – det at læseren kigger på et ord – har en varighed af et par hundrede millisekunder, og processeringsvanskeligheder bliver meget hurtigt afsløret i den slags eye-trackingdata. Ord som forekommer tit bliver generelt kigget på i kortere tid, end ord der ikke forekommer så tit. Det tager simpelthen længere tid for læseren at tilgå ordet i den interne mentale ordbog”.

– “Vi ved at der er forskelle mellem, hvor lang tid man kigger på bestemte ordklasser. Navneord bliver kigget på i længere tid, og oftest igen, i forhold til andre ordklasser som præpositioner og konjunktioner. Det sker helt automatisk og ubevidst, når vi læser”.

Eye-tracking, scanpath, fixations, saccades
Øjnenes bevægelse bliver normalt inddelt i fiksering (fixations) og i sakkader (saccades), som er små hurtige bevægelser, der bevæger sig fra et punkt til et andet.
Anvender mange forskellige typer information om ord

Men fikseringstid alene er ikke præcist nok til at bestemme, om et ord er et navneord eller et udsagnsord. Derimod kigger Maria Barrett på mange forskellige sproglige egenskaber for bedre at kunne afgøre, hvilken ordklasse et bestemt ord tilhører.

– “Det jeg gør er at anvende en stor mængde data og se på, hvordan forskellige variabler, som fx længde, kompleksitet og frekvens af ord påvirker fikseringstiden, altså hvor lang tid vi kigger på ordet”.

– “For at lave en sammenligning, så forestil dig forskellige højder på mennesker, fx 163cm, 186cm, 191cm, 171cm, 159cm og 188cm. På baggrund af den ene oplysning – feature – kan du hurtigt fortælle mig, at de lægger sig i to bunker; de høje og de lave, men du kan ikke fortælle, hvem der er mænd og kvinder. Samme beregning er ret triviel for en computer, så den giver vi måske 100 features, altså 100 forskellige oplysninger om menneskerne i bunken. Det svarer til, at jeg sammen med gruppens højde også fortalte dig om længden på deres hår eller information om deres vægt. Med de oplysninger kan vi nemmere bestemme, hvem der er mænd og hvem der er kvinder. Det samme gælder for ordklasseopmærkning”.

Computeren må selv finde frem til den rette ordklasse

Normalt bruger forskerne ordbøger og opmærkede datasæt til at træne deres maskinlæringsalgoritmer, men Maria Barrett vil som udgangspunkt have så lidt hjælp fra digitale ressourcer som muligt. Computeren må selv finde sammenhængen på baggrund af de features den får adgang til, fx at et navneord typisk har nogle bestemte egenskaber, præpositioner og konjunktioner nogle andre.

– “Jeg prøver at gøre mig fri af opmærkede digitale ressourcer, så min model kan bruges på sprog, hvor der ikke findes særlig mange ressourcer. Og dem er der mange af. For engelsk og spansk er der rigtig megen tekst, sprogene er grammatisk velbeskrevet, der er sammenlignelige tekster (parallelle korpora), oversættelser, og komparative analyser. Det er der bare ikke for Twi. Der findes ingen opmærkede ressourcer, som kan hjælpe os til at vide, hvilken ordklasse et bestemt ord tilhører. Så kan vi få 20 ghanesiske personer til at læse nogle tekster, og samtidig optage deres øjenbevægelser med en eye-tracker, så kan vi meget nemmere bestemme ords klasse, end hvis computeren bare skulle gætte ud fra konteksten”.

Uoverskuelige datamængder for mennesker – ikke for computeren

Data fra eye-trackeren bliver til lange vektorer af tal. En vektor er en datastruktur, en sekvens af tal. Den store mængde tal er umulig for et menneske at overskue, men en computer er ret god til at finde mønstre i lange rækker af tal. Når computeren kombinerer den viden den allerede har om ords features med data fra eye-trackeren, så kan den regne sig frem til, hvilken ordklasse ordene har. Og det er vigtigt, når vi fx taler maskinoversættelse.

– “Ordklasseopmærkning er en underopgave af maskinoversættelse. Det er meget svært at oversætte noget, før man kender ordenes semantiske, grammatiske og syntaktiske egenskaber. Man får fx et meget mærkeligt resultat, hvis ikke man skelner om ordet flies er et verbum (flyver) eller et navneord (fluer). Så selve ordklasseopmærkning er underleverandør til en lang række maskinlæringsprocesser, fx maskinoversættelse”.

machine translation, nlp, automatic translation
I fremtiden kan eye-tracking være med til at forbedre de sprogteknologiske muligheder for lav-ressourcesprog
Hvem kommer denne teknologi til gavn?

Selv om Maria Barretts forskning stadig er under udvikling, kan eye-tracking på sigt være med til at bygge store digitale samlinger af opmærket tekst for sprog som fx Twi. Moderne sprogteknologiske metoder giver forskerne nye og forbedrede muligheder for at beskrive sprog, som traditionelt ikke har store velbeskrevne korpora.

– “Det er ikke nemmere at bestemme ordklasser ved hjælp af eye-trackingdata end at fodre computeren med store ordbøger. Men det giver adgang til få nogle data og nogle resultater fra sprog, hvor der ikke findes ordbøger eller andre nedskrevne ressourcer.”

– “Og på sigt kan data fra fx et lav-ressourcesprog som Twi være med til, ligesom Google Translate, at skabe kulturelle møder, nedbryde sproglige barrierer for kulturel og lingvistisk forståelse, og det er en måde at deltage i det digitale samfund, og dermed hjælpe til uddannelse, sproglæring, og kontakt mellem kulturer.

Mere information:

Hvad er eye-tracking?
Eye-tracking er en teknik til at måle øjets bevægelse. En eye-tracker består af en lyskilde (infrarødt lys) og et kamera. Det infrarøde lys rettes mod pupillen, hvilket skaber synlige refleksioner i hornhinden. Refleksionerne opfanges og måles af kameraet 120 gange i sekundet (afhængig af eye-trackerhardware). Informationen analyseres af computeren, der med stor præcision beregner hvor øjet kigger på skærmen. Resultaterne kan visualiseres i fx heatmaps (hvilke områder testpersonen kigger mest/mindst på sammenlagt) eller scanpaths (øjets bevægelse på skærmen målt over tid).

eye-tracking, cognitive neuroscience
© Medium.com