Tekstsimplificering med eye-tracking – ph.d. Sigrid Klerke

INTERVIEW Kan den måde dine øjne bevæger sig hen over sætningerne i en tekst være med til at gøre teksten lettere at læse? Sigrid Klerke har i sin ph.d.-afhandling GLIMPSED – improving natural language processing with gaze data undersøgt, hvordan data fra eye-tracking øjeblikkeligt kan afsløre hvilke ord og sætninger, der giver læseren problemer. Computeren kan dermed automatisk erstatte eller slette disse ord. Det betyder, at mennesker med læsevanskeligheder i fremtiden kan få adgang til skræddersyede, letlæselige udgaver af tekster i det øjeblik de læser dem.

Det at gøre en tekst lettere at læse – tekstsimplificering – udbydes allerede af medier som fx Danmarks Radios Ligetil Nyheder. Her skriver journalister nyheder om til et mere simpelt og lettere læseligt sprog. Artiklernes svære ord enten erstattes med nemmere synonymer eller slettes helt fra teksten.

Sigrid Klerke
Sigrid Klerke er ph.d. fra Center for Sprogteknologi på Københavns Universitet. Hun har forsket i hvordan data fra eye-tracking kan bruges til automatisk at gøre tekster lettere at læse.

Tekstsimplificering forudsætter normalt, at et menneske sætter teksten sammen. Det er både dyrt og tager lang tid. Det kan også gøres automatisk, men hvis vi lader computeren klippe og klistre i teksten, er der ingen garanti for, at sætningerne længere giver mening. Det er nemlig svært for computeren at måle, om en tekst er let eller svært at læse. Indtil videre har man brugt tekstens LIX-tal, der måler om teksten er lang eller kort, og om der er mange lange ord i. På den måde kan man slette nogle af tekstens svære ord, men metoden tager ikke højde for den enkelte læsers specifikke læsevanskeligheder.

Sigrid Klerke har valgt en anden tilgang til tekstsimplificering. Med en eye-tracker har hun målt folks øjenbevægelser, og dermed fået indsigt i, hvordan de læser en tekst. Den information giver øjeblikkeligt et billede af, hvilke ord der giver læseren problemer. På den baggrund har hun udviklet et program, der automatisk kan tage beslutning om, hvilke ord der kan slettes for at gøre teksten mere tilgængelig for læseren.

Hvordan afslører øjnenes bevægelser læsevanskeligheder?

– “Man kan sige, en tekst den er lineær. Den starter i den ene ende og slutter i den anden ende, og alt andet lige, så skal du fra den ene ende til den anden. Alle mennesker går tilbage i teksten for at tjekke noget cirka 10-15% af tiden. Men hvor i dine øjenbevægelser findes læsemønstrene? Er det den information, at du går hurtigt tilbage i teksten og kigger på et ord, du allerede har kigget på en gang? Eller at du går fra et navneord til et udsagnsord, når du går tilbage? Hvis du går meget frem og tilbage, så er det en slags information om, hvad der er inde i teksten. Den strukturerede information vil jeg gerne gøre tilgængelig for computeren, så den kan tage en beslutning om teksten”.

Stiliseret repræsentation af scanpath – grafisk reproduktion fra Sigrid Klerkes ph.d.-afhandling

Hvorfor eye-tracking?

– “Man siger der er en eye-mind hypotese. Det du kigger på, er også det du tænker på lige nu. Den stærke version af hypotesen holder ikke, du kan stadig tænke på noget andet, end det du kigger på, men den svage hypotese, at du i gennemsnit tænker på ting du kigger på, den har vist sig at være ret velunderbygget”.

– “Det man må forstå med synets egenskaber er, at det faktisk kun en lille del af dit synsfelt, der står fuldstændig skarpt. Hvis du i strakt arm kigger på din tommelfinger, så er den det eneste, der er i fokus. Resten er forholdsvist sløret. Dvs. for at læse en tekst skal du faktisk kigge på hvert et ord, hvis du skal vide præcist, hvad det er”.

Hvordan bruger man data fra øjenbevægelser til at gøre teksten lettere at læse?

– “Når man måler på øjnenes bevægelser hen over en tekst, får man et nyt sæt koordinater for hvert 1/120 sekund (afhængig af kvaliteten af eye-trackeren), uanset om øjnene har bevæget sig eller hvad der står på skærmen. Man ender faktisk med tusindevis af tal, der repræsenterer den bevægelse, du lavede hen mod et enkelt ord. Det er simpelthen så meget data, at vi må gå til opgaven med data-mining og maskinlæring. Vi lader altså computeren analysere og finde mønstre i den store mængde tal”.

– “Min model (red. program) finder mønstre i de lange vektorer af tal, som eye-trackeren registrerer om læserens læseadfærd. Modellen forholder sig ikke til, hvilke ord teksten indeholder, men kun til den information den får fra øjenenes bevægelser. Med informationen kan algoritmen regne ud, hvilke dele af teksten der giver læseren problemer og tage beslutning om, hvilke ord der kan erstattes eller slettes”.

Hvem gavner denne teknologi?

– “Med dette værktøj kan vi lave let læste udgaver af tekster til folk, der har læsevanskeligheder, og måske til folk, der ikke kender sproget så godt endnu, men uden at der skal sidde en journalist eller læsepædagog og forsimple teksten”.

– “Især hos folk med læsevanskeligheder har tekstsimplificering den fordel, at de kan få adgang til dele af information – i modsætning til slet ikke at få adgang til noget information. Du får ikke samme oplevelse som at læse hele teksten, men du er stadig et bedre sted, end hvis du ingenting havde fået”.

– “Du kan sammenligne det lidt med at læse Jumbobøger. Mange mennesker har deres første møde med nogle af de store historiske fortællinger med Anders And og Mickey Mouse i hovedrollen. At det er skrevet i en simplificeret udgave er ikke nødvendigvis noget, vi tænker negativt om”.

Kommercielle anvendelser

Selv om der er langt fra et system der virker i laboratoriet til et kommercielt produkt, kan Sigrid Klerke se mange kommercielle anvendelser for de teknikker, hun har været med til at udvikle. Allerede nu kan eye-trackingteknologi bygges ind i mobiltelefoner, og her kan sådan en tekstsimplificeringsmodel være til gavn for folk med læsevanskeligheder. Firmaer som Google og Microsoft kan indhente store mængder data, om hvordan vi læser tekster, og bruge den data til at justere i teksten for at gøre den mere tilgængelige for den enkelte læser. Men vi behøver ikke at frygte, at informationen om vores øjenbevægelser afslører, hvad vi læser om.

– “Selv om eye-trackeren registrerer vores øjenbevægelser skal vi huske, at modellen er baseret på millioner af datapunkter. Man skal ikke føle, at computeren overvåger dig som individ, eller følger med i hvad du læser om. Det er ikke den specifikke information om dig, men den abstrakte information fra alle, der skal bidrage til at få en bedre forståelse af, hvordan den menneskelige hjerne bearbejder sprog, og hvordan vi kan forbedre det sprogteknologiske felt med den viden”.

Hvad er eye-tracking?
Eye-tracking er en teknik til at måle øjets bevægelse. En eye-tracker består af en lyskilde (infrarødt lys) og et kamera. Det infrarøde lys rettes mod pupillen, hvilket skaber synlige refleksioner i hornhinden. Refleksionerne opfanges og måles af kameraet 120 gange i sekundet (afhængig af eye-trackerhardware). Informationen analyseres af computeren, der med stor præcision beregner hvor øjet kigger på skærmen. Resultaterne kan visualiseres i fx heatmaps (hvilke områder testpersonen kigger mest/mindst på sammenlagt) eller scanpaths (øjets bevægelse på skærmen målt over tid).

Mere information:

Sigrid Klerke er ekstern lektor på Center for Sprogteknologi, Københavns Universitet. Hun afleverede i august 2016 ph.d.-afhandlingen GLIMPSED – improving natural language processing with gaze data, som er open data og kan læses her:
GLIMPSED – improving natural language processing with gaze data