Warning: "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in /var/www/forskningsformidling.dk/public_html/wp-content/plugins/types/vendor/toolset/types/embedded/includes/wpml.php on line 644

Warning: "continue" targeting switch is equivalent to "break". Did you mean to use "continue 2"? in /var/www/forskningsformidling.dk/public_html/wp-content/plugins/types/vendor/toolset/types/embedded/includes/wpml.php on line 661
Big dataanalyse af poesi skal lede til computergenererede digte - Forskningsformidling

Big dataanalyse af poesi skal lede til computergenererede digte

Manex Aguirrezabal forsker i automatisk computeranalyse af poesi.

INTERVIEW Kan man få en computer til at skrive et smukt digt? Måske ikke endnu, men forskningen inden for computergenereret poesi er nået langt i bestræbelserne på at få computere til selv at skrive digte. Manex Aguirrezabal forsker i at lave solide big dataanalyser af digtes rytmiske mønstre, så computere en dag ikke kun sætter de rigtige ord sammen, men også efter en klassisk metrisk opbygning.

Emily Dickinson sagde engang, “Hvis jeg læser en bog, og den gør min krop så kold, at ingen ild nogensinde kan varme mig, så ved jeg, det er poesi”.

Poesi vækker de mest basale følelser i mennesker. Poesi får os til at grine og græde, og de raffinerede rim og rytmer skaber en næsten musisk stemning.

Manex Aguirrezabal
Manex Aguirrezabal center for language technology computer generation poetry
Manex Aguirrezabal er postdoc på Center for Sprogteknologi på Københavns Universitet. Han arbejder med automatisk analyse af engelsk poesi, specielt med henblik på at få computere til at genkende trykstærke og tryksvage stavelser i et digt. Se Manex Aguirrezabals profil på Københavns Universitet.

Indtil videre har poesi været menneskets domæne. Men med den hastige udvikling af neurale netværk og kunstig intelligens er denne position måske truet. Computere har de seneste år gjort store fremskridt med at analysere og producere tekst, og selv om computerskabte tekster stadig er behæftet med visse sproglige fejl, så er computere blevet bedre til at skabe sammenhæng og mening i tekster.

Postdoc på Center for Sprogteknologi – Københavns Universitet – Manex Aguirrezabals mål er at forbedre computergenereret poesi ved at lave solide datadrevne analyser af de rytmiske mønstre i digte. Han vil gerne nå dertil, hvor han kan bede computeren om at skrive et digt om fx efterår eller sne. Computeren skal på baggrund af analyserne af de rytmiske mønstre selv producere et originalt og kreativt digt, fx en sonet.

Versefødder og big dataanalyse

– “Vi begyndte at skrive simple algoritmer for at få computeren til at skrive et digt. Men det gik hurtigt op for os, at skridtet fra simple algoritmer til systemer, der faktisk kan producere sammenhængende og meningsfuld tekst er for stort. Derfor fokuserede vi på at få computeren til at genkende et digts versefødder. Versefødder er den rytme, som findes i et digt, og som markerer fordelingen af tryksvage og trykstærke stavelser.

– Manex Aguirrezabal forklarer: “Hvis man tager et digt af John Keats som lyder: “To swell the gourd, and plump the hazel shells”, så ser man et gentagende rytmisk mønster af tryksvage (da) og trykstærke (dúm) stavelser: da dúm da dúm da dúm da dúm. Det er et klassisk jambisk pentameter”.

– “Vores mål var at få computeren til at genkende disse rytmiske mønstre i digte. Og det er slet ikke trivielt. For selv om størstedelen af alle engelske digte følger en jambisk metrik, så findes der også andre mønstre. Thomas Hardys “Woman much missed, how you call to me, call to me”  følger et daktylisk rytmisk mønster: dúm dada dúm dada dúm . Henry Longfellows Hiawathas sang: “There he sang of Hiawatha, Sang the Song of Hiawatha”  derimod har en metrik, som lyder dúm da dúm da , hvilket kaldes et trokæ. Og i mange af Dr. Seuss’ digte ser vi en rytme som dada dúm dada dúm – altså en anapæst”.

Regelbaseret læring, maskinlæring og kunstig intelligens

– “Vi begyndte med en regelbaseret tilgang. Vi var nødt til at kende betoningen på ordene, altså om et ord er tryksvagt eller trykstærkt. Vi ved at funktionsord (artikler, partikler, pronominer) generelt er mindre trykstærke i forhold til indholdsord (verber, adverbier og adjektiver). Så når vi kender ordklassen, og om ordet er tryksvagt eller trykstærkt kan vi give computeren et sæt regler, som den skal analysere digte ud fra”.

– “Da vi gik videre til maskinlæring, begyndte vi at arbejde med tryk på specifikke stavelser af ordet. I engelske ord ligger trykket normalt inden for de tre sidste stavelser af et ord. Så vi giver computeren en række digte, hvor vi har markeret ordenes tryksvage og trykstærke stavelser. Computeren analyserer derefter en større mængde digte, og lærer selv at markere stavelserne i teksten på baggrund af det input vi gav den”.

Computeren ved ingenting om poesi

Computeren behøver sådan set ikke at vide noget om digtet for at kunne analysere de metriske mønstre. Men den data Manex Aguirrezabal giver til computeren stammer fra analyser af digte.

– “Som det ser ud nu, inkluderer vi ikke semantiske modeller i vores arbejde med analysen. Vi fokuserer på at lære computeren at fange de rytmiske mønstre i digtet”.

– “Der er nogle grupper, der inkluderer semantiske modeller. Modellerne er ikke helt stærke nok til at få teksten til at ligne menneskeskabt poesi, men med neurale netværk og kunstig intelligens er vi faktisk ved at være et sted, hvor man kan blive i tvivl om et menneske eller en computer har skrevet digtet”.

– “Måske kan et computergenereret digt bestå Turing-testen halvdelene af gangene. Men man kan ikke spørge så simpelt, om et digt er menneskeskabt eller skrevet af en computer. Poesi er jo ofte meget abstrakt. I stedet kan vi bruge en Lovelace-test, hvor computeren skal producere original og kreativ tekst for at bestå testen. Computeren skal altså producere tekst, den ikke var programmeret til at skrive”.

computer generated poesi poetry automatic
På siden botpoet.com kan man teste, om man er i stand til at afgøre, om et digt er skrevet af et menneske eller af en computer – ©botpoet.com
Computergenereret tekst med god rytmik appellerer til reklamebranchen

– “Poesi eksisterer af forskellige årsager. Det vækker følelser i mennesker, ikke bare indholdet, de smukke ord, men også de rytmiske mønstre. Og specifikke rytmiske mønstre skrevet ind i tekster har også en positiv effekt på hukommelsen. Vi husker simpelthen passager af tekst bedre, hvis ordene passer ind i et rytmisk mønster”.

– ” Men hvad er det der gør, at vi husker visse sætninger, visse slogans? Fx hvis man tager sætningen “They said this day would never come, they said our sights were said too high”, følger den en klassisk jambisk versefod: da dúm da dúm da dúm da dúm. Men det er ikke fra et digt, det er fra Barack Obamas sejrstale ved primærvalget i Iowa i 2008″.

Hvis vi kender de rytmiske mønstre i poesi, og hvordan de kan vække følelser, så har det stor betydning for marketingbranchen og i politiske taler. Computere vil i fremtiden kunne høste data fra millioner af digte til ikke kun at frembringe smukke, originale digte, men også producere slogans og tekster, som kan anvendes til at skabe en bestemt stemning hos modtageren.

Mere information:

Manex Aguirrezabals profil på Københavns Universitet

Bedøm selv om du kan skelne mellem et menneske og en robot på botpoet.com


Big dataanalyse af poesi skal lede til computergenererede digte
Tagged on:     


© Forskningsformidling.dk 2018
Kontakt forskningsformidling.dk