Questo è probabilmente il dizionario più usato in Danimarca di oggi. Per esempio. Lo vedo spesso usato qui su Reddit per decidere varie discussioni su cosa significhi una parola.

    È prodotto dalla lingua danese e dalla società della letteratura, ma è stato mantenuto in vita solo dai fondi di fondazioni private, poiché lo stato non si preoccupa di pubblicare denaro nel progetto. Ora l’ultimo fondo sta disegnando, quindi il dizionario deve chiudere.

    https://www.berlingske.dk/synspunkter/den-danske-ordbog-er-et-bolvaerk-mod-chatbotternes-ensretning-af

    di SimonGray

    Share.

    2 commenti

    1. SimonGray on

      # Den Danske Ordbog er et bolværk mod chatbotternes ensretning af sproget – nu trues den af lukning!

      Nogen må have roterende fis i kasketten. Udtrykkets oprindelse er usikker, men det er sandsynligt, at det kommer fra en gammel forestilling om, at fisk godt kunne putte sig i en kasket eller en anden lille, lukket beholder. Hvis fisken så begyndte at rotere rundt i kasketten, ville det være et tegn på, at den havde mistet sin normale adfærd og nu var i en tilstand af stress eller panik.

      Bare rolig, denne forklaring kommer ikke fra Den Danske Ordbog, men derimod fra en ikke helt velbevandret chatbot som ikke ved hvad udtrykket betyder, og som ikke engang kender det gode danske ord ’fis’, men forveksler det med en fisk!

      Den Danske Ordbog, hvor vi finder udtrykkets betydning, er imidlertid i fare. For Carlsbergfondet, som ellers har holdt hånden under ordbogen, har meddelt at de ikke fremover vil støtte dens langsigtede drift. Derfor skriver Det Danske Sprog- og Litteraturselskab, som hidtil har vedligeholdt og udviklet ordbogen, at den fra og med 2026 ikke længere kan ajourføres. Dette vil være dybt beklageligt for vores sprogsamfund på flere planer. Oplagt er det at den meget brugte platform, ordnet.dk, hvor ordbogen frit har kunnet tilgås som den centrale danske sprogressource, ikke længere vil være opdateret og derfor med tiden vil blive værdiløs i forhold til at repræsentere nutidssproget. Det betyder at sprogbrugerne vil miste den direkte og aktuelle adgang til at få forklaret og demonstreret finesser og nuancer i det danske ordforråd.

      Men ordbogen udgør i praksis også fundamentet for meget mere end det. Igennem mange år har ordbogen i et samarbejde med bl.a. Center for Sprogteknologi ved Københavns Universitet fungeret som datagrundlag for udviklingen af sprogteknologiske ressourcer for dansk. Vi har bl.a. brugt ordbogens betydningsinventar til at træne sprogmodeller til bedre at kunne entydiggøre danske begreber, og vi har udviklet et dansk begrebsnet, DanNet, hvor danske begreber er relateret til hinanden i et formelt sprog via semantiske relationer og således kan udnyttes direkte til sprogteknologi.

      Lige nu udgør ordbogen den centrale komponent i et stort forskningsarbejde (støttet dels af Carlsbergfondet, dels af Digitaliseringsministeriets AI-satsning), hvor vi evaluerer og ’benchmarker’ hvor gode de populære chatbotter egentlig er til dansk sprogforståelse, også når vi kommer ud i de sproglige nuancer og knap så hyppige del af ordforrådet, og hvordan og hvor hurtigt sprogmodellerne udvikler sig. Vi ved nemlig at modellerne, som udgør chatbotternes kerne, lærer rigtig meget fra engelsk og ofte har en tendens til at overføre denne viden til de ’mindre’ sprog, herunder dansk. Denne fejloverførsel fører ganske hurtigt til en ikke uvæsentlig ensretning og homogenisering af sproget som vi måske ikke er helt bevidste om, og hvor nuancer og særpræg udvandes i rasende fart. Den Danske Ordbog udgør i essensen et bolværk mod denne ensretning og homogenisering fordi den dokumenterer bredden og dybden i det danske ordforråd ud fra beskrivelser som er forfattet af højt specialiserede leksikografer der kombinerer analyse af teksteksempler med dyb indsigt i dansk sprog og kultur. Dette vidensgrundlag kan vi holde op imod chatbotterne og dermed finde og udbedre hullerne i dem, men uden ordbogen bliver det nærmest umuligt at gøre det systematisk og i stor skala!

      Med datasæt udviklet semiautomatisk fra ordbogen kan vi via mange tusinde datapunkter følge hvor modellerne fanger den rigtige betydning, og hvor de ikke gør. Fx går det temmelig ofte galt med sprogets metaforik, som er dybt personligt og kulturelt forankret, og som vi bruger meget hyppigt, og som altså ikke bare er noget vi støder på i H. C. Andersens eventyr. Mange metaforiske udtryk har deres udspring i Danmark som en landbrugs- og søfartsnation. Nogle af metaforerne fungerer selv sagt fint på tværs af sprog, og her er modellerne helt med, som når vi fx reber sejlene (rig the sails) eller har en god ballast (ballast) med hjemmefra i form af erfaringer eller ressourcer. De udtryk der er unikke for dansk, går derimod ofte galt fordi modellerne her hallucinerer. Når vi på dansk siger at noget sejler, mener vi at det er kaotisk og uoverskueligt. Men på engelsk er sejlemetaforen overvejende positiv, som i ’smooth sailing’, og nok derfor overføres denne betydning fejlagtigt til dansk. Det samme sker med de flere hundrede danske udtryk som relaterer til vores såkaldte jantelov, og som på forskellig måde refererer til vores kulturelle norm om at alle er lige, og at ingen derfor skal føle sig mere værd end andre. Det ses i let nedladende og spøgende udtryk som at være høj i hatten, højpandet, kålhøgen, have høj cigarføring eller være en rigtig professortype. Generelt har de fleste modeller svært ved præcist at ramme den danske sprogtone som ofte er karakteriseret ved at være (selv)ironiserende og sarkastisk.

      Vi er ikke ene om at have særtræk der nemt går tabt i chatbotterne. I EU’s medlemslande står sproglig og kulturel diversitet meget højt på dagsordenen af indlysende grunde. Derfor etableres der nu infrastrukturer som Alliance for Language Technologies, hvor et centralt mål netop er at arbejde for at sikre sproglig og kulturel diversitet i AI. En meget vigtig komponent i dette arbejde udgøres af vores sprogressourcer, herunder i særlig grad ordbøgerne for de europæiske sprog.

      Set i dette lys vil det være et sprogsamfund med knald i låget der ikke fra offentlig side prioriterer at understøtte Den Danske Ordbog lige netop nu hvor der er så stort et pres på sproget fra chatbotter og kunstig intelligens. Knald i låget er i øvrigt ifølge ordbogen synonymt med roterende fis i kasketten. Man kunne også bare kalde det hul i hovedet.

    Leave A Reply