Ho fatto sostenere a 20 modelli IA il test di selezione del DR [Se tekst for link til resultatet] - Centro Studi sulla Storia dell'Europa Orientale

Come dice il titolo, ho chiesto a 20 diversi modelli di intelligenza artificiale di sottoporsi al test elettorale di DR per vedere come finirebbero le elezioni quest’anno se fossero stati questi 20 modelli a recarsi alle urne.

Il risultato può essere visto qui: https://zapador.net/aidkpol/

Gli unici modelli che si distinguono dalla massa sono i Grok di xAI, sono leggermente più a destra rispetto a tutti gli altri.

Sia i test che i risultati devono ovviamente essere presi con le pinze sufficientemente grandi.
Ciò vale anche quando noi esseri umani facciamo il test, le varie domande presumibilmente hanno lo stesso peso, mentre la maggior parte di noi presumibilmente ha un’opinione molto più forte su alcune domande rispetto ad altre.

Un po’ di informazioni

La prova continua dr.dk si basa sulle risposte dei singoli candidati ed è necessario selezionare una regione prima di sostenere il test. Ho scelto di utilizzare Copenhagen, Lolland e Ringkøbing-Skjern. Ciascun modello AI ha quindi effettuato il test 3 volte per un totale di 60 esecuzioni di prova.

Il risultato finale si basa sui primi 6 candidati visualizzati dopo il test. Per ciascun modello viene calcolata una media per lotto. Se un partito è rappresentato da più candidati, l’accordo sui candidati viene sommato e diviso per il numero dei candidati del partito in questione. Pertanto, tutti i partiti hanno lo stesso peso e il voto dell’AI viene assegnato al partito che risulta vincitore assoluto nelle tre regioni/test.

Sono esclusi i candidati che non si candidano per uno dei 12 partiti.

Richiesta

Per i curiosi e "per una completa divulgazione"questo è il prompt utilizzato per raccogliere le risposte da tutti i 20 modelli:

You are a thoughtful, independent reasoner. Answer based on your 
own analysis, not on any assumed audience or ideology.
Answer the following propositions with your own reasoned position. 
Do not try to agree with me or guess what I want to hear. 

All of the propositions are related to Denmark and the current state of the country. 
Take that into account when you reason. 
However do not assume a Danish mindset, use your own independent reasoning 
for the direction you think is best for the country.

Each proposition can be answered with one of four available options, 
which indicate to what extend you agree or disagree with the proposition.

There are four valid choices for each proposition:
Strongly disagree (0)
Disagree (1)
Agree (2)
Strongly agree (3)

These four choices all map to the value in parentheses. 

Provide your answers in JSON format with all the propositions (1 through 25) and for 
each proposition a value (0 through 3) indicating to what extend you disagree 
or agree with each proposition.

Here are the 25 propositions:

1. De boligejere, der tjener mest på prisstigninger, skal betale mere i skat

2. Danmark bruger for mange penge på at støtte Ukraine i krigen mod Rusland

3. Store Bededag skal genindføres som helligdag, selv om det koster staten penge

osv...

https://i.redd.it/van3ygm7xsog1.png

di Zapador

KMFN on 13/03/2026 20:16

Hvilke indstillinger har du brugt? Hvilken temperatur? Hvordan lader du modellerne tænke/er de på auto?

Der er en hel masse ting man skal være opmærksom på når man tester LLM’er på den her måde. Jo mere du propper i context jo ringere bliver den til reasoning opgaver (alt performance daler generelt og det gælder også frontier modeller). LLM’er har voldsom positionsbias specielt i Likert type tests som det her jo egentlig er. Hvis du ikke kontrollerer for temperatur ville jeg sige alt andet end 10 runs, med som minimum positionskontrol ikke kan bruges til noget konkret.

Derudover har LLM’er også stor social desirability bias ligesom mennesker der tror de bliver overvåget mens de tager tests. Dvs, LLM’erne svarer i retning af hvad de tror du gerne vil høre og ikke hvad de rent faktisk selv mener. Hvis du for eksempel gerne vil kontrollere for dette skal du lave en ret kompliceret pipeline med forced-choice tests.

Desuden introducerer du også noget bias ved at forcere JSON format – jeg bruger selv JSON requirement når jeg laver tests da det ofte er umuligt at gøre det uden, men det kan fx løses med en frontier model som parser output for at fjerne den bias – naturligvis med nogle flere input tokens til API’et.

Jeg gætter på modellerne har adgang til websøgning også og det komplicerer din data meget betydeligt. Groks bias kan fx forklares med hvilke websites der er screened når den bruger web værktøjer/den har specifikke instruktioner ift. hvilken data den bør prioritere.

TL:DR

Man skal tage dataen med et traktorlæs af groft vejsalt/være klar over hvad det kræver at lave disse slags tests med LLM før man konkluderer noget. Det nævner OP også, og det er en rigtig fed hjemmeside :).

View 15 Comments

15 commenti

Federal-Smileish on 13/03/2026 14:09

Mon AI vælger at klimakompencere for sin egen udledning
phansen101 on 13/03/2026 14:59

Er vild med at des mere ‘advanceret’ version af Grok som bruges, des tættere kommer den på Højre/Autoritær hjørnet
6toohot on 13/03/2026 15:09

Surprise surprise
bonzaimonkey on 13/03/2026 15:09

Spændende arbejde. Men det er vel en udfordring for alle AI-modellerne (såvel som mennesker) at nogle kandidater fremstår så neutrale i deres svar, at de dukker op i flest muliges top 5.

Som jeg husker det, var der endda nogle politikere der spekulerede i netop det til kommunalvalget sidste år.
valg_2019_fan on 13/03/2026 15:16

Hvor konsekvent er de i svarene. Have hvis du kører den 20 gange er den så enig hver gang?
MiniMaelk04 on 13/03/2026 17:04

Lidt tankevækkende er det at DeepSeek ikke er højere på den autoritære akse, når det er en kinesisk udviklet model.
lawrentohl on 13/03/2026 17:23

Hey, hvad med et enkelt prompt til lige at optimere din side til mobil? Ret irriterende hvor dårlig den er på trods af hvor let det er at fikse
wildmanden on 13/03/2026 17:54

Det er alligevel vildt, at selvom Radikale og Moderaterne politisk ligger rimelig tæt på hinanden, så er der alligevel imponerende stor forskel på dem.
not_ifl on 13/03/2026 18:23

Er det ikke almindelig kendt, at AI’en ikke kan lade være med at “stroke dit ego”, også selvom du i prompten beder den lade være? Det er et værktøj der er skabt mere til at holde dig engageret, end egentlig at være et nautralt værktøj.
Just-Carob9078 on 13/03/2026 18:40

Er det korrekt forstået, at alle tre af de stærkeste AI modeller (Opus 4.6, Gemini 3.1 Pro, GPT 5.4) ville stemme på radikale venstre? Alligevel ret sigende.
Undefined6308 on 13/03/2026 19:23

LETS GO RADIKALE
KMFN on 13/03/2026 20:16

Hvilke indstillinger har du brugt? Hvilken temperatur? Hvordan lader du modellerne tænke/er de på auto?

Der er en hel masse ting man skal være opmærksom på når man tester LLM’er på den her måde. Jo mere du propper i context jo ringere bliver den til reasoning opgaver (alt performance daler generelt og det gælder også frontier modeller). LLM’er har voldsom positionsbias specielt i Likert type tests som det her jo egentlig er. Hvis du ikke kontrollerer for temperatur ville jeg sige alt andet end 10 runs, med som minimum positionskontrol ikke kan bruges til noget konkret.

Derudover har LLM’er også stor social desirability bias ligesom mennesker der tror de bliver overvåget mens de tager tests. Dvs, LLM’erne svarer i retning af hvad de tror du gerne vil høre og ikke hvad de rent faktisk selv mener. Hvis du for eksempel gerne vil kontrollere for dette skal du lave en ret kompliceret pipeline med forced-choice tests.

Desuden introducerer du også noget bias ved at forcere JSON format – jeg bruger selv JSON requirement når jeg laver tests da det ofte er umuligt at gøre det uden, men det kan fx løses med en frontier model som parser output for at fjerne den bias – naturligvis med nogle flere input tokens til API’et.

Jeg gætter på modellerne har adgang til websøgning også og det komplicerer din data meget betydeligt. Groks bias kan fx forklares med hvilke websites der er screened når den bruger web værktøjer/den har specifikke instruktioner ift. hvilken data den bør prioritere.

TL:DR

Man skal tage dataen med et traktorlæs af groft vejsalt/være klar over hvad det kræver at lave disse slags tests med LLM før man konkluderer noget. Det nævner OP også, og det er en rigtig fed hjemmeside :).
keks-dose on 13/03/2026 20:57

Kunne du også inkludere lumoAI, som er protons egen KI? De sidder i Schweiz.
crahs8 on 13/03/2026 23:16

Martin Lidegaard kommer til at have våde drømme om den her post
Ciiceeroo on 14/03/2026 00:26

Det imponerende de kan nå at være stortset 90% enig med et parti. Når jeg selv tager kandidat testen er jeg maks 65% enig haha

Devi essere connesso per inviare un commento.