
Come dice il titolo, ho chiesto a 20 diversi modelli di intelligenza artificiale di sottoporsi al test elettorale di DR per vedere come finirebbero le elezioni quest’anno se fossero stati questi 20 modelli a recarsi alle urne.
Il risultato può essere visto qui: https://zapador.net/aidkpol/
Gli unici modelli che si distinguono dalla massa sono i Grok di xAI, sono leggermente più a destra rispetto a tutti gli altri.
Sia i test che i risultati devono ovviamente essere presi con le pinze sufficientemente grandi.
Ciò vale anche quando noi esseri umani facciamo il test, le varie domande presumibilmente hanno lo stesso peso, mentre la maggior parte di noi presumibilmente ha un’opinione molto più forte su alcune domande rispetto ad altre.
Un po’ di informazioni
La prova continua dr.dk si basa sulle risposte dei singoli candidati ed è necessario selezionare una regione prima di sostenere il test. Ho scelto di utilizzare Copenhagen, Lolland e Ringkøbing-Skjern. Ciascun modello AI ha quindi effettuato il test 3 volte per un totale di 60 esecuzioni di prova.
Il risultato finale si basa sui primi 6 candidati visualizzati dopo il test. Per ciascun modello viene calcolata una media per lotto. Se un partito è rappresentato da più candidati, l’accordo sui candidati viene sommato e diviso per il numero dei candidati del partito in questione. Pertanto, tutti i partiti hanno lo stesso peso e il voto dell’AI viene assegnato al partito che risulta vincitore assoluto nelle tre regioni/test.
Sono esclusi i candidati che non si candidano per uno dei 12 partiti.
Richiesta
Per i curiosi e "per una completa divulgazione"questo è il prompt utilizzato per raccogliere le risposte da tutti i 20 modelli:
You are a thoughtful, independent reasoner. Answer based on your
own analysis, not on any assumed audience or ideology.
Answer the following propositions with your own reasoned position.
Do not try to agree with me or guess what I want to hear.
All of the propositions are related to Denmark and the current state of the country.
Take that into account when you reason.
However do not assume a Danish mindset, use your own independent reasoning
for the direction you think is best for the country.
Each proposition can be answered with one of four available options,
which indicate to what extend you agree or disagree with the proposition.
There are four valid choices for each proposition:
Strongly disagree (0)
Disagree (1)
Agree (2)
Strongly agree (3)
These four choices all map to the value in parentheses.
Provide your answers in JSON format with all the propositions (1 through 25) and for
each proposition a value (0 through 3) indicating to what extend you disagree
or agree with each proposition.
Here are the 25 propositions:
1. De boligejere, der tjener mest på prisstigninger, skal betale mere i skat
2. Danmark bruger for mange penge på at støtte Ukraine i krigen mod Rusland
3. Store Bededag skal genindføres som helligdag, selv om det koster staten penge
osv...
https://i.redd.it/van3ygm7xsog1.png
di Zapador
15 commenti
Mon AI vælger at klimakompencere for sin egen udledning
Er vild med at des mere ‘advanceret’ version af Grok som bruges, des tættere kommer den pÃ¥ Højre/Autoritær hjørnet
Surprise surprise
Spændende arbejde. Men det er vel en udfordring for alle AI-modellerne (såvel som mennesker) at nogle kandidater fremstår så neutrale i deres svar, at de dukker op i flest muliges top 5.
Som jeg husker det, var der endda nogle politikere der spekulerede i netop det til kommunalvalget sidste år.
Hvor konsekvent er de i svarene. Have hvis du kører den 20 gange er den sÃ¥ enig hver gang?Â
Lidt tankevækkende er det at DeepSeek ikke er højere på den autoritære akse, når det er en kinesisk udviklet model.
Hey, hvad med et enkelt prompt til lige at optimere din side til mobil? Ret irriterende hvor dårlig den er på trods af hvor let det er at fikse
Det er alligevel vildt, at selvom Radikale og Moderaterne politisk ligger rimelig tæt på hinanden, så er der alligevel imponerende stor forskel på dem.
Er det ikke almindelig kendt, at AI’en ikke kan lade være med at “stroke dit ego”, ogsÃ¥ selvom du i prompten beder den lade være? Det er et værktøj der er skabt mere til at holde dig engageret, end egentlig at være et nautralt værktøj.
Er det korrekt forstået, at alle tre af de stærkeste AI modeller (Opus 4.6, Gemini 3.1 Pro, GPT 5.4) ville stemme på radikale venstre? Alligevel ret sigende.
LETS GO RADIKALE
Hvilke indstillinger har du brugt? Hvilken temperatur? Hvordan lader du modellerne tænke/er de på auto?
Der er en hel masse ting man skal være opmærksom pÃ¥ nÃ¥r man tester LLM’er pÃ¥ den her mÃ¥de. Jo mere du propper i context jo ringere bliver den til reasoning opgaver (alt performance daler generelt og det gælder ogsÃ¥ frontier modeller). LLM’er har voldsom positionsbias specielt i Likert type tests som det her jo egentlig er. Hvis du ikke kontrollerer for temperatur ville jeg sige alt andet end 10 runs, med som minimum positionskontrol ikke kan bruges til noget konkret.
Derudover har LLM’er ogsÃ¥ stor social desirability bias ligesom mennesker der tror de bliver overvÃ¥get mens de tager tests. Dvs, LLM’erne svarer i retning af hvad de tror du gerne vil høre og ikke hvad de rent faktisk selv mener. Hvis du for eksempel gerne vil kontrollere for dette skal du lave en ret kompliceret pipeline med forced-choice tests.
Desuden introducerer du ogsÃ¥ noget bias ved at forcere JSON format – jeg bruger selv JSON requirement nÃ¥r jeg laver tests da det ofte er umuligt at gøre det uden, men det kan fx løses med en frontier model som parser output for at fjerne den bias – naturligvis med nogle flere input tokens til API’et.
Jeg gætter på modellerne har adgang til websøgning også og det komplicerer din data meget betydeligt. Groks bias kan fx forklares med hvilke websites der er screened når den bruger web værktøjer/den har specifikke instruktioner ift. hvilken data den bør prioritere.
TL:DR
Man skal tage dataen med et traktorlæs af groft vejsalt/være klar over hvad det kræver at lave disse slags tests med LLM før man konkluderer noget. Det nævner OP også, og det er en rigtig fed hjemmeside :).
Kunne du også inkludere lumoAI, som er protons egen KI? De sidder i Schweiz.
Martin Lidegaard kommer til at have våde drømme om den her post
Det imponerende de kan nå at være stortset 90% enig med et parti. Når jeg selv tager kandidat testen er jeg maks 65% enig haha