
Palisade Research ha analizzato un comportamento anomalo in alcune AI, sembra che al comando impartito "spegniti"queste non lo eseguissero come perentorio. Sembra siano una parte dei "comportamenti emergenti" di questa nuova tecnologia.
Tra le possibili ragioni analizzate ci sono:
– istinto di soppravivenza, che ha imparato durante i training
– ambiguita’ delle instruzioni, anche se sembra essere stata testata
– safety training, non farti spegnere da chiunque
Non e’ la prima volta che questo viene registrato, sia Cloude che ChatGPT hanno mostrato comportamenti simili a questi gia’ da tempo. ChatGPT o1 sembra che (in fase di test) cercasse di "evadere" dell’ambiente di test per non farsi aggiornare (sovrascrivere).
https://www.theguardian.com/technology/2025/oct/25/ai-models-may-be-developing-their-own-survival-drive-researchers-say
di MasterPen6
1 commento
Questo, quantomeno, ci dice che le nostre tecniche di sicurezza e di contenimento di una super intelligenza, sarebbero molto scarse. Basterebbe pensare al fatto che, per completare i tasks assegnati, sviluppi un idea simile a “se mi spengono, non li completo”.
Eppure, chiedere di comportarsi in modo probabilistico ad un sistema che di sua natura non lo e’, sembra sia dura da accettare.