
Ciao a tutti,
Questo dovrebbe essere un annuncio ancora più grande. Volevo condividere un progetto su cui ho lavorato quest’estate con due stagisti. Abbiamo affrontato un problema che i giganti della tecnologia come Google, OpenAI (Whisper) e Meta hanno effettivamente ignorato.
🚫 Il Problema
A Cipro, come sapete, la lingua ufficiale è il greco standard, ma nella vita quotidiana la maggior parte delle persone lo parla Dialetto cipriota.
Se provi a utilizzare app di sintesi vocale AI o assistenti vocali AI qui, falliscono duramente. I grandi modelli trattano il dialetto come "rumore" O "cattivo greco." Persino l’enorme modello da 1.600 lingue di Meta non lo supporta.
💡 Il piano contro la realtà
Abbiamo pensato che questo sarebbe stato un lavoro di messa a punto standard:
- Prendi un greco
wav2vecmodello. - Scarica un set di dati.
- Brucia alcuni crediti GPU.
- Profitto.
Il controllo della realtà: C’erano NO set di dati. I dati di ricerca esistenti sono andati persi, danneggiati o bloccati dietro un paywall di 35.000 euro.
🛠 La soluzione (nel modo più difficile)
Poiché dati = AI, abbiamo dovuto costruire l’intera pipeline da zero. Ecco cosa abbiamo fatto:
- Ottenere dati: Abbiamo scaricato ore di TV, radio e podcast ciprioti.
- Crowdsourcing: Abbiamo costruito una piattaforma (
voiceofcyprus.org) per raccogliere traduzioni reali dalla gente del posto. - Dati disordinati: Abbiamo utilizzato ogni trucco della PNL per insegnare il contesto del modello utilizzando dati audio molto imperfetti.
Abbiamo reso tutto open source:
https://huggingface.co/datasets/Elormiden/RIK_Cypriot_Collection_Dataset
https://huggingface.co/datasets/Elormiden/RIK_Cypriot_News_Dataset
🚀 Il risultato
In sole 6 settimane e con solo $ 150 in crediti GPUabbiamo addestrato un piccolo modello che capisce davvero il dialetto cipriota!
https://huggingface.co/Elormiden/bert-base-cypriot-greek
Non è ancora perfetto per la produzione, ma è la prima pipeline funzionante. Abbiamo dimostrato che il compito è risolvibile senza il budget di una Big Tech. Ciò fornisce una base ai ricercatori e agli sviluppatori locali per costruire finalmente un’intelligenza artificiale vocale per l’isola in grado di comprendere la popolazione locale.
Il cibo da asporto: Puoi avere la migliore architettura del mondo, ma No Data = No AI
Scopri la ripartizione completa del progetto qui: https://youtu.be/zN_FMIWRSLA
E per chi parla greco, ecco una versione della spiegazione tradotta dall’intelligenza artificiale: https://youtu.be/hcoXFNVP6L4
https://i.redd.it/ewoikegz3e2g1.png
di AkimovIgor