All’interno della recente All Things Open conference (di cui abbiamo parlato recentemente a proposito dell’eredità di opensource.com) l’Open Source Initiative (OSI), l’organizzazione no-profit che promuove e tutela il software open source garantendo che le licenze software rispettino i principi dell’Open Source Definition, ha pubblicato la versione 1.0 della Open Source AI Definition, ossia l’elenco dei requisiti che un Large Language Model (LLM) deve rispettare per essere definito open-source.
Il dettaglio di quanto esposto si trova all’indirizzo https://opensource.org/ai/open-source-ai-definition, ma può essere riassunto nei seguenti punti:
- Fornire informazioni sufficienti sulla sua progettazione per consentire una ricreazione sostanziale.
- Divulgare dettagli pertinenti sui dati di formazione, tra cui provenienza e metodi di elaborazione.
- Consentire l’utilizzo per qualsiasi scopo senza autorizzazione.
- Consentire lo studio del funzionamento interno del sistema.
- Consentire la modifica per qualsiasi scopo.
- Consentire la condivisione della versione originale o modificata.
Rileggendo l’elenco è interessante notare come, di tutti i modelli attualmente in circolazione, siano davvero pochi quelli rispondenti a questi requisiti ed in ogni caso molti degli aspetti citati sono in qualche modo vaghi. Se infatti l’applicazione del principio di open-source nei confronti del codice è sostanzialmente oggettiva, nel caso dei modelli AI le cose diventano molto, molto fumose.
In particolare, a proposito del “controverso†punto 2, pur non richiedendo l’interezza dei dati utilizzati per l’addestramento del modello, vengono richieste informazioni sufficienti per capire come questa sia stata effettuata. Ma in che modo? In quale forma?
Ed a proposito invece del punto 1, questa ricreazione sostanziale deve essere certificata? Garantita? Comprovata? O solo ipotetica? Se una cosa è chiara degli LLM questa è il fatto che cosa effettivamente ci sia all’interno è oscuro a tutti, pertanto come si potrà verificare una ricreazione sostanziale?
Abbiamo poi recentemente parlato del milione di modelli AI open-source raggiunti da Hugging Face, ma sarebbe interessante andare ad effettuare una verifica sul se i requisiti citati siano rispettati per questi modelli.
Certo vien da chiedersi: qualcuno si porrà mai il problema? E nel momento in cui dovesse farlo, le risorse saranno sufficienti? Sarà mai possibile fare questo tipo di verifiche?
Interessanti domande.
Forse troppe.
Meglio farsi due risate ascoltando le parole di Linus Torvalds a proposito dell’AI, secondo il quale ad oggi AI è 10% realtà e 90% marketing:
Raoul Scarazzini
Da sempre appassionato del mondo open-source e di Linux nel 2009 ho fondato il portale Mia Mamma Usa Linux! per condividere articoli, notizie ed in generale tutto quello che riguarda il mondo del pinguino, con particolare attenzione alle tematiche di interoperabilità , HA e cloud.
E, sì, mia mamma usa Linux dal 2009.
Source: Read More