@informapirata @noccioletta @aitech Per addestrare ChatGPT è stato utilizzato un numero di GPU dell’ordine di 10^4 (https://towardsdatascience.com/how-25-000-computers-trained-chatgpt-11104686a24d?gi=c14a164238da#:~:text=Lambda%20Labs%20estimated%20that%20training,in%20a%20matter%20of%20days). Le GPU utilizzate sono le NVIDIA A100 dal costo di circa 10^4$ ciascuna. La dimensione del dataset per la fase di training va da 1 a 100 terabyte.
Per addestrare un algoritmo di AI generativa che possa competere con quelli creati dalle Big Tech quindi servirebbe:
✓ una spesa dell’ordine di 10^8$ (100 milioni di dollari), solo per avere la “materia prima”;
✓ un dataset omnicomprensivo di dimensioni comprese tra 1 e 100 terabyte;
✓un algoritmo con numero di parametri dell’ordine di 10^11 (GPT-3.5) o 10^12 (GPT-4).
Temo quindi che le AI generative opensource fatte in casa siano irrealizzabili. Più semplicemente si usano le API di OpenAI o simili per interfacciarle graficamente e spacciarle come innovazione.
Il fine tuning invece, cioè riadattare un modello pre-esistente per scopi diversi e specifici, è più praticabile e con costi sostenibili.