Fine-tuning (deep learning)

Il fine-tuning, in deep learning, è una pratica di transfer learning utilizzata per adattare un modello pre-addestrato (spesso tramite apprendimento autosupervisionato) a un compito specifico. Questo avviene mediante un ulteriore addestramento su un insieme di dati più piccolo e mirato. Nel contesto dell'NLP, il fine-tuning è ampiamente utilizzato per specializzare modelli linguistici pre-addestrati, come BERT o GPT, su compiti specifici quali la classificazione del testo, la traduzione automatica o la generazione controllata di testi.^[1]

Esempi di applicazione

Tra gli esempi più rilevanti di fine-tuning figurano modelli come BERT (Bidirectional Encoder Representations from Transformers), che dimostrano come un addestramento aggiuntivo possa incrementare notevolmente l'accuratezza del modello.^[2] Analogamente, modelli generativi quali GPT (Generative Pre-trained Transformer), sviluppati da OpenAI, sono frequentemente oggetto di fine-tuning per specifiche applicazioni, come assistenti virtuali e strumenti educativi.^[3] Ad esempio, il fine-tuning di GPT-3 su dataset specifici ha permesso di creare chatbot specializzati in domini come il supporto clienti o la consulenza medica.

Tecniche di fine-tuning

Il fine-tuning può essere applicato in diversi modi, a seconda delle risorse disponibili e del compito specifico. Nel full fine-tuning, tutti i parametri del modello vengono aggiornati, mentre nel partial fine-tuning solo alcuni strati vengono addestrati, lasciando gli altri congelati.^[1] Tecniche più recenti, come LoRA (Low-Rank Adaptation), permettono di aggiornare solo una piccola parte dei parametri del modello, riducendo notevolmente il costo computazionale.^[4] Altre tecniche, come il prefix-tuning e il prompt-tuning, modificano solo piccole parti dell'input o del modello, rendendo il fine-tuning più efficiente.^[5]

Durante il fine-tuning, la scelta degli iperparametri è cruciale. Un learning rate troppo alto può causare instabilità, mentre uno troppo basso può rallentare la convergenza. Tecniche come il mixed precision training e il gradient accumulation sono spesso utilizzate per ottimizzare l'uso della memoria e accelerare l'addestramento.^[6] Inoltre, il rischio di overfitting può essere mitigato tramite tecniche di regolarizzazione e early stopping.

Vantaggi e rischi

Il fine-tuning degli LLM ha reso disponibili tecnologie linguistiche avanzate anche in contesti aziendali e accademici con risorse limitate, consentendo un uso efficace e mirato dei modelli pre-addestrati.^[7] Tuttavia, è necessario prestare attenzione al rischio di overfitting, che potrebbe ridurre la capacità di generalizzazione del modello.^[8] Inoltre, il fine-tuning può portare al cosiddetto "catastrophic forgetting", dove il modello dimentica le conoscenze apprese durante il pre-training. Problemi etici, come il bias nei dati di fine-tuning, rappresentano un ulteriore rischio da considerare.

Note

^ ^a ^b Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. ACL.
^ Devlin et al., 2019.
^ Radford, A., Wu, J., Child, R., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.
^ Hu et al., 2022. LoRA: Low-Rank Adaptation of Large Language Models.
^ Li, X., & Liang, P., Prefix-Tuning: Optimizing Continuous Prompts for Generation, 2021, arXiv:2101.00190.
^ Micikevicius, P., et al. (2018). Mixed Precision Training. ICLR.
^ Bommasani, R., Hudson, D. A., Adeli, E., et al., On the Opportunities and Risks of Foundation Models, 2021, arXiv:2108.07258.
^ Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.

Collegamenti esterni

Dave Bergmann, Che cos'è la messa a punto?, su ibm.com, 15 marzo 2024.

Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica

[Howard,_J._2018-1] Howard, J., & Ruder, S. (2018). Universal Language Model Fine-tuning for Text Classification. ACL.

[Devlin-2] Devlin et al., 2019.

[3] Radford, A., Wu, J., Child, R., et al. (2019). Language Models are Unsupervised Multitask Learners. OpenAI.

[4] Hu et al., 2022. LoRA: Low-Rank Adaptation of Large Language Models.

[5] Li, X., & Liang, P., Prefix-Tuning: Optimizing Continuous Prompts for Generation, 2021, arXiv:2101.00190.

[6] Micikevicius, P., et al. (2018). Mixed Precision Training. ICLR.

[7] Bommasani, R., Hudson, D. A., Adeli, E., et al., On the Opportunities and Risks of Foundation Models, 2021, arXiv:2108.07258.

[8] Brown, T., Mann, B., Ryder, N., et al. (2020). Language Models are Few-Shot Learners. NeurIPS.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]