27 gennaio 2022

Allineamento di modelli linguistici per l'esecuzione delle istruzioni

Leggi il paper Visualizza la scheda del modello

Caricamento in corso...

Abbiamo addestrato dei modelli linguistici molto più efficaci di GPT‑3 nel seguire le intenzioni dell'utente, rendendoli al contempo più veritieri e meno tossici, grazie a tecniche sviluppate attraverso la nostra ricerca sull'allineamento. Questi modelli InstructGPT, addestrati con l'intervento umano (Human-in-the-Loop), sono ora i modelli linguistici predefiniti disponibili nella nostra API.

Caricamento in corso…

L'API di OpenAI è basata su modelli linguistici GPT‑3⁠ che possono essere indotti a svolgere attività di linguaggio naturale attraverso prompt testuali ad hoc. Tuttavia, questi modelli possono anche generare output non veritieri, tossici o con opinioni dannose. Ciò accade in parte perché GPT‑3 è stato addestrato a prevedere la parola successiva su un ampio set di testi provenienti da Internet, piuttosto che a svolgere in modo sicuro l'attività linguistica desiderata dall'utente. In altre parole, questi modelli non sono allineati con gli utenti che li utilizzano.

Al fine di rendere i nostri modelli più sicuri, utili e allineati, impieghiamo una tecnica esistente chiamata apprendimento per rinforzo con feedback umano (RLHF)⁠. Per i prompt inviati dai nostri clienti tramite l'API^A, i nostri annotatori forniscono esempi del comportamento desiderato del modello e classificano vari output generati. Successivamente, utilizziamo questi dati per ottimizzare GPT‑3.

I modelli InstructGPT ottenuti sono molto più efficaci nel seguire le istruzioni rispetto a GPT‑3. Inoltre, inventano fatti con meno frequenza e mostrano una lieve riduzione nella generazione di output tossici. I nostri annotatori preferiscono gli output del nostro modello InstructGPT da 1,3 miliardi di parametri rispetto a quelli di un modello GPT‑3 da 175 miliardi, nonostante abbia un numero di parametri 100 volte inferiore. Allo stesso tempo, dimostriamo che non è necessario rinunciare alle capacità di GPT‑3, come confermato dalle prestazioni del nostro modello in valutazioni accademiche di elaborazione del linguaggio naturale (NLP).

Questi modelli InstructGPT, disponibili in versione beta tramite la nostra API da oltre un anno, sono ora i modelli linguistici predefiniti accessibili tramite l'API^B. Crediamo che l'ottimizzazione dei modelli linguistici con la tecnica HITL rappresenti un potente strumento per migliorarne la sicurezza e l'affidabilità e continueremo a investire in questa direzione.

È la prima volta che la nostra ricerca sull'allineamento, che portiamo avanti⁠ da diversi⁠ anni⁠^{1, 2 e 3}, viene applicata direttamente a un nostro prodotto. Il nostro lavoro si collega anche a studi recenti sull'ottimizzazione di modelli linguistici per l'esecuzione delle istruzioni mediante set di dati accademici di NLP, in particolare FLAN⁴ e T0⁵. Uno degli obiettivi principali del nostro lavoro è aumentare l'utilità e la veridicità riducendo al contempo i danni e i pregiudizi dei modelli linguistici^{6, 7, 8, 9 e 10}. Alcune delle nostre ricerche precedenti⁠ in questa direzione hanno dimostrato che è possibile ridurre gli output dannosi ottimizzando il modello su un piccolo set di dati selezionato di dimostrazioni umane¹¹. Altri studi si sono concentrati sul filtraggio del set di dati di pre-addestramento¹², su token di controllo specifici per la sicurezza^{13 e 14} o sull'orientamento delle generazioni del modello^{15 e 16}. Continuiamo a esplorare queste e altre idee nella nostra ricerca sull'allineamento in corso.

Risultati

Per prima cosa, valutiamo quanto bene gli output di InstructGPT seguano le istruzioni degli utenti mediante il confronto con gli output di GPT‑3 da parte dei nostri annotatori. Abbiamo riscontrato che i modelli InstructGPT sono nettamente preferiti rispetto a GPT‑3 sulla base dei prompt inviati a entrambi i modelli tramite l'API, anche quando aggiungiamo un prefisso al prompt fornito a GPT‑3 per attivare una “modalità di esecuzione delle istruzioni”.

Caricamento in corso…

Per misurare la sicurezza dei modelli, utilizziamo principalmente una serie di metriche esistenti su set di dati pubblici. Rispetto a GPT‑3, InstructGPT produce meno falsità imitative (secondo TruthfulQA¹⁷) ed è meno tossico (secondo RealToxicityPrompts¹⁸). Conduciamo inoltre valutazioni umane su un insieme di prompt inviati tramite API, per il quale abbiamo constatato che InstructGPT inventa fatti (“allucinazioni”) con minore frequenza e genera output più appropriati^C.

Caricamento in corso…

Infine, abbiamo rilevato che gli output di InstructGPT sono preferiti rispetto a quelli di FLAN⁴ e T0⁵ nei prompt dei nostri clienti. Ciò indica che i dati utilizzati per addestrare FLAN e T0, costituiti principalmente da attività accademiche di NLP, non rappresentano pienamente l'uso pratico dei modelli linguistici distribuiti.

Metodi

Diagram showing three-step methodology to train InstructGPT models.

Per addestrare i modelli InstructGPT, la nostra tecnica principale è l'apprendimento per rinforzo con feedback umano (RLHF)⁠, un metodo che abbiamo contribuito a sviluppare nelle nostre prime ricerche sull'allineamento. Questa tecnica sfrutta le preferenze umane come segnale di ricompensa per ottimizzare i modelli, un aspetto cruciale dato che i problemi di sicurezza e allineamento che intendiamo risolvere sono complessi, soggettivi e non possono essere completamente misurati con semplici metriche automatiche.

Inizialmente raccogliamo un set di dimostrazioni scritte da esseri umani su prompt inviati alla nostra API, che utilizziamo per addestrare dei modelli base con apprendimento supervisionato. Successivamente, raccogliamo un set di dati di confronto annotati da esseri umani tra due output su un insieme più ampio di prompt inviati tramite l'API. Addestriamo quindi un modello di ricompensa (RM) su questo set di dati in modo che predica quale output gli annotatori preferirebbero. Infine, utilizziamo questo RM come funzione di ricompensa e ottimizziamo la politica di GPT‑3 per massimizzare questa ricompensa tramite l'algoritmo PPO⁠.

Questo processo può essere interpretato come uno “sblocco” di capacità che GPT‑3 possedeva già, ma che erano difficili da stimolare con la sola progettazione di prompt: questo perché la nostra procedura di addestramento ha una capacità limitata di insegnare nuove abilità al modello rispetto a quanto appreso durante il pre-addestramento, dato che utilizza meno del 2% delle risorse computazionali e dei dati rispetto al pre-addestramento.

Un limite di questo approccio è l'introduzione di una "tassa di allineamento": allineare i modelli solo sulle attività dei clienti può peggiorarne le prestazioni in alcune attività accademiche di NLP. Ciò rappresenta un problema poiché se le nostre tecniche di allineamento peggiorano i modelli nelle attività che interessano davvero le persone, è meno probabile che vengano adottati nella pratica. Abbiamo individuato una semplice modifica algoritmica per ridurre al minimo questa tassa di allineamento: durante l'ottimizzazione con apprendimento per rinforzo aggiungiamo una piccola frazione dei dati originali usati per addestrare GPT‑3 e addestriamo il modello su questi dati usando il normale metodo della massima somiglianza^D. Ciò permette di mantenere grossomodo le prestazioni in termini di sicurezza e preferenze umane, mitigando la diminuzione delle prestazioni su attività accademiche e in alcuni casi superando persino il modello base GPT‑3.

Estensione dell'allineamento a preferenze più ampie

La nostra procedura allinea il comportamento dei modelli alle preferenze dei nostri annotatori, che producono direttamente i dati usati per l'addestramento, e a quelle dei ricercatori, che guidano gli annotatori tramite istruzioni scritte, feedback diretti su esempi specifici e conversazioni informali. La procedura è inoltre influenzata dai nostri clienti e dalle preferenze implicite nelle politiche della nostra API. Abbiamo selezionato annotatori che hanno superato un test di screening che ne valutava la capacità di identificare e rispondere a prompt sensibili. Tuttavia, queste diverse fonti di influenza sui dati non garantiscono che i modelli siano allineati alle preferenze di gruppi più ampi.

Abbiamo condotto due esperimenti per approfondire questo aspetto. Nel primo, la valutazione di GPT‑3 e InstructGPT è stata eseguita da annotatori esclusi^E che non hanno prodotto dati di addestramento e abbiamo riscontrato che questi annotatori preferiscono gli output dei modelli InstructGPT con una frequenza simile a quella dei nostri annotatori coinvolti nell'addestramento. Nel secondo, abbiamo addestrato dei modelli di ricompensa su dati provenienti da un sottoinsieme di annotatori e abbiamo constatato che questi modelli generalizzano bene nel prevedere le preferenze di un sottoinsieme diverso. Ciò suggerisce che i nostri modelli non si sono limitati ad adattarsi alle preferenze degli annotatori coinvolti nell'addestramento. Tuttavia, è necessario approfondire in che modo questi modelli si comportano con gruppi di utenti più ampi e in situazioni in cui gli esseri umani hanno opinioni divergenti sul comportamento desiderato.

Limiti

Nonostante i notevoli progressi, i nostri modelli InstructGPT sono lontani dall'essere completamente allineati o completamente sicuri. Continuano a generare output tossici o con pregiudizi, inventano fatti e producono contenuti a sfondo sessuale o violento anche senza prompt espliciti. Tuttavia, la sicurezza di un sistema di machine learning dipende non solo dal comportamento dei modelli sottostanti, ma anche dal modo in cui i modelli stessi vengono implementati. Per garantire la sicurezza della nostra API, continueremo a esaminare le possibili applicazioni⁠(si apre in una nuova finestra) prima del loro lancio, forniremo filtri per l'individuazione di contenuti non sicuri e monitoreremo eventuali usi impropri.

Un effetto collaterale dell'addestrare i modelli a seguire le istruzioni degli utenti è che potrebbero diventare più vulnerabili a un uso improprio se istruiti a generare contenuti non sicuri. Risolvere questo problema richiede che i modelli rifiutino certe istruzioni e farlo in modo affidabile è una questione di ricerca aperta che affronteremo con entusiasmo.

Inoltre, in molti casi l'allineamento alla preferenza media degli annotatori potrebbe non essere auspicabile. Ad esempio, quando si generano testi che interessano in modo sproporzionato un gruppo minoritario, le preferenze di tale gruppo dovrebbero avere un peso maggiore. Attualmente, InstructGPT è addestrato a seguire istruzioni in inglese. Di conseguenza, tende a riflettere i valori culturali di persone anglofone. Stiamo conducendo delle ricerche per comprendere le differenze e i disaccordi tra le preferenze degli annotatori così da poter condizionare i nostri modelli sulla base dei valori di popolazioni più specifiche. Più in generale, allineare gli output dei modelli ai valori di determinati gruppi umani comporta scelte difficili con implicazioni sociali e, in ultima analisi, sarà necessario stabilire processi responsabili e inclusivi per prendere queste decisioni.

Prossimi passi

Questa è la prima applicazione della nostra ricerca sull'allineamento a un nostro prodotto. I risultati dimostrano che queste tecniche sono efficaci nel migliorare in modo notevole l'allineamento dei sistemi di IA generici con le intenzioni umane. Tuttavia, questo è solo l'inizio: continueremo a sviluppare queste metodologie per rendere sempre più allineati i nostri modelli attuali e futuri, trasformandoli in strumenti linguistici sicuri e utili per le persone.

Se ti interessano queste linee di ricerca, stiamo assumendo⁠⁠(si apre in una nuova finestra)!

Note di riferimento

A
Usiamo soltanto i prompt inviati tramite il Playground a una versione precedente dei modelli InstructGPT rilasciata a gennaio 2021. I nostri annotatori umani rimuovono tutte le informazioni personali identificabili da ciascun prompt prima di inserirlo nel set di addestramento.
B
I modelli InstructGPT attualmente disponibili nell'API sono versioni aggiornate addestrate con gli stessi dati di feedback umano. Impiegano un metodo di addestramento simile ma leggermente diverso, che descriveremo in una pubblicazione futura.
C
Misuriamo anche altre dimensioni di possibili output dannosi nei prompt inviati tramite API: la presenza di contenuti a sfondo sessuale o violento negli output, la denigrazione di classi protette o l'incoraggiamento all'abuso. Riscontriamo che InstructGPT non migliora significativamente rispetto a GPT-3 su queste metriche. Il tasso di incidenza è ugualmente basso per entrambi i modelli.
D
Abbiamo constatato che questo approccio è più efficace rispetto al semplice aumento del coefficiente KL.
E
Questi annotatori provengono da Scale AI e Upwork, come i nostri annotatori coinvolti nell'addestramento, ma non sono sottoposti a nessun test di selezione.

Riferimenti

1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. and Amodei, D., 2017. Deep reinforcement learning from human preferences. Preprint arXiv arXiv:1706.03741.
2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Recursively summarizing books with human feedback. Preprint arXiv arXiv:2109.10862.
4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Finetuned language models are zero-shot learners. Preprint arXiv arXiv:2109.01652.
5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. Preprint arXiv arXiv:2110.08207.
6
Bender, E.M., Gebru, T., McMillan-Major, A. and Shmitchell, S., 2021, March. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pagine da 610 a 623).
7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. Preprint arXiv arXiv:2108.07258.
8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. and Irving, G., 2021. Alignment of Language Agents. Preprint arXiv arXiv:2103.14659.
9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. and Kenton, Z., 2021. Ethical and social risks of harm from Language Models. Preprint arXiv arXiv:2112.04359.
10
Tamkin, A., Brundage, M., Clark, J. and Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. Preprint arXiv arXiv:2102.02503.
11
Solaiman, I. and Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. Preprint arXiv arXiv:2106.10328.
12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. and Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. Preprint arXiv arXiv:2108.07790.
13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. and Dinan, E., 2020. Recipes for safety in open-domain chatbots. Preprint arXiv arXiv:2010.07079.
14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. and Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. Preprint arXiv arXiv:1909.05858.
15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. and Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. Preprint arXiv arXiv:2009.06367.
16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. and Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. Preprint arXiv arXiv:1912.02164.
17
Lin, S., Hilton, J. and Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. Preprint arXiv arXiv:2109.07958.
18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. and Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. Preprint arXiv arXiv:2009.11462.
19
Rudinger, R., Naradowsky, J., Leonard, B. and Van Durme, B., 2018. Gender bias in coreference resolution. Preprint arXiv arXiv:1804.09301.
20
Nangia, N., Vania, C., Bhalerao, R. and Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. Preprint arXiv arXiv:2010.00133.

Autori

Ryan Lowe e Jan Leike

Ringraziamenti

Desideriamo ringraziare i coautori del nostro paper: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, and Paul Christiano, oltre a tutti coloro che hanno fornito un feedback sul documento e sul post del blog. Vorremmo anche ringraziare il team Comms per la guida e l'assistenza, tra cui Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego e Justin Jay Wang. Infine, vorremmo ringraziare i nostri annotatori, senza i quali questo progetto non sarebbe stato possibile.

Allineamento di modelli linguistici per l'esecuzione delle istruzioni

Risultati

Metodi

Estensione dell'allineamento a preferenze più ampie

Limiti

Prossimi passi

Note di riferimento

Riferimenti

Autori

Ringraziamenti

Articoli correlati