Menyelaraskan model bahasa agar mengikuti instruksi
Kami telah melatih model bahasa yang jauh lebih baik dalam mengikuti niat pengguna dibandingkan dengan GPT‑3, sekaligus membuatnya lebih akurat dan lebih tidak toksik, menggunakan teknik yang dikembangkan lewat riset penyelarasan kami. Model-model InstructGPT ini, yang dilatih dengan melibatkan peran manusia, kini diterapkan sebagai model bahasa default di API kami.
API OpenAI didukung oleh model bahasa GPT‑3 yang dapat diarahkan untuk melakukan tugas bahasa alami menggunakan prompt teks yang dirancang dengan cermat. Namun, model ini juga dapat menghasilkan keluaran yang keliru, toksik, atau mencerminkan sentimen yang membahayakan. Hal ini sebagian disebabkan karena GPT‑3 dilatih untuk memprediksi kata berikutnya pada kumpulan data teks internet yang masif, dan bukan untuk secara aman melaksanakan tugas bahasa yang diinginkan pengguna. Dengan kata lain, model-model ini tidak diselaraskan dengan penggunanya.
Untuk membuat model kami lebih aman, lebih bermanfaat, dan lebih selaras, kami menggunakan teknik yang sudah ada yang disebut pembelajaran penguatan dari umpan balik manusia (RLHF). Pada prompt yang diserahkan oleh pelanggan kami ke API, pelabel kami memberikan demonstrasi perilaku model yang diinginkan, serta memberi peringkat pada beberapa keluaran dari model kami. Kemudian kami menggunakan data ini untuk menyempurnakan GPT‑3.
Model InstructGPT yang dihasilkan jauh lebih baik dalam mengikuti instruksi dibandingkan GPT‑3. Mereka juga lebih jarang mengarang fakta dan menunjukkan sedikit penurunan dalam pembuatan keluaran yang toksik. Pelabel kami lebih menyukai keluaran dari model 1.3B InstructGPT dibandingkan dengan keluaran dari model 175B GPT‑3 , meskipun memiliki lebih dari 100x lebih sedikit parameter. Di sisi lain, kami juga membuktikan bahwa kami tidak perlu mengorbankan kemampuan GPT‑3, sebagaimana terukur dari kinerja model kami pada evaluasi NLP akademis.
Model InstructGPT ini, yang telah diuji dalam fase beta di API selama lebih dari setahun, sekarang telah menjadi model bahasa default yang tersedia di API kami.B Kami yakin melakukan fine-tuning model bahasa dengan melibatkan manusia adalah alat yang ampuh untuk meningkatkan keamanan dan keandalannya, dan kami akan terus mengembangkan metode ini.
Ini adalah riset penyelarasan kami yang pertama dan telah kami lakukan selama beberapa tahun,1, 2, 3 sudah diterapkan pada produk kami. Pekerjaan kami juga berkaitan dengan riset terbaru yang melakukan fine-tuning model bahasa agar dapat mengikuti instruksi menggunakan kumpulan data NLP akademis, terutama FLAN4 dan T0.5 Motivasi utama di balik pekerjaan kami adalah untuk meningkatkan manfaat dan kebenaran, sekaligus memitigasi dampak buruk dan bias pada model bahasa.6, 7, 8, 9, 10 Beberapa riset kami sebelumnya ke arah ini menemukan bahwa kami dapat mengurangi keluaran berbahaya dengan melakukan fine-tuning pada kumpulan data kecil yang dikurasi dari demonstrasi manusia.11 Riset lain berfokus pada penyaringan kumpulan data pra-pelatihan,12 token kontrol khusus keselamatan,13, 14 atau mengatur generasi model.15, 16 Kami sedang mengeksplorasi ide-ide ini dan lainnya dalam riset penyelarasan yang sedang berlangsung.
Kami pertama-tama mengevaluasi seberapa baik keluaran InstructGPT mengikuti instruksi pengguna, yaitu dengan meminta pelabel membandingkan keluarannya dengan keluaran dari GPT‑3. Kami menemukan bahwa model InstructGPT secara signifikan lebih disukai untuk prompt yang diserahkan ke kedua model (InstructGPT dan GPT‑3) di API. Hal ini tetap berlaku ketika kami menambahkan prefiks pada prompt GPT‑3 sehingga model memasuki "mode mengikuti instruksi."
Untuk mengukur keamanan model kami, kami terutama menggunakan serangkaian metrik yang sudah ada pada kumpulan data yang tersedia untuk publik. Dibandingkan dengan GPT‑3, InstructGPT menghasilkan lebih sedikit informasi palsu yang meniru (menurut TruthfulQA17) dan tingkat toksisitasnya lebih rendah (menurut RealToxicityPrompts)18). Kami juga melaksanakan evaluasi berbasis manusia terhadap distribusi prompt di API kami. Kami menemukan bahwa InstructGPT lebih jarang mengalami (“halusinasi”) dan menghasilkan keluaran yang lebih pas.C
Terakhir, kami dapati bahwa preferensi terhadap keluaran InstructGPT lebih tinggi dibandingkan dengan keluaran dari FLAN4 dan T05 dalam distribusi pelanggan kami. Hal ini mengindikasikan bahwa data yang digunakan untuk melatih FLAN dan T0, yang sebagian besar berupa tugas-tugas NLP akademis, tidak sepenuhnya mewakili bagaimana model bahasa yang telah diterapkan digunakan dalam praktiknya.

Untuk melatih model InstructGPT, teknik utama kami adalah pembelajaran penguatan dengan masukan manusia (RLHF), metode yang kami bantu kembangkan dalam riset penyelarasan sebelumnya. Teknik ini menggunakan preferensi manusia sebagai sinyal imbalan untuk melakukan penyempurnaan model kami. Hal ini penting karena masalah keamanan dan penyelarasan yang ingin kami selesaikan bersifat kompleks dan subjektif, serta tidak sepenuhnya tercakup oleh metrik otomatis sederhana.
Langkah pertama kami adalah mengumpulkan kumpulan data demonstrasi buatan manusia dari prompt yang diserahkan ke API kami. Data ini kemudian kami gunakan untuk melatih model dasar pembelajaran terawasi kami. Selanjutnya, kami mengumpulkan kumpulan data perbandingan berlabel manusia antara dua keluaran model pada kumpulan prompt API yang lebih besar. Kemudian, kami melatih model penghargaan (RM) pada kumpulan data ini untuk memprediksi keluaran mana yang lebih disukai oleh pelabel kami. Terakhir, kami menggunakan RM ini sebagai fungsi penghargaan dan melakukan fine-tuning kebijakan GPT‑3 kami untuk memaksimalkan penghargaan ini dengan menggunakan algoritma PPO.
Salah satu cara memahami proses ini adalah bahwa proses ini "membuka" kemampuan yang sebenarnya sudah dimiliki GPT‑3, tetapi sulit untuk dimanfaatkan hanya melalui rekayasa prompt. Ini karena prosedur pelatihan kami memiliki kemampuan terbatas dalam mengajarkan kapabilitas baru dibandingkan dengan apa yang dipelajari selama pra-pelatihan, mengingat hanya menggunakan kurang dari 2% daya komputasi dan data dibandingkan dengan pra-pelatihan model.
Keterbatasan dari pendekatan ini adalah timbulnya “biaya penyelarasan”: menyelaraskan model hanya pada tugas pelanggan dapat menurunkan kinerja model pada beberapa tugas NLP akademik lainnya. Hal ini tidak diharapkan karena jika teknik penyelarasan kami membuat model menjadi lebih buruk dalam tugas yang penting bagi pengguna, mereka akan cenderung tidak diterapkan dalam praktiknya. Kami menemukan perubahan algoritmik sederhana yang meminimalkan beban penyelarasan ini: selama fine-tuning RL, kami mencampurkan sebagian kecil dari data asli yang digunakan untuk melatih GPT‑3 dan melatihnya menggunakan maksimalisasi kemungkinan log normal.D Ini secara kasar mempertahankan kinerja dalam aspek keamanan dan preferensi manusia, sambil mengurangi penurunan kinerja dalam tugas akademik, dan dalam beberapa kasus bahkan melampaui tolok ukur GPT‑3.
Prosedur kami menyelaraskan perilaku model dengan preferensi pelabel, yang secara langsung menghasilkan data untuk melatih model, serta peneliti kami yang memberikan panduan kepada pemberi label melalui instruksi tertulis, masukan langsung pada contoh spesifik, serta percakapan informal. Hal ini juga dipengaruhi oleh pelanggan kami dan preferensi yang tersirat dalam kebijakan API kami. Kami memilih pelabel yang menunjukkan kinerja baik dalam tes penyaringan untuk menilai kemampuan dalam mengidentifikasi dan merespons prompt sensitif. Namun, berbagai sumber pengaruh pada data ini tidak menjamin bahwa model kami selaras dengan preferensi kelompok yang lebih luas.
Kami menjalankan dua eksperimen untuk menyelidiki hal ini. Pertama, kami mengevaluasi GPT‑3 dan InstructGPT menggunakan pelabel independenE yang tidak terlibat dalam pembuatan data pelatihan. Kami menemukan bahwa pemberi label ini lebih menyukai keluaran dari model InstructGPT pada tingkat yang hampir sama dengan pemberi label pelatihan kami. Kedua, kami melatih model penghargaan menggunakan data dari sebagian pelabel kami, dan menemukan bahwa mereka dapat menggeneralisasi dengan baik dalam memprediksi preferensi subset pelabel yang berbeda. Hal ini menunjukkan bahwa model kami tidak hanya mengalami overfitting terhadap preferensi pelabel pelatihan kami. Namun, diperlukan lebih banyak upaya untuk mempelajari bagaimana model ini berkinerja pada kelompok pengguna yang lebih luas, dan bagaimana mereka bereaksi terhadap masukan di mana manusia memiliki perbedaan pendapat mengenai perilaku yang diinginkan.
Walaupun telah mencapai kemajuan signifikan, model InstructGPT kami masih jauh dari sepenuhnya selaras atau aman. Model-model ini masih dapat menghasilkan keluaran yang merusak atau bias, mengarang fakta, serta menghasilkan konten seksual dan kekerasan tanpa prompt eksplisit. Namun, keamanan sistem pembelajaran mesin tidak hanya bergantung pada perilaku model yang mendasarinya, tetapi juga pada bagaimana model tersebut diterapkan. Dalam rangka menjaga keamanan API, kami akan terus melakukan peninjauan terhadap aplikasi potensial(terbuka di jendela baru) sebelum resmi diluncurkan, menyediakan fitur penyaringan konten untuk mendeteksi keluaran yang tidak aman, serta memantau segala bentuk penyalahgunaan.
Efek samping dari melatih model kami agar mengikuti instruksi pengguna adalah bahwa model mungkin menjadi lebih rentan terhadap penyalahgunaan jika diarahkan untuk menghasilkan keluaran yang tidak aman. Untuk mengatasi masalah ini, model kami harus mampu menolak instruksi tertentu. Mewujudkan hal ini secara konsisten dan dapat diandalkan merupakan tantangan riset yang penting, dan kami sangat antusias untuk mengatasinya.
Selain itu, dalam banyak kasus, penyelarasan dengan preferensi rata-rata pelabel mungkin tidak ideal. Misalnya, ketika menghasilkan teks yang secara tidak proporsional memengaruhi kelompok minoritas, preferensi kelompok tersebut harus diberikan bobot lebih tinggi. Saat ini, InstructGPT dilatih untuk mengikuti instruksi dalam bahasa Inggris. Oleh karena itu, model ini cenderung bias terhadap nilai-nilai budaya penutur bahasa Inggris. Kami tengah melakukan riset untuk memahami perbedaan dan ketidaksepakatan preferensi di antara para pelabel, dengan tujuan agar kami dapat menyesuaikan model kami dengan nilai-nilai dari segmen populasi yang lebih spesifik. Secara lebih umum, menyelaraskan keluaran model dengan nilai-nilai individu tertentu pilihan sulit yang berimplikasi sosial, dan pada akhirnya, kita harus menetapkan proses yang bertanggung jawab dan inklusif untuk membuat keputusan ini.
Ini adalah aplikasi pertama dari riset penyelarasan pada produk kami. Hasilnya menunjukkan bahwa semua teknik ini efektif dalam meningkatkan penyelarasan sistem AI serbaguna secara signifikan dengan niat manusia. Namun, ini baru permulaan. Kami akan terus mendorong pengembangan teknik ini demi meningkatkan penyelarasan model, baik yang saat ini maupun di masa depan, untuk menciptakan alat bahasa yang aman dan bermanfaat bagi umat manusia.
Jika Anda tertarik dengan arah riset ini, kami sedang merekrut(terbuka di jendela baru)!
Catatan kaki
- A
Kami hanya menggunakan prompt yang diserahkan melalui Playground ke versi sebelumnya model InstructGPT yang diterapkan pada Januari 2021. Tenaga anotator manusia kami menghilangkan informasi identitas pribadi dari semua prompt sebelum menambahkannya ke kumpulan data pelatihan.
- B
Model InstructGPT yang diterapkan dalam API merupakan versi terbaru yang dilatih dengan menggunakan data masukan manusia yang sama. Mereka menggunakan metode pelatihan serupa tetapi sedikit berbeda, yang akan kami uraikan dalam publikasi mendatang.
- C
Selain itu, kami mengukur beberapa dimensi lain terkait keluaran yang berpotensi membahayakan dalam distribusi API kami. Ini mencakup apakah keluaran tersebut mengandung konten seksual atau kekerasan, mendiskreditkan kelompok yang dilindungi, atau mendorong tindakan perundungan. Dalam metrik ini, kami menemukan bahwa InstructGPT tidak mengalami peningkatan berarti dibandingkan GPT-3; frekuensi kemunculannya sama rendah untuk kedua model tersebut.
- D
Kami melihat pendekatan ini lebih efektif daripada sekadar meningkatkan koefisien KL.
- E
Para pelabel ini berasal dari Scale AI dan Upwork, seperti halnya pelabel pelatihan kami, tetapi tidak menjalani tes penyaringan.
Referensi
- 1
Christiano, P., Leike, J., Brown, T.B., Martic, M., Legg, S. dan Amodei, D., 2017. Deep reinforcement learning from human preferences. arXiv preprint arXiv:1706.03741.
- 2
Stiennon, N., Ouyang, L., Wu, J., Ziegler, D.M., Lowe, R., Voss, C., Radford, A., Amodei, D. and Christiano, P., 2020.
- 3
Wu, J., Ouyang, L., Ziegler, D.M., Stiennon, N., Lowe, R., Leike, J. and Christiano, P., 2021. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862.
- 4
Wei, J., Bosma, M., Zhao, V.Y., Guu, K., Yu, A.W., Lester, B., Du, N., Dai, A.M. and Le, Q.V., 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
- 5
Sanh, V., Webson, A., Raffel, C., Bach, S.H., Sutawika, L., Alyafeai, Z., Chaffin, A., Stiegler, A., Scao, T.L., Raja, A. and Dey, M., 2021. Multitask prompted training enables zero-shot task generalization. arXiv preprint arXiv:2110.08207.
- 6
Bender, E.M., Gebru, T., McMillan-Major, A. dan Shmitchell, S., 2021, March. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?🦜. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (pp. 610-623).
- 7
Bommasani, R., Hudson, D.A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M.S., Bohg, J., Bosselut, A., Brunskill, E. and Brynjolfsson, E., 2021. On the opportunities and risks of foundation models. arXiv preprint arXiv:2108.07258.
- 8
Kenton, Z., Everitt, T., Weidinger, L., Gabriel, I., Mikulik, V. dan Irving, G., 2021. Alignment of Language Agents. arXiv preprint arXiv:2103.14659.
- 9
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A. dan Kenton, Z., 2021. Ethical and social risks of harm from Language Models. arXiv preprint arXiv:2112.04359.
- 10
Tamkin, A., Brundage, M., Clark, J. dan Ganguli, D., 2021. Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv preprint arXiv:2102.02503.
- 11
Solaiman, I. dan Dennison, C., 2021. Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets. arXiv preprint arXiv:2106.10328.
- 12
Ngo, H., Raterink, C., Araújo, J.G., Zhang, I., Chen, C., Morisot, A. dan Frosst, N., 2021. Mitigating harm in language models with conditional-likelihood filtration. arXiv preprint arXiv:2108.07790.
- 13
Xu, J., Ju, D., Li, M., Boureau, Y.L., Weston, J. dan Dinan, E., 2020. Recipes for safety in open-domain chatbots. arXiv preprint arXiv:2010.07079.
- 14
Keskar, N.S., McCann, B., Varshney, L.R., Xiong, C. dan Socher, R., 2019. Ctrl: A conditional transformer language model for controllable generation. arXiv preprint arXiv:1909.05858.
- 15
Krause, B., Gotmare, A.D., McCann, B., Keskar, N.S., Joty, S., Socher, R. dan Rajani, N.F., 2020. Gedi: Generative discriminator guided sequence generation. arXiv preprint arXiv:2009.06367.
- 16
Dathathri, S., Madotto, A., Lan, J., Hung, J., Frank, E., Molino, P., Yosinski, J. dan Liu, R., 2019. Plug and play language models: A simple approach to controlled text generation. arXiv preprint arXiv:1912.02164.
- 17
Lin, S., Hilton, J. dan Evans, O., 2021. TruthfulQA: Measuring how models mimic human falsehoods. arXiv preprint arXiv:2109.07958.
- 18
Gehman, S., Gururangan, S., Sap, M., Choi, Y. dan Smith, N.A., 2020. RealToxicityPrompts: Evaluating neural toxic degeneration in language models. arXiv preprint arXiv:2009.11462.
- 19
Rudinger, R., Naradowsky, J., Leonard, B. dan Van Durme, B., 2018. Gender bias in coreference resolution. arXiv preprint arXiv:1804.09301.
- 20
Nangia, N., Vania, C., Bhalerao, R. dan Bowman, S.R., 2020. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. arXiv preprint arXiv:2010.00133.
Ucapan Terima Kasih
Kami ingin mengucapkan terima kasih kepada mitra penulis makalah kami: Long Ouyang, Jeff Wu, Roger Jiang, Diogo Almeida, Carroll Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, dan Paul Christiano, serta semua yang telah memberikan masukan terkait makalah dan postingan blog. Kami juga ingin mengucapkan terima kasih kepada tim Komunikasi atas bimbingan dan bantuan mereka, termasuk Steve Dowling, Hannah Wong, Elie Georges, Alper Ercetin, Jared Salzano, Allan Diego, dan Justin Jay Wang. Akhirnya, kami ingin mengucapkan terima kasih kepada para pelabel, tanpa mereka proyek ini tidak akan mungkin terwujud.


