Prompt engineering
Prompt engineering (în română ingineria prompturilor) este procesul de concepere și formulare a instrucțiunilor adresate unui model de inteligență artificială generativă pentru a obține rezultate mai bune și mai relevante.[1]
Un prompt este un text în limbaj natural care descrie sarcina pe care un sistem de inteligență artificială trebuie să o îndeplinească.[2] În cazul unui model lingvistic text-la-text, un prompt poate fi o întrebare, o comandă sau o instrucțiune mai complexă care include context, cerințe și istoricul conversației. Ingineria prompturilor poate implica formularea clară a cerinței, specificarea stilului dorit, alegerea vocabularului și a structurii gramaticale,[3] furnizarea de context relevant sau definirea unui rol ori a unei perspective pe care modelul să o adopte.[1]
Atunci când se utilizează modele text-imagine sau text-audio, un prompt tipic constă într-o descriere a rezultatului dorit, de exemplu „o fotografie de înaltă calitate a unui astronaut călare pe un cal”[4] sau „lo-fi electro chill cu BPM lent și mostre organice”.[5] Formularea promptului pentru modelele text-imagine poate implica adăugarea, eliminarea sau accentuarea anumitor termeni pentru a controla subiectul, stilul vizual, compoziția, iluminarea și estetica rezultatului.[6]
Istorie
[modificare | modificare sursă]În 2018, cercetătorii au propus ca sarcinile anterior distincte din procesarea limbajului natural (NLP) să poată fi formulate într-un cadru unificat de tip întrebare–răspuns, în context. De asemenea, a fost antrenat un model unic, multi-sarcină, capabil să răspundă la diferite tipuri de cerințe, precum „Care este sentimentul?”, „Traduceți această propoziție în germană” sau „Cine este președintele?”.[7]
Un depozit de prompturi a raportat că, în februarie 2022, erau disponibile peste 2.000 de prompturi publice pentru aproximativ 170 de seturi de date.[8] În 2022, cercetători de la Google au propus tehnica de promptare chain-of-thought (lanț de gânduri).[9][10] În 2023, au devenit publice mai multe baze de date de prompturi text-text și text-imagine.[11][12] În 2024 a fost publicat și setul de date imagine–prompt Personalizated Image-Prompt (PIP), etichetat de mii de utilizatori.[13]
Text-la-text
[modificare | modificare sursă]Au fost propuse mai multe tehnici distincte de inginerie a prompturilor.
Chain-of-thought
[modificare | modificare sursă]Conform Google Research, promptarea de tip chain-of-thought (lanț de gânduri) este o tehnică prin care modelele lingvistice mari (LLM) sunt încurajate să rezolve o problemă prin pași intermediari de raționament înainte de a furniza răspunsul final. În 2022, Google Brain a arătat că această tehnică îmbunătățește capacitatea de raționament, determinând modelul să explice soluția pas cu pas.[9][14]
Tehnicile de tip chain-of-thought au fost dezvoltate pentru a ajuta modelele să gestioneze sarcini de raționament în mai mulți pași, precum probleme de aritmetică sau raționament de bun-simț.[15][16]
Inițial, fiecare prompt CoT era însoțit de exemple de intrare și ieșire (exemplare) care demonstrau comportamentul dorit al modelului, ceea ce o încadrează în categoria promptării cu puține exemple (few-shot). Ulterior, cercetări au arătat că simpla adăugare a instrucțiunii „Să gândim pas cu pas” poate produce efecte similare, permițând utilizarea tehnicii și în regim zero-shot.
Învățare în context
[modificare | modificare sursă]Învățarea în context se referă la capacitatea unui model de a utiliza informațiile furnizate direct în prompt pentru a rezolva o sarcină. De exemplu, un prompt poate include câteva perechi de exemple, precum „maison → house, chat → cat, chien →”, din care modelul deduce răspunsul corect (dog), o abordare cunoscută drept învățare cu puține exemple (few-shot learning).
Învățarea în context este considerată o abilitate emergentă a modelelor lingvistice mari. Spre deosebire de ajustarea fină (fine-tuning), care produce modificări permanente ale modelului, învățarea în context este temporară și dependentă de prompt. Antrenarea modelelor pentru a excela în învățarea în context poate fi interpretată ca o formă de meta-învățare („a învăța să înveți”).
Note
[modificare | modificare sursă]- 1 2 Genkina, Dina (). „AI Prompt Engineering is Dead: Long live AI prompt engineering”. IEEE Spectrum(d). Accesat în .
- ↑ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilya (). „Language Models are Unsupervised Multitask Learners” (PDF). OpenAI.
- ↑ Wahle, Jan Philip; Ruas, Terry; Xu, Yang; Gipp, Bela (). „Paraphrase Types Elicit Prompt Engineering Capabilities”. În Al-Onaizan, Yaser; Bansal, Mohit; Chen, Yun-Nung. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing. Miami, Florida, USA: Association for Computational Linguistics. pp. 11004–11033. doi:10.18653/v1/2024.emnlp-main.617.
- ↑ Heaven, Will Douglas (). „This horse-riding astronaut is a milestone on AI's long road towards understanding”. MIT Technology Review. Accesat în .
- ↑ Wiggers, Kyle (). „Meta open sources an AI-powered music generator”. TechCrunch. Accesat în .
- ↑ Mittal, Aayush (). „Mastering AI Art: A Concise Guide to Midjourney and Prompt Engineering”. Unite.AI (în engleză). Accesat în .
- ↑ McCann, Bryan; Keskar, Nitish; Xiong, Caiming; Socher, Richard (). The Natural Language Decathlon: Multitask Learning as Question Answering. ICLR.
- ↑ PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts. Association for Computational Linguistics. .
- 1 2 Wei, Jason; Wang, Xuezhi; Schuurmans, Dale; Bosma, Maarten; Ichter, Brian; Xia, Fei; Chi, Ed H.; Le, Quoc V.; Zhou, Denny (). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems (NeurIPS 2022) (în engleză). 35.
- ↑ Brubaker, Ben (). „How Chain-of-Thought Reasoning Helps Neural Networks Compute”. Quanta Magazine (în engleză). Accesat în .
- ↑ Chen, Brian X. (). „How to Turn Your Chatbot Into a Life Coach”. The New York Times.
- ↑ Chen, Brian X. (). „Get the Best From ChatGPT With These Golden Prompts”. The New York Times. Accesat în .
- ↑ Chen, Zijie; Zhang, Lichao; Weng, Fangsheng; Pan, Lili; Lan, Zhenzhong (). „Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting”. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. pp. 7727–7736. doi:10.1109/cvpr52733.2024.00738. ISBN 979-8-3503-5300-6.
- ↑ Narang, Sharan (). „Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance”. ai.googleblog.com.
- ↑ Dang, Ekta (). „Harnessing the power of GPT-3 in scientific research”. VentureBeat. Accesat în .
- ↑ Montti, Roger (). „Google's Chain of Thought Prompting Can Boost Today's Best Algorithms”. Search Engine Journal (în engleză). Accesat în .