RLHF (Aprendizado por Reforço com Feedback Humano) foi a técnica que transformou LLMs potentes em assistentes úteis e seguros. O processo começa com o modelo gerando múltiplas respostas para o mesmo prompt. Avaliadores humanos ranqueiam essas respostas (qual é melhor? qual é mais segura?). Um modelo de recompensa aprende esses julgamentos. Por fim, o LLM original é ajustado para maximizar essa recompensa.
Antes do RLHF, o ChatGPT (versão 3.5) teria sido apenas um modelo que completa texto — às vezes de formas indesejáveis. O RLHF foi o que fez o modelo seguir instruções, manter um tom útil, recusar pedidos prejudiciais e se comportar como um assistente. InstructGPT (o precursor do ChatGPT) foi o primeiro grande modelo treinado com RLHF, e o salto de qualidade foi enorme.
Variações mais eficientes surgiram desde então: RLAIF (usando IA em vez de humanos para dar feedback), DPO (Direct Preference Optimization, que simplifica o processo matemático) e Constitutional AI da Anthropic. Mas o princípio central — usar preferências humanas como sinal de treinamento — continua sendo fundamental para criar IA alinhada ao que as pessoas realmente querem.