Um modelo multimodal consegue trabalhar com mais de um tipo de dado ao mesmo tempo. O GPT-4o (o 'o' de omni) da OpenAI, por exemplo, pode receber uma imagem e responder perguntas sobre ela, ou escutar áudio e transcrever, tudo no mesmo sistema. O Gemini do Google foi lançado já como multimodal nativo.
Antes, cada modalidade tinha seu próprio modelo especializado: um modelo de transcrição de voz, um modelo de análise de imagem, um modelo de texto. Conectá-los exigia engenharia complexa e os erros de um sistema se propagavam para o próximo. Modelos multimodais integram tudo, o que simplifica as aplicações e permite interações mais naturais.
O futuro da IA é multimodal. Os humanos experimentam o mundo através de vários sentidos e combinam essas informações naturalmente. IA que consegue fazer o mesmo — entender um vídeo, uma conversa, um documento e imagens ao mesmo tempo — será muito mais útil em aplicações do mundo real.