Computer Vision (visão computacional) é o campo que estuda como máquinas 'veem' e interpretam o mundo visual. As tarefas centrais incluem classificação de imagens (o que é isso?), detecção de objetos (onde estão e o que são?), segmentação (delimitar exatamente cada objeto numa cena) e reconhecimento facial.
A revolução do deep learning em 2012 — quando a AlexNet venceu o desafio ImageNet com uma margem enorme — foi justamente em computer vision. Isso abriu caminho para carros autônomos, sistemas de vigilância inteligente, diagnóstico médico por imagem e controle de qualidade industrial automatizado.
Com modelos multimodais como o GPT-4V e o Gemini, a linha entre NLP e computer vision está desaparecendo. Esses modelos processam imagens e texto juntos, permitindo perguntas como 'o que está errado nessa radiografia?' ou 'descreva este produto para uma pessoa com deficiência visual'. É o começo de IA que entende o mundo da forma como nós entendemos — por múltiplos sentidos ao mesmo tempo.