Google lança Gemini Embedding 2: primeiro modelo multimodal de embeddings
Novo modelo mapeia texto, imagens e vídeo em um espaço vetorial unificado, abrindo novas possibilidades para busca e recuperação de informação multimodal.
O Google anunciou o Gemini Embedding 2, o primeiro modelo de embeddings nativamente multimodal do mercado. Ao contrário dos modelos anteriores que tratavam texto e imagens separadamente, o Gemini Embedding 2 cria representações vetoriais unificadas que combinam texto, imagens e vídeo no mesmo espaço semântico.
Por que importa: Embeddings multimodais significam que sistemas de busca podem finalmente entender a relação entre uma foto, um vídeo e um texto sobre o mesmo assunto. Isso muda radicalmente como organizamos e encontramos informação.
Na prática: Imagine buscar "reunião onde discutimos o redesign" e o sistema encontrar o vídeo da call, os slides compartilhados e as anotações — tudo conectado semanticamente. RAG multimodal agora é viável.
Fonte
Google Bloghttps://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/
Receba conteúdo direto no seu email
Escolha o que funciona melhor pra você.