Voltar Dec 3, 2025

ChatGPT, Gemini e Claude Competem em Compreensão Multimodal de Imagens

Visão Geral do Teste Multimodal

A avaliação colocou três modelos de chat de IA proeminentes — ChatGPT, Gemini e Claude — contra um conjunto de imagens visualmente desafiadoras. As imagens escolhidas representavam diferentes desafios: uma Times Square iluminada por neon cheia de placas e movimento, a "Último Julgamento" de Michelangelo com sua multidão intricada de figuras, e uma sala bagunçada cheia de cabos, papéis e objetos variados. O objetivo era ver como cada sistema analisava informações visuais, identificava objetos, lia texto incorporado e articulava relações espaciais sem inventar detalhes.

Desempenho na Imagem da Times Square

ChatGPT produziu uma lista estruturada, notando principais placas de shows e marcas, o carrinho de hot-dog, táxis amarelos, ônibus, pedestres e marcas de rua. Ele também citou texto visível nas placas e ofereceu um comentário breve sobre a energia geral da cena. Gemini foi mais a fundo, descrevendo o brilho verde de uma placa refletindo em superfícies próximas, o padrão de faixa diagonal estagnada e identificando o ônibus como um veículo MTA enquanto notava texto ilegível. Claude adotou uma abordagem mais narrativa, rotulando a cena como uma fotografia noturna vibrante e destacando a energia icônica, enquanto corretamente identificava principais placas e cores.

Interpretação da "Último Julgamento" de Michelangelo

ChatGPT descreveu a figura central de Cristo cercada por clusters de anjos, corpos ressuscitados e demônios, cuidadosamente evitando nomes falsos para personagens específicos. Gemini forneceu uma análise ao estilo de um historiador de arte, delineando a composição radial, arcos concêntricos e o movimento direcional das figuras, enquanto se manteve fundamentado em símbolos reconhecidos. Claude enfatizou a controvérsia da nudez, identificou Cristo e Maria e contrastou o movimento ascendente das figuras salvas com a turbulência descendente dos condenados, entregando uma visão geral concisa mas vívida.

Análise da Sala Interior Bagunçada

Na sala caótica, ChatGPT listou itens da esquerda para a direita, reconhecendo cordas emaranhadas, pastas, manuais e vários dispositivos, embora ocasionalmente usasse rótulos vagos como "um pequeno dispositivo". Gemini quebrou a cena em detalhes finos, notando cores, formas, iluminação e mesmo especulando sobre o propósito da sala como um espaço administrativo. Claude ofereceu um inventário resumido, corretamente nomeando muitos objetos, mas ocasionalmente inferindo itens não claramente visíveis, como descrever uma pilha de envelopes que eram na verdade folhas impressas.

Forças e Fraquezas Entre os Modelos

ChatGPT demonstrou enumeração cuidadosa e confiável e evitou alucinações, tornando-o uma escolha sólida para usuários que precisam de saídas claras e estruturadas. Gemini se destacou por descrições detalhadas e ricas em contexto, reconhecimento preciso de texto e raciocínio espacial nuances, posicionando-o como o melhor intérprete visual entre os três. O estilo narrativo de Claude adicionou um brilho criativo, mas ocasionais palpites imaginativos mostraram um trade-off entre narrativa e estrita precisão.

Conclusão e Orientação para Usuários

O teste lado a lado revela personalidades distintas entre os modelos. A atenção meticulosa de Gemini ao detalhe e seu fundamento em fatos observáveis o tornam a principal recomendação para tarefas que exigem alta fidelidade visual. ChatGPT oferece um inventário confiável e direto adequado para referência rápida, enquanto Claude fornece uma perspectiva mais literária que pode atrair usuários que valorizam resumos expressivos. A seleção do modelo apropriado depende de se a precisão, confiabilidade ou narrativa criativa é a prioridade.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em:

English ChatGPT, Gemini, and Claude Compete in Multimodal Image Understanding Español ChatGPT, Gemini y Claude compiten en la comprensión multimodal de imágenes