LLMs e Modelos Generativos: o que são, como funcionam, GPT, Claude, Gemini

1Capítulo 1

Definição

A IA que dominou o debate público desde 2022 não é um tipo de IA radicalmente novo — é uma escala radicalmente nova de um tipo de modelo que vinha sendo desenvolvido há anos. Modelos de linguagem existiam antes do ChatGPT. A mudança foi descobrir que, ao treinar modelos com ordens de magnitude mais parâmetros e dados, capacidades emergentes surgem que não eram previsíveis a partir de modelos menores: raciocínio de múltiplos passos, tradução sem fine-tuning específico, geração de código funcional, seguimento de instruções complexas em linguagem natural.

LLMs (Large Language Models — Modelos de Linguagem de Grande Escala) são redes neurais baseadas na arquitetura Transformer, treinadas em corpora massivos de texto para prever o próximo token em uma sequência. Esse objetivo de treinamento aparentemente simples — prever a próxima palavra — em escala suficiente produz modelos que internalizam gramática, fatos, raciocínio, estilos de escrita e conhecimento de mundo de forma que é difícil distinguir de "compreensão" — mesmo que o mecanismo subjacente seja fundamentalmente diferente da cognição humana.

Modelos Generativos é o termo mais amplo: inclui LLMs de texto, mas também modelos que geram imagens (DALL-E, Midjourney, Stable Diffusion), áudio (ElevenLabs, Suno), vídeo (Sora, Runway) e código. O princípio unificador é aprender a distribuição dos dados de treino e amostrar dessa distribuição para gerar novos exemplos.

2Capítulo 2

Como LLMs são construídos — as três fases

Fase 1 — Pré-treinamento: o modelo é treinado em corpus massivo de texto (Common Crawl, Wikipedia, livros, código, artigos científicos — dezenas a centenas de terabytes de texto). O objetivo é prever o próximo token. Nessa fase, o modelo aprende a distribuição da linguagem e internaliza vastas quantidades de conhecimento de mundo. Requer clusters de GPUs/TPUs por semanas a meses, custo de dezenas a centenas de milhões de dólares para modelos de fronteira.

Fase 2 — Instruction Tuning (SFT — Supervised Fine-Tuning): após o pré-treinamento, o modelo não segue instruções bem — apenas completa texto. Fine-tuning supervisionado em exemplos de (instrução, resposta de qualidade) o ensina a responder perguntas, seguir instrução de formato, e se comportar como assistente. Requer muito menos dados e compute que o pré-treinamento.

Fase 3 — RLHF (Reinforcement Learning from Human Feedback): humanos classificam pares de respostas por qualidade (qual é mais útil, mais honesta, mais inócua). Um modelo de recompensa é treinado nessas preferências e usado para refinar o LLM via RL — fazendo-o produzir respostas que humans preferem. É o que transforma um modelo competente em um assistente alinhado com valores humanos. Técnicas mais recentes como DPO (Direct Preference Optimization) eliminam a complexidade do loop de RL.

3Capítulo 3

Os principais modelos e suas características

GPT-4 / GPT-4o (OpenAI): o padrão de referência em reasoning e seguimento de instrução. GPT-4o é multimodal (aceita texto, imagem e áudio). Acesso via API (OpenAI) e via interface ChatGPT. Amplamente adotado em aplicações corporativas.

Claude (Anthropic): competidor de referência em seguimento de instrução longa e complexa, context window muito longa (200k tokens), foco em segurança e redução de vieses. Claude Sonnet e Haiku para uso em produção; Opus para tarefas mais exigentes de raciocínio.

Gemini (Google): nativo multimodal, integrado ao ecossistema Google. Gemini Ultra / Pro / Nano — variações de capacidade e custo para diferentes casos de uso.

Llama (Meta): modelos de código aberto. Llama 3 com 8B e 70B parâmetros, licença que permite uso comercial com restrições. Base para a maior parte dos modelos open source customizados.

Mistral: modelos open source de alta eficiência para seu tamanho. Mistral 7B/8x7B (Mixture of Experts) competem com modelos maiores a custo menor. Populares para deployment local e edge.

Modelos de raciocínio (o1, DeepSeek-R1): nova categoria de modelos que usam "chain-of-thought" longo interno antes de responder, melhorando significativamente em problemas de raciocínio matemático e lógico.

4Capítulo 4

As capacidades que tornam LLMs aplicáveis

Seguimento de instrução: LLMs modernos conseguem seguir instruções complexas e multifacetadas em linguagem natural. "Escreva um e-mail de negócios em tom formal para um cliente em atraso, mencione as três faturas específicas, ofereça parcelamento e inclua os próximos passos" — o modelo entende e executa.

Geração e transformação de texto: rascunhos, resumos, traduções, reescrita em diferentes tons, extração de informação estruturada de texto não estruturado, classificação de texto. Essas tarefas que antes exigiam modelos específicos agora são resolvidas por um único modelo via prompt.

Geração de código: LLMs treinados em código (GitHub Copilot usa Codex; Claude, GPT-4 têm forte desempenho em código) geram, explicam, depuram e refatoram código em dezenas de linguagens. A produtividade de desenvolvimento aumenta significativamente para desenvolvedores que usam assistentes de código.

Raciocínio de múltiplos passos: modelos modernos conseguem decompor problemas em etapas, raciocinar através delas e chegar a conclusões. Não é perfeito — especialmente em matemática e lógica formal — mas melhorou dramaticamente com escala e técnicas como chain-of-thought prompting.

Multimodalidade: modelos como GPT-4o, Gemini e Claude 3 processam imagens junto com texto — "descreva este gráfico", "identifique o problema nesta screenshot de erro", "extraia os dados desta nota fiscal fotografada".

5Capítulo 5

Alucinação — o limite mais crítico

A limitação mais importante e mais mal compreendida de LLMs é a alucinação: o modelo gera texto que parece confiante e fluente mas é factualmente incorreto.

LLMs não "sabem" fatos da forma que um banco de dados sabe. Eles geram texto plausível baseado na distribuição de seus dados de treino. Quando não têm evidência suficiente, muitas vezes geram texto plausível incorreto em vez de admitir incerteza.

Implicações práticas:

Nunca usar LLMs como fonte primária de fatos verificáveis sem citação explícita e verificável
Para aplicações onde precisão factual é crítica (jurídico, médico, financeiro), usar RAG (Retrieval Augmented Generation) para grounding em fontes confiáveis
Revisar código gerado por LLMs — pode parecer correto e ter bugs sutis
Alucinação de referências bibliográficas é particularmente problemática — modelos inventam artigos plausíveis

6Capítulo 6

Prompt engineering — como extrair melhor desempenho

A qualidade do output de um LLM depende significativamente de como a instrução (prompt) é formulada.

Técnicas fundamentais:

Zero-shot: instrução direta sem exemplos. "Classifique este texto como positivo, negativo ou neutro."
Few-shot: incluir exemplos de input/output desejado no prompt. Melhora consistência de formato e qualidade.
Chain-of-thought: pedir que o modelo raciocine passo a passo antes de dar a resposta final. Melhora significativamente em problemas de raciocínio.
System prompt: instrução de contexto persistente que define o papel e as restrições do modelo para toda a conversa.
Structured output: pedir output em JSON ou outro formato estruturado para consumo programático. Modelos modernos têm suporte nativo a structured output.

7Capítulo 7

Perspectiva Auspert

LLMs são a tecnologia com maior potencial de impacto em produtividade de trabalho de conhecimento dos últimos 30 anos — e simultaneamente a mais exposta a adoção superficial que não gera valor real.

O uso que entrega resultado: identificar tarefas repetitivas de texto e conhecimento que consomem tempo humano significativo (resumir reuniões, rascunhar comunicações, triagem de tickets de suporte, extração de informação de documentos), integrar LLMs nessas tarefas via API com prompts bem testados, e medir o impacto em tempo e qualidade.

O uso que não entrega resultado: usar o chatbot de forma ad hoc sem processo, sem integração a sistemas, sem medição. A experimentação sem estrutura produz impressão de impressionante mas não produz retorno.

Para líderes que estão definindo estratégia de adoção de LLMs: o ponto de partida é o mapeamento de onde o trabalho de conhecimento repetitivo existe, não a exploração de tecnologia pela tecnologia. A pergunta é "onde gasto horas em tarefas que poderiam ser automáticas?" — não "o que essa tecnologia pode fazer?".

Veja também

Estratégia

Planejamento Estratégico

Planejamento estratégico é o processo que transforma intenção em direção. Entenda sua estrutura, como aplicar em PMEs e o que diferencia um plano real de um exercício formal.

Estratégia

Balanced Scorecard

O Balanced Scorecard amplia a visão da gestão para além dos indicadores financeiros. Entenda as quatro perspectivas, o papel do mapa estratégico e como implementar com profundidade em PMEs.

Estratégia

Value Proposition

Proposta de valor é a resposta para a pergunta que o cliente faz antes de comprar. Entenda a estrutura, os erros mais comuns e como construir uma proposta específica, crível e durável.

Ver todos os conceitos

Definição

Como LLMs são construídos — as três fases

Os principais modelos e suas características

Gemini (Google): nativo multimodal, integrado ao ecossistema Google. Gemini Ultra / Pro / Nano — variações de capacidade e custo para diferentes casos de uso.

Llama (Meta): modelos de código aberto. Llama 3 com 8B e 70B parâmetros, licença que permite uso comercial com restrições. Base para a maior parte dos modelos open source customizados.

Mistral: modelos open source de alta eficiência para seu tamanho. Mistral 7B/8x7B (Mixture of Experts) competem com modelos maiores a custo menor. Populares para deployment local e edge.

As capacidades que tornam LLMs aplicáveis

Alucinação — o limite mais crítico

A limitação mais importante e mais mal compreendida de LLMs é a alucinação: o modelo gera texto que parece confiante e fluente mas é factualmente incorreto.

Implicações práticas:

Nunca usar LLMs como fonte primária de fatos verificáveis sem citação explícita e verificável
Para aplicações onde precisão factual é crítica (jurídico, médico, financeiro), usar RAG (Retrieval Augmented Generation) para grounding em fontes confiáveis
Revisar código gerado por LLMs — pode parecer correto e ter bugs sutis
Alucinação de referências bibliográficas é particularmente problemática — modelos inventam artigos plausíveis

Prompt engineering — como extrair melhor desempenho

A qualidade do output de um LLM depende significativamente de como a instrução (prompt) é formulada.

Técnicas fundamentais:

Zero-shot: instrução direta sem exemplos. "Classifique este texto como positivo, negativo ou neutro."
Few-shot: incluir exemplos de input/output desejado no prompt. Melhora consistência de formato e qualidade.
Chain-of-thought: pedir que o modelo raciocine passo a passo antes de dar a resposta final. Melhora significativamente em problemas de raciocínio.
System prompt: instrução de contexto persistente que define o papel e as restrições do modelo para toda a conversa.
Structured output: pedir output em JSON ou outro formato estruturado para consumo programático. Modelos modernos têm suporte nativo a structured output.

Perspectiva Auspert

Modelos Generativos / LLM

Definição

Como LLMs são construídos — as três fases

Os principais modelos e suas características

As capacidades que tornam LLMs aplicáveis

Alucinação — o limite mais crítico

Prompt engineering — como extrair melhor desempenho

Perspectiva Auspert

Planejamento Estratégico

Balanced Scorecard

Value Proposition

Modelos Generativos / LLM

Definição

Como LLMs são construídos — as três fases

Os principais modelos e suas características

As capacidades que tornam LLMs aplicáveis

Alucinação — o limite mais crítico

Prompt engineering — como extrair melhor desempenho

Perspectiva Auspert

Planejamento Estratégico

Balanced Scorecard

Value Proposition