Definição
Treinar um modelo de detecção de fraude exige dados de transações fraudulentas. Mas fraudes reais são raras — menos de 0,1% das transações — e os dados históricos disponíveis são limitados. Construir um chatbot de atendimento médico exige dados de conversas entre pacientes e médicos. Mas esses dados existem apenas em prontuários protegidos por regulação de privacidade. Testar o pipeline de dados de uma aplicação nova exige um volume realista de dados de produção. Mas usar dados reais de produção para testes expõe dados de clientes a ambientes não seguros.
Em todos esses casos, a solução é dados sintéticos: dados gerados artificialmente que preservam as propriedades estatísticas, estruturais e contextuais dos dados reais sem conter informação real de indivíduos identificáveis. Dados sintéticos não são dados inventados arbitrariamente — são dados produzidos por modelos treinados para capturar os padrões dos dados reais, mantendo as relações entre variáveis e as distribuições que tornam os dados úteis para análise e ML.
Por que dados sintéticos existem
As motivações são distintas e levam a abordagens técnicas diferentes.
Privacidade e conformidade regulatória: o caso mais comum. LGPD, GDPR e regulações setoriais (saúde, financeiro) restringem severamente o uso de dados pessoais — incluindo para treinamento de modelos internos. Dados sintéticos que não contêm informação de indivíduos reais podem ser usados livremente para desenvolvimento, pesquisa e treinamento. A questão crítica: "sintético" não é equivalente a "anonimizado" automaticamente — depende de como foram gerados.
Desequilíbrio de classes: em problemas de classificação com classes raras (fraude, falha de equipamento, doenças raras), o modelo vê muito mais exemplos negativos do que positivos durante o treino, resultando em previsões sistematicamente tendenciosas para a classe majoritária. Dados sintéticos gerados para a classe minoritária equilibram o dataset e melhoram a performance do modelo nas classes que importam.
Teste e desenvolvimento: sistemas de software precisam ser testados com volumes realistas de dados antes de ir para produção. Usar produção para testes é arriscado. Dados sintéticos que imitam a estrutura e distribuição dos dados reais permitem testes abrangentes sem expor dados reais.
Escassez de dados rotulados: rotular dados para ML supervisionado é caro e lento. Dados sintéticos com labels automáticas (gerados por simulação ou por modelo que inclui o label correto) podem ser usados para pré-treinar ou aumentar datasets rotulados escassos.
Simulação de cenários: para testar comportamento de modelos em situações raras ou extremas (crises de mercado, eventos climáticos extremos, falhas em cascata), dados sintéticos de cenários contrafactuais permitem avaliação sem precisar esperar os eventos ocorrerem na realidade.
Como dados sintéticos são gerados
Métodos estatísticos: o mais simples — ajustar distribuições estatísticas aos dados reais e amostrar a partir delas. Para dados tabulares com colunas numéricas e categóricas, copular distribuições marginais com estrutura de correlação (como a Gaussiana Copula). Implementação: biblioteca SDV (Synthetic Data Vault) com GaussianCopulaSynthesizer. Rápido, interpretável, funciona bem para dados tabulares simples.
GANs (Generative Adversarial Networks): gerador e discriminador treinam em adversário — o gerador tenta criar dados que enganem o discriminador, que tenta distinguir dados reais de sintéticos. Resulta em dados sintéticos de alta fidelidade. CTGAN (Conditional Tabular GAN) e TVAE são as implementações de referência para dados tabulares. Mais complexo de treinar e ajustar que métodos estatísticos.
Modelos de difusão e autoencoders variacionais (VAE): aprende a representação latente dos dados e amostra novos pontos desse espaço latente. VAEs produzem dados suaves e interpoláveis. Difusão produz amostras de alta qualidade em texto, imagem e código.
Modelos de linguagem para dados textuais: LLMs como GPT-4 podem gerar dados sintéticos de texto com instruções específicas — "gere 100 avaliações negativas de produto com linguagem natural variada". Útil para aumentar datasets de NLP, gerar exemplos de edge cases, criar dados de treino para fine-tuning.
Simulação baseada em regras: para domínios com regras conhecidas (física, biologia, comportamento de sistema), simular o processo que gera os dados em vez de aprender a partir de exemplos. Automóveis autônomos treinam extensivamente em ambientes de simulação antes de dados do mundo real. O gerador não aprende dos dados — implementa o modelo do domínio.
SMOTE e variantes (oversample sintético): para desequilíbrio de classes, SMOTE (Synthetic Minority Oversampling Technique) cria novos exemplos sintéticos da classe minoritária interpolando entre exemplos existentes no espaço de features. Simples, amplamente usado como baseline. Limitado a dados numéricos e pode criar exemplos não realistas em fronteiras de decisão.
Avaliação de dados sintéticos
Dado sintético não é necessariamente dado útil. A avaliação precisa cobrir três dimensões.
Fidelidade estatística (Statistical fidelity): os dados sintéticos preservam as distribuições marginais e as correlações entre variáveis dos dados reais? Métricas: comparação de distribuições por coluna (KS-test), comparação de correlações entre pares de variáveis, cobertura de modos (o dado sintético representa todos os clusters do dado real?).
Utilidade (Utility): treinar um modelo nos dados sintéticos e avaliar no teste real dá performance similar a treinar nos dados reais? A métrica padrão é Train-on-Synthetic, Test-on-Real (TSTR) — se o modelo sintético performa próximo ao modelo real, os dados sintéticos são úteis para ML.
Privacidade (Privacy): o dado sintético permite inferir informação de indivíduos dos dados de treinamento? Duas ameaças principais: membership inference (consegue-se saber se um registro específico estava nos dados de treino?) e attribute inference (dado um indivíduo identificado, consegue-se inferir um atributo sensível que não estava no dado sintético?). A avaliação de privacidade requer testes adversariais específicos — simplesmente chamar o dado de "sintético" não garante privacidade.
Ferramentas e bibliotecas
SDV (Synthetic Data Vault): a biblioteca Python mais completa para dados tabulares sintéticos. Suporta GaussianCopula, CTGAN, TVAE, CopulaGAN, modelos relacionais (múltiplas tabelas com FK). Avaliação integrada. Open source.
Gretel.ai: plataforma de dados sintéticos com foco em privacidade e conformidade regulatória. Models para texto, tabular e time series. API e interface web. Versão gratuita com limites.
Mostly AI: plataforma enterprise de dados sintéticos com foco em dados financeiros e saúde. Forte em garantias de privacidade verificáveis.
Faker (Python): geração de dados fictícios de alta qualidade para testes — nomes, emails, endereços, CPFs, números de telefone, datas. Não aprende dos dados reais, mas gera dados formatados corretamente para desenvolvimento e teste. Não é dado sintético em sentido estrito, mas cobre muitos casos de uso de desenvolvimento.
Limitações e riscos
Não é privacidade automática: dados sintéticos gerados por modelos treinados em dados pessoais podem vazar informação dos dados de treino — especialmente GANs treinados em datasets pequenos ou com exemplos muito específicos. A avaliação de privacidade é obrigatória antes de tratar dados sintéticos como livres de LGPD.
Synthetic data gap: nenhum método atual captura a complexidade completa dos dados reais. Modelos treinados apenas em dados sintéticos frequentemente têm performance inferior a modelos treinados em dados reais — especialmente para distribuições complexas ou de alta dimensionalidade. Dados sintéticos augmentam dados reais, não os substituem completamente.
Propagação de viés: se os dados reais têm viés (sub-representação de grupos, correlações espúrias), os dados sintéticos herdam o viés — e podem amplificá-lo. Dados sintéticos não são um mecanismo de "lavagem" de problemas nos dados reais.
Perspectiva Auspert
Dados sintéticos resolvem três problemas distintos que empresas encontram na prática: privacidade (usar dados sem expor clientes), desequilíbrio (melhorar modelos em classes raras) e desenvolvimento (testar sistemas sem riscos). O caso de uso mais imediato para PMEs brasileiras é o de desenvolvimento e teste — ambientes de desenvolvimento rodando com estrutura e volume realistas de dados sem expor produção.
Para cases de ML com desequilíbrio de classes, SMOTE e suas variantes são o ponto de partida — simples de implementar via scikit-learn, bem documentados e funcionam como baseline antes de explorar abordagens mais sofisticadas. Para casos que envolvem dados pessoais e LGPD, a avaliação de privacidade não é opcional — é pré-condição para qualquer afirmação de conformidade.
A armadilha mais comum: acreditar que "gerado sinteticamente" é equivalente a "anônimo" sem fazer a avaliação de privacidade. O dado sintético é tão privado quanto o processo de geração garantir — não mais.
Veja também
Planejamento Estratégico
Planejamento estratégico é o processo que transforma intenção em direção. Entenda sua estrutura, como aplicar em PMEs e o que diferencia um plano real de um exercício formal.
EstratégiaBalanced Scorecard
O Balanced Scorecard amplia a visão da gestão para além dos indicadores financeiros. Entenda as quatro perspectivas, o papel do mapa estratégico e como implementar com profundidade em PMEs.
EstratégiaValue Proposition
Proposta de valor é a resposta para a pergunta que o cliente faz antes de comprar. Entenda a estrutura, os erros mais comuns e como construir uma proposta específica, crível e durável.