Big Data: o que é, os 5 Vs, tecnologias (Spark, Kafka, Lakehouse) e quando usar

1Capítulo 1

Definição

Durante décadas, a limitação prática para análise de dados era capacidade computacional: não havia como processar, armazenar ou analisar volumes que excediam o que um servidor tradicional conseguia gerenciar. A solução era não coletar — ou coletar e descartar. Amostragem substituía análise completa; agregados substituíam registros individuais.

O cenário mudou quando a combinação de internet em massa, sensores conectados e barateamento de armazenamento tornou possível — e até inevitável — acumular volumes que nenhuma solução tradicional conseguia processar. Log de cada clique em um site com milhões de usuários diários. Registro de cada transação em tempo real em uma rede de pagamentos. Dados de sensores de milhares de equipamentos industriais com frequência de amostragem em milissegundos. O volume ultrapassou o que bancos de dados relacionais e servidores únicos conseguiam suportar.

Big Data é o conjunto de tecnologias, práticas e arquiteturas desenvolvidas para capturar, armazenar, processar e analisar volumes de dados que excedem a capacidade de ferramentas convencionais. O conceito é definido pelos 3 Vs originais — Volume, Velocidade, Variedade — expandidos por outros como Veracidade e Valor.

2Capítulo 2

Os 5 Vs que definem o problema

Volume: a dimensão mais óbvia. Petabytes e exabytes de dados acumulados — volumes que tornam inviável qualquer abordagem de análise que não seja distribuída. Uma empresa de e-commerce com 10 milhões de usuários gera gigabytes de logs por dia; uma operadora de telecomunicações gera terabytes.

Velocidade: a taxa de geração e processamento dos dados. Dados de streaming — transações financeiras, feed de redes sociais, dados de sensores IoT — chegam em tempo real e frequentemente precisam ser processados antes de serem armazenados, não depois. Velocidade diferencia dados de batch (processados periodicamente) de dados de streaming (processados continuamente).

Variedade: dados não chegam em formato único. Estruturados (tabelas relacionais), semi-estruturados (JSON, XML, logs), não estruturados (texto livre, imagens, vídeo, áudio). Big Data lida com todos, em vez de forçar tudo em schema relacional rígido.

Veracidade: qualidade e confiabilidade dos dados. Com volume alto e fontes heterogêneas, dados inconsistentes, duplicados e corrompidos são inevitáveis. Veracidade captura o trabalho de limpeza, validação e reconciliação — o "data quality" que consome grande parte do tempo em projetos de dados.

Valor: o único V que importa para o negócio. Volume sem valor extraído é custo, não ativo. A justificativa de qualquer investimento em Big Data é o valor analítico e decisório que os dados viabilizam — e que não seria possível com subsets menores.

3Capítulo 3

A stack tecnológica de Big Data

A arquitetura de Big Data emergiu como resposta às limitações das tecnologias convencionais e evoluiu significativamente na última década.

HDFS e MapReduce (Hadoop): o ponto de partida da era Big Data open source. HDFS distribui arquivos por cluster de servidores commodity; MapReduce processa dados em paralelo nos próprios nós onde estão armazenados (computação próxima aos dados). Revolucionou em 2006; hoje considerado legacy — muito verboso para programar, lento para workloads iterativos como ML.

Apache Spark: o sucessor de fato para processamento distribuído. Processa dados em memória (muito mais rápido que Hadoop para iterações), suporta SQL, streaming, ML (MLlib) e grafos em uma única API. Tornou-se o padrão de facto para processamento em larga escala.

Data Lakes em cloud: AWS S3, Google Cloud Storage, Azure Data Lake Storage — armazenamento de objetos distribuído e praticamente ilimitado. O paradigma "store everything, process later" ficou viável e barato. Dados brutos chegam no data lake; processamento acontece conforme necessário.

Apache Kafka: plataforma de streaming distribuído para dados em tempo real. Atua como bus de eventos — produtores publicam dados, consumidores leem em tempo real ou em batch. Tolerante a falhas, escalável, retenção configurável de mensagens.

Computação em cloud: AWS EMR, Google Dataproc, Azure HDInsight — clusters Spark e Hadoop como serviço, provisionados em minutos e pagos por uso. Eliminou o CAPEX de infraestrutura de Big Data; democratizou o acesso.

Lakehouse (Delta Lake, Iceberg, Hudi): formatos de tabela que adicionam transações ACID, controle de versão e capacidade de upsert sobre data lakes. Convergência de data lake (flexibilidade, escala) e data warehouse (confiabilidade, suporte a atualizações). O padrão emergente que está substituindo a arquitetura separada de lake + warehouse.

4Capítulo 4

Lambda vs Kappa — arquiteturas de processamento

Arquitetura Lambda: processa dados em duas camadas paralelas — batch layer (processa dados históricos completos periodicamente, alta latência, alta exatidão) e speed layer (processa dados novos em tempo real, baixa latência, resultado aproximado). Serving layer combina as duas. Complexo de manter — duas lógicas de processamento para o mesmo problema.

Arquitetura Kappa: elimina a camada batch. Todo dado é processado como stream, com reprocessamento quando necessário. Mais simples de operar, mas exige que o sistema de streaming seja capaz de reprocessar dados históricos (Kafka com retenção longa viabiliza isso).

A tendência atual é convergir para Kappa ou para Lakehouse — menos duplicação de lógica, arquiteturas mais simples de manter.

5Capítulo 5

Onde Big Data gera valor — e onde é overkill

Big Data não é sinônimo de "análise avançada". É uma família de tecnologias para um problema específico de escala. Usá-la onde não há escala é complexidade desnecessária.

Vale investir quando: volume de dados genuinamente excede o que um data warehouse convencional consegue processar com performance aceitável; há necessidade de processamento em tempo real de fluxos de dados contínuos; variedade de fontes e formatos torna inviável a normalização prévia; ML em larga escala requer processamento distribuído de features.

Não vale investir quando: o problema é respondido com SQL em um banco de dados relacional; o volume total é da ordem de gigabytes, não petabytes; a latência de batch diário é aceitável; o time não tem engenheiros com experiência em sistemas distribuídos (a curva de aprendizado e complexidade operacional é real).

6Capítulo 6

Big Data e privacidade — a tensão estrutural

Coletar tudo tem custo além do técnico. Dados pessoais em volume implicam obrigações de LGPD: finalidade, minimização, retenção, segurança, direitos do titular.

Empresas que acumularam dados de usuários sem finalidade clara são hoje vulneráveis a autuações e litígios. O princípio de minimização — coletar apenas o que é necessário para a finalidade — é contrário à lógica de "store everything". A reconciliação exige política de dados explícita: o que coletamos, por quê, por quanto tempo, com quais controles.

7Capítulo 7

Perspectiva Auspert

Big Data como buzzword inflou expectativas e produziu muitos projetos de data lake que viraram "data swamp" — repositórios de dados não catalogados, sem qualidade controlada, que ninguém usa porque ninguém sabe o que tem nem como acessar de forma confiável.

Para PMEs, a lição prática é que a escala de Big Data raramente é o problema real. O que geralmente falta é: dados estruturados e confiáveis nas fontes (ERP, CRM, sistemas operacionais), processos de ETL que produzem tabelas analíticas usáveis, e cultura de decisão baseada em dados. Endereçar isso com um data warehouse bem projetado (BigQuery, Redshift, Snowflake) entrega 90% do valor com 10% da complexidade de uma stack de Big Data completa.

Big Data faz sentido quando o problema de escala é genuíno — operação de e-commerce com dezenas de milhões de sessões, plataforma de streaming, empresa de telecomunicações. Para o restante, o investimento em qualidade de dados e analytics acessível é mais impactante do que infraestrutura distribuída.

Veja também

Estratégia

Planejamento Estratégico

Planejamento estratégico é o processo que transforma intenção em direção. Entenda sua estrutura, como aplicar em PMEs e o que diferencia um plano real de um exercício formal.

Estratégia

Balanced Scorecard

O Balanced Scorecard amplia a visão da gestão para além dos indicadores financeiros. Entenda as quatro perspectivas, o papel do mapa estratégico e como implementar com profundidade em PMEs.

Estratégia

Value Proposition

Proposta de valor é a resposta para a pergunta que o cliente faz antes de comprar. Entenda a estrutura, os erros mais comuns e como construir uma proposta específica, crível e durável.

Ver todos os conceitos

Definição

Os 5 Vs que definem o problema

A stack tecnológica de Big Data

A arquitetura de Big Data emergiu como resposta às limitações das tecnologias convencionais e evoluiu significativamente na última década.

Lambda vs Kappa — arquiteturas de processamento

A tendência atual é convergir para Kappa ou para Lakehouse — menos duplicação de lógica, arquiteturas mais simples de manter.

Onde Big Data gera valor — e onde é overkill

Big Data não é sinônimo de "análise avançada". É uma família de tecnologias para um problema específico de escala. Usá-la onde não há escala é complexidade desnecessária.

Big Data e privacidade — a tensão estrutural

Coletar tudo tem custo além do técnico. Dados pessoais em volume implicam obrigações de LGPD: finalidade, minimização, retenção, segurança, direitos do titular.

Perspectiva Auspert