Data Lineage: o que é, tipos, ferramentas (dbt, DataHub) e por que importa

1Capítulo 1

Definição

Quando um número no dashboard está errado, a pergunta imediata é: de onde veio esse dado? Qual sistema o originou? Quais transformações foram aplicadas no caminho? Qual pipeline é responsável por alimentar essa tabela? Sem essa informação, depurar um problema de dados é investigação arqueológica — vasculhar código de ETL, consultar engenheiros que "lembram" como o pipeline funciona, rastrear manualmente de tabela em tabela até encontrar onde a anomalia foi introduzida.

Data Lineage (Linhagem de Dados) é o rastreamento da origem, do movimento, das transformações e do destino dos dados ao longo de todo o seu ciclo de vida — desde os sistemas de origem onde são gerados até os destinos onde são consumidos, passando por cada transformação intermediária. É o "pedigree" dos dados: a capacidade de responder, para qualquer dado em qualquer ponto do pipeline, de onde ele veio e como chegou até aqui.

Não é apenas uma feature de documentação — é infraestrutura de confiabilidade e de governança. Sem linhagem, debugging de dados é demorado e propenso a erros humanos. Com linhagem, o rastreamento é sistemático e automatizado.

2Capítulo 2

Os tipos de linhagem de dados

Linhagem de coluna (Column-level lineage): o nível mais granular. Rastreia de qual coluna de qual tabela de origem cada coluna do destino deriva — incluindo as transformações aplicadas. "A coluna receita_liquida na tabela metricas_mensais é calculada como valor_pedido - impostos - descontos, onde valor_pedido vem da tabela pedidos no ERP, impostos vem da tabela fiscal e descontos vem da tabela promocoes no CRM."

Linhagem de tabela (Table-level lineage): nível de granularidade intermediário. Rastreia quais tabelas alimentam quais outras tabelas, sem detalhar transformações de coluna. Suficiente para mapear dependências entre datasets e identificar o impacto de uma mudança em uma tabela upstream.

Linhagem de sistema (System-level lineage): o nível mais alto. Rastreia o fluxo de dados entre sistemas (ERP → data warehouse → BI tool), sem detalhar tabelas específicas. Útil para visão executiva de arquitetura de dados.

3Capítulo 3

Como linhagem é capturada

Linhagem de código estático: analisar o código de transformação (SQL, Python, Spark) para extrair automaticamente as dependências. dbt faz isso nativamente — ao executar modelos dbt, gera automaticamente o grafo de dependências entre modelos, visualizável no dbt Docs. A linhagem reflete exatamente o que o código faz.

Linhagem de runtime: capturar linhagem durante a execução — quais dados foram lidos, quais foram escritos, quais transformações foram aplicadas. Mais completo que análise estática (captura queries dinâmicas, código Python complexo), mas requer instrumentação.

Linhagem via catálogo de dados: plataformas como DataHub, Apache Atlas e Collibra coletam linhagem de múltiplas fontes (dbt, Spark, Airflow, ferramentas de BI) e a consolidam em uma visão unificada. O catálogo se torna o ponto único de consulta de linhagem.

Linhagem manual: documentação humana de fluxos de dados em wikis ou diagramas. O ponto de partida para organizações sem ferramentas automatizadas — melhor do que nada, mas propensa a ficar desatualizada rapidamente.

4Capítulo 4

Para que linhagem é usada na prática

Debugging de dados: quando um número está errado, linhagem permite rastrear upstream imediatamente — qual transformação introduziu o erro, qual tabela de origem tem o dado corrompido, qual pipeline precisa ser corrigido. Reduz tempo de debugging de horas para minutos.

Análise de impacto: antes de modificar uma tabela ou coluna que é fonte de outros dados, linhagem permite identificar todos os pipelines, tabelas e dashboards downstream que serão afetados. "Se eu mudar o schema desta tabela, o que quebra?" A análise de impacto torna mudanças mais seguras.

Auditoria e conformidade: regulações como LGPD exigem que organizações saibam onde dados pessoais estão e como foram usados. Linhagem de dados é evidência auditável de como dados pessoais fluem pelos sistemas — quem os originou, quem os transformou, quem os consome.

Confiança nos dados: analistas que conseguem rastrear a origem dos dados que estão usando têm mais confiança nas análises que produzem. "Eu sei de onde vem esse número" é o fundamento da confiança analítica.

Gestão de data products: no paradigma de Data Mesh, onde domínios publicam data products para consumo por outros domínios, linhagem é o mecanismo que permite a consumidores entender de onde vêm os dados do produto que estão usando e o que está no caminho entre a origem e o produto.

5Capítulo 5

Ferramentas de data lineage

dbt: gera linhagem de tabela e de coluna automaticamente para modelos SQL. O dbt Docs visualiza o grafo de dependências. Para times que já usam dbt, a linhagem é um produto gratuito do workflow existente. Limitado a transformações dentro do dbt — não captura linhagem de sistemas externos.

DataHub (LinkedIn, open source): plataforma de catálogo de dados com linhagem automatizada de múltiplas fontes (dbt, Spark, Airflow, Kafka, ferramentas de BI). O projeto open source mais adotado para catálogo + linhagem. Requer infraestrutura para operar.

Apache Atlas: catálogo e linhagem open source, parte do ecossistema Hadoop. Fortemente integrado com Hive, HBase e outras ferramentas do ecossistema Apache. Mais complexo de operar que DataHub.

Collibra, Alation: plataformas enterprise de governança de dados com linhagem como componente central. Alto custo, forte em ambientes enterprise com múltiplas ferramentas legadas.

OpenMetadata: alternativa open source mais recente, interface moderna, coleta linhagem de múltiplas fontes. Ganhando adoção como alternativa mais acessível ao DataHub.

Airflow e Prefect: orquestradores de pipeline que têm alguma noção de dependência entre tarefas — linhagem de pipeline, não de dados. Complementar a ferramentas de linhagem de dados.

6Capítulo 6

Linhagem e data quality

Linhagem e qualidade de dados são complementares: qualidade sem linhagem não sabe onde corrigir; linhagem sem qualidade não sabe o que está errado.

Quando monitoramento de qualidade detecta que a tabela de métricas mensais tem um campo com percentual de nulos anormalmente alto, linhagem permite rastrear imediatamente: esse campo vem da transformação X, que lê da tabela Y no sistema Z. O problema está em Z? Na transformação X? Ou entre Z e o data warehouse? Sem linhagem, essa investigação começa do zero.

7Capítulo 7

Perspectiva Auspert

Data lineage é o componente de governança de dados com maior impacto operacional — porque é o que salva horas de debugging quando algo dá errado, e algo sempre dá errado. A linhagem não previne problemas, mas dramaticamente reduz o tempo de diagnóstico e correção.

Para PMEs com stack de dados baseada em dbt, linhagem de tabela e de coluna já existe nativamente — o gráfico de dependências do dbt Docs é a linhagem. O investimento adicional é zero. Para organizações com pipelines mais complexos ou múltiplas ferramentas, DataHub (open source) é o ponto de entrada mais acessível para linhagem consolidada.

O argumento de negócio para linhagem não é sofisticação de engenharia — é confiança. Quando líderes de negócio perguntam "de onde vem esse número?", ter a resposta imediata e rastreável é o que transforma dados de "algo que o TI produz" para "infraestrutura de decisão que a gestão confia".

Veja também

Estratégia

Planejamento Estratégico

Planejamento estratégico é o processo que transforma intenção em direção. Entenda sua estrutura, como aplicar em PMEs e o que diferencia um plano real de um exercício formal.

Estratégia

Balanced Scorecard

O Balanced Scorecard amplia a visão da gestão para além dos indicadores financeiros. Entenda as quatro perspectivas, o papel do mapa estratégico e como implementar com profundidade em PMEs.

Estratégia

Value Proposition

Proposta de valor é a resposta para a pergunta que o cliente faz antes de comprar. Entenda a estrutura, os erros mais comuns e como construir uma proposta específica, crível e durável.

Ver todos os conceitos

Definição

Os tipos de linhagem de dados

Como linhagem é capturada

Para que linhagem é usada na prática

Ferramentas de data lineage

Apache Atlas: catálogo e linhagem open source, parte do ecossistema Hadoop. Fortemente integrado com Hive, HBase e outras ferramentas do ecossistema Apache. Mais complexo de operar que DataHub.

Collibra, Alation: plataformas enterprise de governança de dados com linhagem como componente central. Alto custo, forte em ambientes enterprise com múltiplas ferramentas legadas.

OpenMetadata: alternativa open source mais recente, interface moderna, coleta linhagem de múltiplas fontes. Ganhando adoção como alternativa mais acessível ao DataHub.

Airflow e Prefect: orquestradores de pipeline que têm alguma noção de dependência entre tarefas — linhagem de pipeline, não de dados. Complementar a ferramentas de linhagem de dados.

Linhagem e data quality

Linhagem e qualidade de dados são complementares: qualidade sem linhagem não sabe onde corrigir; linhagem sem qualidade não sabe o que está errado.

Perspectiva Auspert