Data Catalog: o que é, o que contém, ferramentas (DataHub, dbt Docs) e quando implementar

1Capítulo 1

Definição

Quanto mais dados uma organização acumula, mais difícil fica encontrar o dado certo. O analista de marketing quer saber quais tabelas existem com dados de comportamento de cliente — mas não sabe se a tabela que encontrou é a versão atual, quem a mantém, se está atualizada ou o que significa cada campo. O cientista de dados quer encontrar dados de churn histórico para treinar um modelo — mas não sabe se esses dados estão no data warehouse, no data lake, ou apenas no ERP. Sem um inventário organizado, a primeira hora de qualquer projeto de dados vai para descobrir quais dados existem e onde estão.

Data Catalog (Catálogo de Dados) é um inventário organizado dos assets de dados de uma organização — tabelas, datasets, modelos de ML, dashboards, relatórios, APIs de dados — com metadados associados que descrevem o que cada asset contém, quem é responsável por ele, qual é sua qualidade, de onde veio e como pode ser acessado. É o mecanismo que transforma dados de recursos invisíveis em recursos descobríveis e confiáveis.

Um catálogo bem implementado responde as perguntas que consomem tempo analítico antes da análise começar: "Existe dado sobre isso? Onde está? Está atualizado? Posso confiar nele? Quem me ajuda se eu tiver dúvida?"

2Capítulo 2

O que um catálogo de dados contém

Metadados técnicos: o que existe e como está estruturado. Schema de tabelas (nome de colunas, tipos de dado), localização física (qual banco de dados, qual bucket S3), frequência de atualização, volume de registros, última atualização. Capturado automaticamente por crawlers que varrem as fontes de dados conectadas.

Metadados de negócio: o significado de negócio dos dados. Descrições de tabelas e colunas em linguagem de negócio, glossário de termos (o que significa "cliente ativo" neste contexto?), casos de uso esperados, exemplos de uso. Criados por Data Stewards com conhecimento de domínio — não automatizáveis.

Linhagem: de onde os dados vieram e para onde vão. Quais tabelas são inputs deste dataset? Quais dashboards e modelos de ML dependem deste dataset? A linhagem é o mapa de dependências que permite entender o impacto de uma mudança.

Classificação e tags: categorias que facilitam descoberta (dados pessoais, dados financeiros, dados de produto) e classificação de sensibilidade (público, interno, confidencial, dado pessoal LGPD). Tags permitem filtrar por domínio, tipo ou nível de acesso.

Métricas de qualidade: indicadores de saúde do dataset — percentual de nulos, número de registros, anomalias detectadas. Permite que o consumidor avalie a confiabilidade antes de usar.

Ownership e contatos: quem é o Data Owner do domínio, quem é o Data Steward operacional, como entrar em contato para dúvidas ou solicitações de acesso. Elimina a pergunta "com quem falo para usar esse dado?"

Popularidade e uso: quais datasets são mais usados, quais queries são mais frequentes, quais usuários acessam quais dados. Indicadores de valor e relevância que surgem organicamente do uso.

3Capítulo 3

Catálogo ativo vs. passivo

A distinção entre catálogo passivo e ativo é crítica para o valor entregue.

Catálogo passivo: inventário estático documentado manualmente. Frequentemente começa como iniciativa de governança onde alguém documenta tudo — e fica desatualizado em semanas, porque ninguém tem processo para atualizar quando os dados mudam. Um catálogo desatualizado é potencialmente pior do que nenhum catálogo — constrói confiança falsa em informação incorreta.

Catálogo ativo: sincronizado automaticamente com as fontes de dados. Crawlers varrem regularmente os sistemas de dados e atualizam metadados técnicos automaticamente — schemas, volumes, última atualização. Metadados de negócio ainda precisam de manutenção humana, mas a parte técnica é mantida pelo sistema.

A sustentabilidade de um catálogo depende de quanto da manutenção é automatizada. Catálogos que dependem inteiramente de entrada manual não sobrevivem além da energia inicial da implementação.

4Capítulo 4

Principais ferramentas

DataHub (LinkedIn, open source): o catálogo open source mais adotado. Integra com dbt, Airflow, Spark, ferramentas de BI, databases. Captura linhagem automaticamente de múltiplas fontes. Requer infraestrutura para auto-hospedar (Kubernetes ou Docker Compose). A opção open source mais completa.

OpenMetadata: alternativa open source mais recente, interface moderna e mais fácil de configurar que DataHub. Ganhando adoção rapidamente como alternativa acessível.

Apache Atlas: open source, parte do ecossistema Apache/Hadoop. Forte integração com ferramentas Hadoop (Hive, HBase, Kafka). Menos amigável para stacks modernas de cloud.

Alation: plataforma enterprise com foco em colaboração — analistas podem discutir datasets dentro do catálogo, criar "trusted datasets", adicionar context. Forte em grandes enterprises com times de analytics distribuídos.

Collibra: plataforma enterprise líder em governança de dados. Catálogo, lineage, qualidade e glossário de negócio em uma plataforma integrada. Alto custo, forte em organizações que precisam de conformidade regulatória.

dbt Docs: para times centrados em dbt, o dbt Docs gerado automaticamente já é um catálogo funcional de todos os modelos de transformação — com documentação, linhagem e testes de qualidade. Não cobre fontes de dados brutas, mas cobre a camada analítica com fidelidade.

5Capítulo 5

Catálogo e self-service analytics

Um dos principais argumentos para investir em catálogo de dados é habilitar self-service analytics de qualidade. Analistas de negócio que conseguem encontrar dados confiáveis e entender o que significam podem responder suas próprias perguntas sem depender do time de dados para cada análise.

Sem catálogo, self-service analytics produz análises inconsistentes — cada analista encontra uma tabela diferente ou interpreta o mesmo campo de forma diferente. O catálogo é o guardrail que garante que o self-service use os dados certos com as definições corretas.

A combinação que funciona: catálogo ativo com datasets bem documentados e classificados como "trusted" + ferramenta de BI com interface intuitiva + treinamento básico para analistas de negócio. O catálogo reduz o tempo de descoberta e aumenta a confiança; a ferramenta de BI habilita a análise; o treinamento garante que os dois são usados corretamente.

6Capítulo 6

Perspectiva Auspert

Data Catalog é investimento de governança com ROI de longo prazo, não resultado imediato. O argumento de negócio não é "o catálogo vai gerar receita" — é "o catálogo vai reduzir o tempo que analistas gastam procurando e validando dados antes de começar a analisar", e "vai reduzir o risco de análises inconsistentes baseadas em definições diferentes".

Para PMEs com times de dados de uma a três pessoas, o investimento em catálogo de plataforma completa provavelmente não é prioridade. O equivalente funcional — um dicionário de dados em Notion ou Confluence com as tabelas e métricas mais usadas, linkado ao dbt Docs para linhagem, atualizado como parte do processo de criação de novos datasets — entrega o valor essencial sem o custo de implementar e operar uma plataforma adicional.

A regra simples: quando analistas regulamente perguntam "de onde vem esse dado?" ou "qual tabela devo usar para X?", ou quando dois analistas chegam a definições diferentes do mesmo KPI, o investimento em catálogo (mesmo que básico) começa a pagar. Antes disso, o problema é outro.

Veja também

Estratégia

Planejamento Estratégico

Planejamento estratégico é o processo que transforma intenção em direção. Entenda sua estrutura, como aplicar em PMEs e o que diferencia um plano real de um exercício formal.

Estratégia

Balanced Scorecard

O Balanced Scorecard amplia a visão da gestão para além dos indicadores financeiros. Entenda as quatro perspectivas, o papel do mapa estratégico e como implementar com profundidade em PMEs.

Estratégia

Value Proposition

Proposta de valor é a resposta para a pergunta que o cliente faz antes de comprar. Entenda a estrutura, os erros mais comuns e como construir uma proposta específica, crível e durável.

Ver todos os conceitos

Definição

O que um catálogo de dados contém

Métricas de qualidade: indicadores de saúde do dataset — percentual de nulos, número de registros, anomalias detectadas. Permite que o consumidor avalie a confiabilidade antes de usar.

Popularidade e uso: quais datasets são mais usados, quais queries são mais frequentes, quais usuários acessam quais dados. Indicadores de valor e relevância que surgem organicamente do uso.

Catálogo ativo vs. passivo

A distinção entre catálogo passivo e ativo é crítica para o valor entregue.

Principais ferramentas

OpenMetadata: alternativa open source mais recente, interface moderna e mais fácil de configurar que DataHub. Ganhando adoção rapidamente como alternativa acessível.

Apache Atlas: open source, parte do ecossistema Apache/Hadoop. Forte integração com ferramentas Hadoop (Hive, HBase, Kafka). Menos amigável para stacks modernas de cloud.

Catálogo e self-service analytics

Perspectiva Auspert