27 de março de 20264 min de leitura

5 ferramentas open source para começar um Data Catalog em 2026

Antes de gastar centenas de milhares em Collibra ou Alation, vale conhecer o que o open source oferece hoje. Algumas dessas ferramentas são usadas por empresas maiores do que a sua.

Quando o assunto é Data Catalog, a conversa corporativa costuma ir direto para os nomes grandes: Collibra, Alation, Informatica. São boas ferramentas. São também licenças que facilmente chegam a seis dígitos por ano, com contratos longos e implementações que viram projetos de 18 meses.

Para a maioria dos times de dados — especialmente no Brasil, onde orçamento é sempre a primeira barreira — isso não é realista.

A boa notícia é que o ecossistema open source de catálogos de dados amadureceu muito nos últimos anos. Algumas dessas ferramentas são usadas em produção por empresas como LinkedIn, Lyft e Airbnb. Não são brinquedos.

O que avaliar antes de escolher

Antes de qualquer lista, três perguntas que definem a escolha:

Qual é o perfil do time? Time técnico forte consegue instalar e manter qualquer uma das opções abaixo. Time menor, com menos engenharia, precisa de algo com instalação simples e UX que não exija treinamento.

Qual é a prioridade: descoberta ou compliance? Descoberta de dados (quem usa o quê, onde está o dado de cliente) tem ferramentas diferentes de compliance (linhagem para LGPD, classificação de dados sensíveis).

Você tem dados em nuvem, on-premise ou os dois? Algumas ferramentas são otimizadas para cloud-native. Outras nasceram no mundo Hadoop e se adaptaram.

As 5 ferramentas

DataHub

Criado pelo LinkedIn e aberto em 2020. Hoje é provavelmente o catálogo open source mais adotado em empresas de tecnologia no mundo.

O ponto forte é a integração: conecta com dbt, Airflow, Spark, BigQuery, Snowflake, Redshift e mais de 50 outras fontes. A linhagem é gerada automaticamente a partir dessas integrações — você não precisa documentar manualmente de onde cada dado vem. A interface é moderna e a comunidade é extremamente ativa.

O ponto fraco é a complexidade de infraestrutura. DataHub roda com Kafka, Elasticsearch e MySQL em paralelo. Não é para quem quer algo no ar em uma tarde.

Melhor para: times com engenharia dedicada e stack moderna.

OpenMetadata

O mais novo da lista e o que cresce mais rápido. Tem mais de 80 conectores nativos, interface pensada para não-técnicos e um conjunto de funcionalidades — profiling automático de dados, glossário, colaboração com comentários e tarefas — que vai além do catálogo tradicional.

A instalação é mais simples que DataHub e a UX é visivelmente mais cuidada. Para times que querem colocar algo funcional no ar rapidamente e que precisam que analistas de negócio também usem a ferramenta, é hoje a melhor opção open source.

Melhor para: times que querem velocidade de implantação e adoção ampla.

Amundsen

Criado pela Lyft em 2019, foi um dos pioneiros do segmento. O foco é descoberta de dados — encontrar rapidamente tabelas, dashboards e owners. A experiência é parecida com um Google para dados internos.

Mais simples que DataHub e OpenMetadata, com menos funcionalidades mas também menos complexidade operacional. Se o problema central do seu time é "ninguém sabe onde está o dado X", Amundsen resolve bem.

Melhor para: times que precisam de busca e descoberta, sem complexidade extra.

Apache Atlas

Faz parte do ecossistema Apache e é muito usado em ambientes com Hadoop, Hive e HBase. O diferencial é a robustez em classificação e linhagem — funcionalidades essenciais para quem precisa demonstrar conformidade com LGPD ou GDPR.

A interface não é a mais moderna e a curva de aprendizado é íngreme. Mas em ambientes on-premise grandes, com necessidades sérias de compliance, ainda é referência.

Melhor para: ambientes on-premise, Hadoop, compliance regulatório.

Magda

Menos conhecido, criado pelo governo australiano para catalogar dados públicos. Funciona bem para organizações que precisam lidar com muitos formatos heterogêneos de dados — CSV, APIs, shapefiles geoespaciais, bancos relacionais — num mesmo catálogo.

Melhor para: organizações públicas ou com diversidade muito grande de fontes.

Como decidir na prática

Situação	Ferramenta
Time técnico forte, stack moderna	DataHub
Quer algo no ar rápido com boa UX	OpenMetadata
Problema é descoberta, sem complexidade	Amundsen
On-premise, Hadoop, LGPD/GDPR	Apache Atlas
Dados heterogêneos ou setor público	Magda

Uma última coisa: qualquer catálogo de dados só funciona se as pessoas alimentarem e consultarem. Ferramenta não resolve cultura. Antes de escolher a plataforma, defina quem vai ser responsável pela manutenção e como você vai criar o hábito de uso no time.

Sem isso, em seis meses você vai ter um catálogo bem configurado que ninguém usa.

CompartilharLinkedIn X (Twitter)WhatsApp