5 ferramentas open source para começar um Data Catalog em 2026
Antes de gastar centenas de milhares em Collibra ou Alation, vale conhecer o que o open source oferece hoje. Algumas dessas ferramentas são usadas por empresas maiores do que a sua.
Quando o assunto é Data Catalog, a conversa corporativa costuma ir direto para os nomes grandes: Collibra, Alation, Informatica. São boas ferramentas. São também licenças que facilmente chegam a seis dígitos por ano, com contratos longos e implementações que viram projetos de 18 meses.
Para a maioria dos times de dados — especialmente no Brasil, onde orçamento é sempre a primeira barreira — isso não é realista.
A boa notícia é que o ecossistema open source de catálogos de dados amadureceu muito nos últimos anos. Algumas dessas ferramentas são usadas em produção por empresas como LinkedIn, Lyft e Airbnb. Não são brinquedos.
O que avaliar antes de escolher
Antes de qualquer lista, três perguntas que definem a escolha:
Qual é o perfil do time? Time técnico forte consegue instalar e manter qualquer uma das opções abaixo. Time menor, com menos engenharia, precisa de algo com instalação simples e UX que não exija treinamento.
Qual é a prioridade: descoberta ou compliance? Descoberta de dados (quem usa o quê, onde está o dado de cliente) tem ferramentas diferentes de compliance (linhagem para LGPD, classificação de dados sensíveis).
Você tem dados em nuvem, on-premise ou os dois? Algumas ferramentas são otimizadas para cloud-native. Outras nasceram no mundo Hadoop e se adaptaram.
As 5 ferramentas
DataHub
Criado pelo LinkedIn e aberto em 2020. Hoje é provavelmente o catálogo open source mais adotado em empresas de tecnologia no mundo.
O ponto forte é a integração: conecta com dbt, Airflow, Spark, BigQuery, Snowflake, Redshift e mais de 50 outras fontes. A linhagem é gerada automaticamente a partir dessas integrações — você não precisa documentar manualmente de onde cada dado vem. A interface é moderna e a comunidade é extremamente ativa.
O ponto fraco é a complexidade de infraestrutura. DataHub roda com Kafka, Elasticsearch e MySQL em paralelo. Não é para quem quer algo no ar em uma tarde.
Melhor para: times com engenharia dedicada e stack moderna.
OpenMetadata
O mais novo da lista e o que cresce mais rápido. Tem mais de 80 conectores nativos, interface pensada para não-técnicos e um conjunto de funcionalidades — profiling automático de dados, glossário, colaboração com comentários e tarefas — que vai além do catálogo tradicional.
A instalação é mais simples que DataHub e a UX é visivelmente mais cuidada. Para times que querem colocar algo funcional no ar rapidamente e que precisam que analistas de negócio também usem a ferramenta, é hoje a melhor opção open source.
Melhor para: times que querem velocidade de implantação e adoção ampla.
Amundsen
Criado pela Lyft em 2019, foi um dos pioneiros do segmento. O foco é descoberta de dados — encontrar rapidamente tabelas, dashboards e owners. A experiência é parecida com um Google para dados internos.
Mais simples que DataHub e OpenMetadata, com menos funcionalidades mas também menos complexidade operacional. Se o problema central do seu time é "ninguém sabe onde está o dado X", Amundsen resolve bem.
Melhor para: times que precisam de busca e descoberta, sem complexidade extra.
Apache Atlas
Faz parte do ecossistema Apache e é muito usado em ambientes com Hadoop, Hive e HBase. O diferencial é a robustez em classificação e linhagem — funcionalidades essenciais para quem precisa demonstrar conformidade com LGPD ou GDPR.
A interface não é a mais moderna e a curva de aprendizado é íngreme. Mas em ambientes on-premise grandes, com necessidades sérias de compliance, ainda é referência.
Melhor para: ambientes on-premise, Hadoop, compliance regulatório.
Magda
Menos conhecido, criado pelo governo australiano para catalogar dados públicos. Funciona bem para organizações que precisam lidar com muitos formatos heterogêneos de dados — CSV, APIs, shapefiles geoespaciais, bancos relacionais — num mesmo catálogo.
Melhor para: organizações públicas ou com diversidade muito grande de fontes.
Como decidir na prática
| Situação | Ferramenta |
|---|---|
| Time técnico forte, stack moderna | DataHub |
| Quer algo no ar rápido com boa UX | OpenMetadata |
| Problema é descoberta, sem complexidade | Amundsen |
| On-premise, Hadoop, LGPD/GDPR | Apache Atlas |
| Dados heterogêneos ou setor público | Magda |
Uma última coisa: qualquer catálogo de dados só funciona se as pessoas alimentarem e consultarem. Ferramenta não resolve cultura. Antes de escolher a plataforma, defina quem vai ser responsável pela manutenção e como você vai criar o hábito de uso no time.
Sem isso, em seis meses você vai ter um catálogo bem configurado que ninguém usa.
Leia também
01 de abr. de 2026
6 sinais de que seu programa de governança de dados não está funcionando
Todo programa de governança parece bem nos slides. Os sinais de que algo está errado aparecem no dia a dia, longe das apresentações executivas.
Ler mais →
31 de mar. de 2026
Data Steward: quem é, o que faz e como escolher a pessoa certa
Toda governança de dados precisa de um rosto. O Data Steward é quem operacionaliza a teoria no dia a dia — mas escolher a pessoa errada é o erro número um em programas de governança.
Ler mais →