Data-centric AI, uma abordagem para construir sistemas mais confiáveis

Lorem ipsum dolor sit amet, consectetur adipiscing elit

Redação • 14 de novembro de 2025

Acompanhe

    Uma das principais tendências em ciência de dados para os próximos anos é a IA centrada em dados (data-centric AI), uma abordagem que foca na qualidade, consistência e governança dos datasets. 

    Saiba como essa abordagem funciona a seguir. 

    Advertisement for a data science and analytics course at PUC-RIO, featuring a smiling person, text, and university logo.

    O que é a IA centrada em dados (data-centric AI) 

    A IA centrada em dados é uma abordagem em que a prioridade passa a ser a qualidade e organização dos dados, e não necessariamente a sofisticação dos modelos. Segundo Andrew Ng, cofundador do Google Brain e professor da Universidade de Stanford, mais de 80% do esforço em IA deveria estar concentrado em preparar e melhorar datasets, não apenas em treinar algoritmos. 

    Essa tendência se baseia na ideia de que um modelo simples com dados ótimos supera um modelo avançado com dados ruins. 

    Até 2020, o foco da evolução em IA estava no desenvolvimento de modelos cada vez maiores e mais eficientes: redes neurais profundas, transformers, LLMs... Contudo, conforme esses modelos atingiram altos níveis de generalização, ficou claro que a qualidade dos dados era o principal gargalo. 

    Foi então que: 

    • Empresas perceberam que seus modelos falhavam por vieses ou inconsistências. 
    • Governos começaram a exigir rastreabilidade e explicabilidade. 
    • Setores regulados passaram a exigir documentações robustas de datasets. 

    Assim, a abordagem centrada em dados se tornou dominante. 

    Infographic about cybersecurity trends by PUC-Rio, with a tablet displaying a document, teal and white colors.

    Exemplos de data-centric AI 

    Conheça os principais métodos usados na IA centrada em dados: 

    • Detecção e remoção de outliers: tratamento de exemplos anômalos no conjunto de dados. 
    • Detecção e correção de erros: tratamento de valores e 0rótulos incorretos no conjunto de dados. 
    • Estabelecimento de consenso: determinação do que é a verdade a partir de muitas anotações colaborativas. 
    • Aumento de dados: adição de exemplos aos dados para codificar conhecimento prévio. 
    • Engenharia e seleção de recursos: manipulação da forma como os dados são representados. 
    • Aprendizagem ativa: seleção de dados mais informativos para rotular em seguida. 
    • Aprendizagem curricular: ordenação de exemplos no conjunto de dados, partindo do mais simples para o mais complexo. 

    Diferença entre data-centric AI e model-centric AI 

    A IA centrada em modelos (model-centric AI) tem como objetivo aperfeiçoar o modelo para extrair o máximo de performance de um conjunto de dados fixo. 

    Já a IA centrada em dados foca na produção do melhor dataset para alimentar um modelo, e não na criação do modelo em si. 

    Ela prioriza o diagnóstico e a correção de problemas recorrentes, como ruído, rotulagem incorreta, outliers e inconsistências, de forma sistemática e algorítmica. 

    A IA centrada em dados pode atuar de duas formas: 

    1. Algoritmos que entendem os dados para treinar melhor os modelos, como o curriculum learning, que organiza o aprendizado dos exemplos mais fáceis para os mais difíceis. 
    2. Algoritmos que modificam os dados para aprimorar o modelo, como o confident learning, que remove exemplos com rótulos incorretos. 

    Em ambos os casos, o sistema estima, de forma automática, quais dados são fáceis, úteis ou problemáticos, usando saídas de modelos preliminares para orientar o refinamento do conjunto de treinamento. 

    Na prática, o data-centric AI e o model-centric AI não competem. As abordagens se complementam. Construir os melhores sistemas de IA supervisionada exige iterar entre melhorar os dados e melhorar o modelo, repetindo esse ciclo quantas vezes forem necessárias. 

    Principais conceitos envolvidos no data-centric AI 

    Para entender o funcionamento da IA centrada em dados, é preciso conhecer alguns conceitos: 

    • Curadoria de dados: processo de selecionar, organizar, limpar e manter dados para garantir que estejam corretos, consistentes e prontos para uso em modelos de IA. 
    • Geração sintética de dados: criação de novos dados artificiais, muitas vezes usando modelos generativos, para ampliar o dataset, cobrir lacunas ou testar cenários sem expor informações reais. 
    • Labeling inteligente: uso de técnicas automáticas ou semiautomáticas para rotular dados com maior precisão e menor esforço humano, reduzindo erros comuns de anotação manual. 
    • Data versioning: controle de versões de datasets ao longo do tempo, permitindo rastrear mudanças, recuperar versões anteriores e garantir reprodutibilidade de experimentos. 
    • Testes automatizados de qualidade: conjunto de verificações automáticas que avaliam se os dados apresentam inconsistências, duplicidades, erros de formatação, outliers ou falhas que comprometam modelos de IA. 
    • Auditoria de vieses: processo de identificar, mensurar e mitigar desigualdades, distorções e padrões discriminatórios presentes nos dados que podem afetar previsões e decisões automatizadas. 
    • Explainable AI (XAI): métodos que tornam modelos de IA mais transparentes, permitindo entender como chegaram às suas conclusões e facilitando auditoria, confiança e conformidade regulatória. 
    • Modelos fundacionais com dados proprietários: estratégia que combina grandes modelos pré-treinados (como LLMs) com dados exclusivos da organização, ampliando precisão, personalização e vantagem competitiva. 

    Por que o data-centric AI vai crescer nos próximos anos? 

    A IA centrada em dados deve crescer porque a próxima década trará regulamentações mais rígidas, exigindo transparência e governança desde a coleta até o treinamento dos modelos. 

    Os avanços em IA generativa também evidenciaram que a qualidade dos dados é o principal fator para reduzir erros, vieses e alucinações. 

    Além disso, empresas buscam diferenciação competitiva por meio de dados exclusivos, capazes de gerar produtos e insights impossíveis de replicar com bases genéricas. 

    E, em decisões críticas, será indispensável contar com sistemas auditáveis, rastreáveis e construídos sobre dados confiáveis. Entre essas decisões estão diagnósticos, concessão de crédito ou gestão de riscos. 

    Tudo converge para o mesmo ponto: dominar os dados se torna mais estratégico do que dominar os modelos. 

    Perguntas frequentes sobre data-centric AI 

    O que é data-centric AI?

    Data-centric AI (ou “IA centrada em dados”, em português) é uma abordagem de inteligência artificial que prioriza a qualidade, organização e confiabilidade dos dados, em vez de focar apenas na complexidade dos modelos. O objetivo é melhorar o desempenho dos sistemas ao aprimorar sistematicamente os datasets usados no treinamento.

    Por que o data-centric AI é diferente do model-centric AI?

    Enquanto o model-centric AI tenta extrair o máximo desempenho de um conjunto de dados fixo, o data-centric AI busca melhorar o próprio dataset. Isso inclui corrigir rótulos, remover outliers e garantir consistência, criando dados melhores para qualquer modelo aprender.

    Por que a qualidade dos dados é essencial no data-centric AI?

    Porque modelos de IA aprendem padrões diretamente a partir dos dados. Se o dataset contém erros, ruídos ou vieses, o desempenho do modelo cai. O data-centric AI resolve esse problema tornando os dados mais limpos, precisos e representativos. 

    Quais são os principais benefícios do data-centric AI?

    Os principais benefícios incluem maior precisão dos modelos, melhor explicabilidade, redução de vieses, capacidade de auditoria e melhor conformidade com regulamentações. Isso torna o data-centric AI ideal para setores sensíveis como saúde, finanças e educação.

    Quais técnicas são usadas em data-centric AI?

    Entre as técnicas mais comuns estão curadoria de dados, geração sintética, labeling inteligente, detecção de erros, aumento de dados, aprendizagem ativa, aprendizagem curricular e testes automatizados de qualidade.

    Como o data-centric AI ajuda na redução de vieses?

    O data-centric AI permite auditar datasets, identificar padrões discriminatórios e corrigir desequilíbrios estatísticos. Ao tratar vieses na origem, os modelos tornam-se mais justos e alinhados a padrões regulatórios. 

    O data-centric AI é importante para modelos generativos?

    Sim. Modelos generativos dependem de grandes volumes de dados confiáveis. O data-centric AI reduz alucinações, inconsistências e distorções, garantindo respostas mais precisas e seguras.

    O data-centric AI melhora a auditabilidade da IA?

    Sim. Como ele documenta, versiona e rastreia cada mudança no dataset, o data-centric AI facilita auditorias, aumenta a transparência e apoia a conformidade com regulamentações mais rígidas.

    O data-centric AI se tornará dominante nos próximos anos?

    Tudo indica que sim. Regulamentações mais fortes, a dependência de dados confiáveis na IA generativa e a busca de empresas por diferenciação competitiva tornam o data-centric AI uma tendência crescente e estratégica até 2030.

    Por Redação

    Gostou deste conteúdo? Compartilhe com seus amigos!

    Anúncio de um e-book gratuito sobre tendências de TI até 2027. Uma mão parece estar interagindo com um tablet contra um fundo azul escuro.



    Assine a News PUC-Rio Digital  para evoluir na sua carreira


    Receba conteúdos sobre:


    • tendências de mercado
    • formas de escalar sua carreira
    • cursos para se manter competitivo
    Inscreva-se

    Conteúdo Relacionado