

Lorem ipsum dolor sit amet, consectetur adipiscing elit
Acompanhe
Uma das principais tendências em ciência de dados para os próximos anos é a IA centrada em dados (data-centric AI), uma abordagem que foca na qualidade, consistência e governança dos datasets.
Saiba como essa abordagem funciona a seguir.
A IA centrada em dados é uma abordagem em que a prioridade passa a ser a qualidade e organização dos dados, e não necessariamente a sofisticação dos modelos. Segundo Andrew Ng, cofundador do Google Brain e professor da Universidade de Stanford, mais de 80% do esforço em IA deveria estar concentrado em preparar e melhorar datasets, não apenas em treinar algoritmos.
Essa tendência se baseia na ideia de que um modelo simples com dados ótimos supera um modelo avançado com dados ruins.
Até 2020, o foco da evolução em IA estava no desenvolvimento de modelos cada vez maiores e mais eficientes: redes neurais profundas, transformers, LLMs... Contudo, conforme esses modelos atingiram altos níveis de generalização, ficou claro que a qualidade dos dados era o principal gargalo.
Foi então que:
Assim, a abordagem centrada em dados se tornou dominante.
Conheça os principais métodos usados na IA centrada em dados:
A IA centrada em modelos (model-centric AI) tem como objetivo aperfeiçoar o modelo para extrair o máximo de performance de um conjunto de dados fixo.
Já a IA centrada em dados foca na produção do melhor dataset para alimentar um modelo, e não na criação do modelo em si.
Ela prioriza o diagnóstico e a correção de problemas recorrentes, como ruído, rotulagem incorreta, outliers e inconsistências, de forma sistemática e algorítmica.
A IA centrada em dados pode atuar de duas formas:
Em ambos os casos, o sistema estima, de forma automática, quais dados são fáceis, úteis ou problemáticos, usando saídas de modelos preliminares para orientar o refinamento do conjunto de treinamento.
Na prática, o data-centric AI e o model-centric AI não competem. As abordagens se complementam. Construir os melhores sistemas de IA supervisionada exige iterar entre melhorar os dados e melhorar o modelo, repetindo esse ciclo quantas vezes forem necessárias.
Para entender o funcionamento da IA centrada em dados, é preciso conhecer alguns conceitos:
A IA centrada em dados deve crescer porque a próxima década trará regulamentações mais rígidas, exigindo transparência e governança desde a coleta até o treinamento dos modelos.
Os avanços em IA generativa também evidenciaram que a qualidade dos dados é o principal fator para reduzir erros, vieses e alucinações.
Além disso, empresas buscam diferenciação competitiva por meio de dados exclusivos, capazes de gerar produtos e insights impossíveis de replicar com bases genéricas.
E, em decisões críticas, será indispensável contar com sistemas auditáveis, rastreáveis e construídos sobre dados confiáveis. Entre essas decisões estão diagnósticos, concessão de crédito ou gestão de riscos.
Tudo converge para o mesmo ponto: dominar os dados se torna mais estratégico do que dominar os modelos.
Data-centric AI (ou “IA centrada em dados”, em português) é uma abordagem de inteligência artificial que prioriza a qualidade, organização e confiabilidade dos dados, em vez de focar apenas na complexidade dos modelos. O objetivo é melhorar o desempenho dos sistemas ao aprimorar sistematicamente os datasets usados no treinamento.
Enquanto o model-centric AI tenta extrair o máximo desempenho de um conjunto de dados fixo, o data-centric AI busca melhorar o próprio dataset. Isso inclui corrigir rótulos, remover outliers e garantir consistência, criando dados melhores para qualquer modelo aprender.
Porque modelos de IA aprendem padrões diretamente a partir dos dados. Se o dataset contém erros, ruídos ou vieses, o desempenho do modelo cai. O data-centric AI resolve esse problema tornando os dados mais limpos, precisos e representativos.
Os principais benefícios incluem maior precisão dos modelos, melhor explicabilidade, redução de vieses, capacidade de auditoria e melhor conformidade com regulamentações. Isso torna o data-centric AI ideal para setores sensíveis como saúde, finanças e educação.
Entre as técnicas mais comuns estão curadoria de dados, geração sintética, labeling inteligente, detecção de erros, aumento de dados, aprendizagem ativa, aprendizagem curricular e testes automatizados de qualidade.
O data-centric AI permite auditar datasets, identificar padrões discriminatórios e corrigir desequilíbrios estatísticos. Ao tratar vieses na origem, os modelos tornam-se mais justos e alinhados a padrões regulatórios.
Sim. Modelos generativos dependem de grandes volumes de dados confiáveis. O data-centric AI reduz alucinações, inconsistências e distorções, garantindo respostas mais precisas e seguras.
Sim. Como ele documenta, versiona e rastreia cada mudança no dataset, o data-centric AI facilita auditorias, aumenta a transparência e apoia a conformidade com regulamentações mais rígidas.
Tudo indica que sim. Regulamentações mais fortes, a dependência de dados confiáveis na IA generativa e a busca de empresas por diferenciação competitiva tornam o data-centric AI uma tendência crescente e estratégica até 2030.
Por Redação
Gostou deste conteúdo? Compartilhe com seus amigos!
Assine a
News PUC-Rio Digital
para evoluir na sua carreira
Receba conteúdos sobre:
Formulário enviado com sucesso!


Pontifícia Universidade Católica do Rio de Janeiro
Saiba mais sobre a Coordenação Central de Educação Continuada