Pesquisadores da Apple e do MIT podem ter descoberto o que faz o DeepSeek ser tão mais eficiente energeticamente do que os concorrentes: o uso do fenômeno “esparsidade”. Em estudo publicado na arXiv no último sábado (25), especialistas do setor explicam como a técnica permite que modelos consigam entregar bons resultados, mas sem precisar de tanto poder computacional.

A “esparsidade” (do inglês, “sparsity”) é uma abordagem conhecida para otimização de inteligências artificiais baseadas em aprendizagem de máquina. O termo assume diferentes métodos, sendo um deles uma espécie de desativação de partes inteiras da rede neural que não devem interferir no resultado esperado — que parece ser o caso do DeepSeek.

Os modelos DeepSeek conseguem ligar e desligar largas seções da rede neural, mas sem impactar na qualidade dos outputs. Um desses cortes está nos chamados “parâmetros”, componente das redes neurais que transformam as entradas (o input) em texto. Quanto mais parâmetros são utilizados, maior a demanda por processamento, basicamente.

No artigo “Parameters vs. FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models”, os pesquisadores da Apple e do MIT destrincham como a performance de modelos pode variar ao explorar técnica similar de esparsidade.

A DeepSeek afirma que o novo modelo DeepSeek-R1 consegue se equiparar ao modelo o1 da OpenAI em diferentes benchmarks raciocínio lógico e programação.

O paper tenta descobrir se há um ponto ideal de esparsidade para modelos generativos como o da DeepSeek. Este ponto ótimo serviria como equilíbrio máximo entre demanda computacional (energia e processamento) e a qualidade dos resultados. O documento conclui que é possível quantificar a esparsidade usando o percentual de seções desligadas da rede neural.

Embora a publicação date de 2025, o estudo foi conduzido em bibliotecas de código lançadas em 2023 por pesquisadores da MegaBlocks, grupo composto por profissionais da Microsoft, do Google e de Stanford. Contudo, a teoria pode ser aplicada às tecnologias mais recentes, como pode ser o caso do modelo chinês.

Esparsidade não é novidade

A esparsidade não é um conceito novo, e é aplicado há anos no setor de tecnologia. Uma das empresas que adota o conceito é a Intel, que há anos percebe o fenômeno como a chave para suceder no setor.

No caso do DeepSeek, o segredo está na boa implementação do método. Conforme destaca o professor Tongliang Liu em publicação no site da Universidade de Sydney, a DeepSeek adotou uma nova técnica para enxugar o total de parâmetros do modelo e continuou o desenvolvimento apenas com esses dados.

“Como resultado, [os modelos da DeepSeek] precisaram de bem menos treinamento do que uma abordagem tradicional”, pontuou Liu no texto.

O avanço nos estudos sobre esparsidade tem uma ampla variedade de aplicações, incluindo na implementação de modelos mais baratos e com menor custo computacional. No caso da DeepSeek, isso pode ter permitido que o modelo seja mais eficiente que as contrapartes ocidentais, mas com resultados ainda interessantes e úteis para o usuário final.

Você pode conferir a publicação completa no repositório arXiv.


Previous post Call of Duty: Após banimento injusto, usuário leva 763 dias em processo para voltar a jogar
Next post Avião supersônico ‘silencioso’ da Nasa entra em teste finais antes de voar