O DeepSeek-V4 não é apenas mais um modelo grande; é uma aula de engenharia de eficiência. Ele prova que é possível ter inteligência de nível “Pro” com custos de processamento de contexto 90% menores que a geração anterior.
O DeepSeek-V4 chega focado em quebrar a barreira da eficiência computacional, permitindo processar 1 milhão de tokens de forma nativa e extremamente barata em termos de recursos.
Esse texto é baseado no artigo publicado pela empresa:
DeepSeek_V4.pdf · deepseek-ai/DeepSeek-V4-Pro at main
1. Novas Arquiteturas de Eficiência
A grande inovação está em como o modelo “enxerga” sequências longas sem explodir o consumo de memória (KV Cache):
- Hybrid Attention (CSA & HCA): O modelo combina duas técnicas de compressão. A CSA (Compressed Sparse Attention) comprime o histórico de tokens e foca apenas nas partes mais relevantes. A HCA (Heavily Compressed Attention) aplica uma compressão ainda mais agressiva para manter o contexto denso acessível.
- Redução Drástica de Custos: Em comparação ao DeepSeek-V3.2, o V4-Pro utiliza apenas 10% do KV Cache e 27% dos FLOPs (esforço computacional) para lidar com o mesmo milhão de tokens.
2. Os Dois Novos Modelos
A série conta com duas versões principais baseadas em Mixture-of-Experts (MoE):
- DeepSeek-V4-Pro: 1.6 trilhão de parâmetros totais, com 49 bilhões ativos por token. É o novo estado da arte para modelos abertos, aproximando-se de modelos proprietários como Gemini 3.1 Pro e GPT-5.4 em tarefas de raciocínio.
- DeepSeek-V4-Flash: 284 bilhões de parâmetros totais, com apenas 13 bilhões ativos. Apesar de menor, ele supera o DeepSeek-V3.2 em quase todos os benchmarks, sendo ideal para aplicações rápidas e baratas.
3. Três Modos de Raciocínio (Thinking)
O documento introduz formas de escalar o “pensamento” do modelo conforme a necessidade:
- Non-think: Respostas rápidas e intuitivas para tarefas rotineiras.
- Think High: Análise lógica para problemas complexos e planejamento.
- Think Max: O esforço máximo de raciocínio, onde o modelo estressa cada hipótese antes de responder, sendo superior em benchmarks acadêmicos e matemáticos.
4. Capacidades Agênticas e Escrita
- Agentes de Código: O V4-Pro se destaca em tarefas de engenharia de software (bug fixing, refatoração), aproximando-se da performance do Claude Opus 4.5.
- Pesquisa Agêntica: O modelo agora pode realizar buscas na web de forma iterativa, “pensando” e refinando a busca até encontrar a resposta precisa.
5. Inovações de Infraestrutura
- Muon Optimizer: Um novo otimizador que garante convergência mais rápida e estável durante o treinamento.
- mHC (Manifold-Constrained Hyper-Connections): Uma evolução das conexões residuais que melhora a estabilidade de sinais em redes muito profundas.
- Quantização FP4: Uso de precisão ultra-baixa (4-bits) para pesos de especialistas e cache, permitindo rodar modelos gigantes em hardware comum.
