DeepSeek-V4: A Fronteira da Inteligência com Contexto de Milhões

Benjamin

2 semanas atrás

O DeepSeek-V4 não é apenas mais um modelo grande; é uma aula de engenharia de eficiência. Ele prova que é possível ter inteligência de nível “Pro” com custos de processamento de contexto 90% menores que a geração anterior.

O DeepSeek-V4 chega focado em quebrar a barreira da eficiência computacional, permitindo processar 1 milhão de tokens de forma nativa e extremamente barata em termos de recursos.

Esse texto é baseado no artigo publicado pela empresa:
DeepSeek_V4.pdf · deepseek-ai/DeepSeek-V4-Pro at main

1. Novas Arquiteturas de Eficiência

A grande inovação está em como o modelo “enxerga” sequências longas sem explodir o consumo de memória (KV Cache):

Hybrid Attention (CSA & HCA): O modelo combina duas técnicas de compressão. A CSA (Compressed Sparse Attention) comprime o histórico de tokens e foca apenas nas partes mais relevantes. A HCA (Heavily Compressed Attention) aplica uma compressão ainda mais agressiva para manter o contexto denso acessível.
Redução Drástica de Custos: Em comparação ao DeepSeek-V3.2, o V4-Pro utiliza apenas 10% do KV Cache e 27% dos FLOPs (esforço computacional) para lidar com o mesmo milhão de tokens.

2. Os Dois Novos Modelos

A série conta com duas versões principais baseadas em Mixture-of-Experts (MoE):

DeepSeek-V4-Pro: 1.6 trilhão de parâmetros totais, com 49 bilhões ativos por token. É o novo estado da arte para modelos abertos, aproximando-se de modelos proprietários como Gemini 3.1 Pro e GPT-5.4 em tarefas de raciocínio.
DeepSeek-V4-Flash: 284 bilhões de parâmetros totais, com apenas 13 bilhões ativos. Apesar de menor, ele supera o DeepSeek-V3.2 em quase todos os benchmarks, sendo ideal para aplicações rápidas e baratas.

3. Três Modos de Raciocínio (Thinking)

O documento introduz formas de escalar o “pensamento” do modelo conforme a necessidade:

Non-think: Respostas rápidas e intuitivas para tarefas rotineiras.
Think High: Análise lógica para problemas complexos e planejamento.
Think Max: O esforço máximo de raciocínio, onde o modelo estressa cada hipótese antes de responder, sendo superior em benchmarks acadêmicos e matemáticos.

4. Capacidades Agênticas e Escrita

Agentes de Código: O V4-Pro se destaca em tarefas de engenharia de software (bug fixing, refatoração), aproximando-se da performance do Claude Opus 4.5.
Pesquisa Agêntica: O modelo agora pode realizar buscas na web de forma iterativa, “pensando” e refinando a busca até encontrar a resposta precisa.

5. Inovações de Infraestrutura

Muon Optimizer: Um novo otimizador que garante convergência mais rápida e estável durante o treinamento.
mHC (Manifold-Constrained Hyper-Connections): Uma evolução das conexões residuais que melhora a estabilidade de sinais em redes muito profundas.
Quantização FP4: Uso de precisão ultra-baixa (4-bits) para pesos de especialistas e cache, permitindo rodar modelos gigantes em hardware comum.