Durante muitos anos, o desenvolvimento de modelos de linguagem de grande porte (LLMs – Large Language Models) esteve concentrado em poucas empresas e países. Nomes como GPT, Claude, Gemini, Llama e Qwen dominaram as manchetes e impulsionaram a revolução da inteligência artificial generativa.
No entanto, um movimento vem ganhando força no Brasil: o surgimento de LLMs nacionais, treinados ou adaptados para compreender melhor a língua portuguesa, a cultura brasileira e as necessidades específicas de nosso país.
Mas será que o Brasil já possui seus próprios modelos de IA? E qual a importância disso?
Por que desenvolver LLMs brasileiros?
A motivação vai muito além do orgulho nacional. Um modelo treinado especificamente para o português brasileiro pode compreender melhor:
- expressões regionais;
- termos jurídicos brasileiros;
- legislação nacional;
- contexto histórico e cultural do país;
- exames como ENEM, ENADE e OAB;
- documentos governamentais.
Além disso, existe a questão da soberania tecnológica. Dependência excessiva de plataformas estrangeiras pode representar riscos estratégicos para governos, universidades e empresas.
Da mesma forma que um país investe em infraestrutura energética ou em sistemas de comunicação, possuir capacidade própria em inteligência artificial tende a se tornar um diferencial competitivo nas próximas décadas.
Sabiá: o principal LLM comercial brasileiro
O modelo brasileiro mais conhecido atualmente (meados de 2026) é o Sabiá, desenvolvido pela Maritaca AI.
O Sabiá foi criado com foco explícito no português brasileiro e busca competir em áreas como:
- atendimento ao cliente;
- aplicações governamentais;
- educação;
- análise jurídica;
- automação empresarial.
Uma de suas principais vantagens é a familiaridade com documentos e contextos tipicamente brasileiros, algo que frequentemente desafia modelos treinados predominantemente em inglês.
Tucano: a aposta acadêmica brasileira
No campo científico, destaca-se o Tucano. O projeto segue uma filosofia diferente: disponibilizar modelos abertos para pesquisa e experimentação.
Isso permite que universidades, laboratórios e startups realizem:
- ajustes finos (fine tuning);
- estudos de interpretabilidade;
- desenvolvimento de aplicações locais;
- pesquisas em IA responsável.
Embora seja menor que os gigantes comerciais internacionais, o Tucano representa um importante passo para a independência tecnológica da comunidade acadêmica brasileira.
Rio 3.5 Open: um projeto ousado
Em 2026, o lançamento do Rio 3.5 Open chamou atenção internacional.
O projeto foi apresentado pela empresa pública municipal IplanRIO com a proposta de disponibilizar um modelo aberto de grande porte para a comunidade.
O lançamento gerou entusiasmo, mas também controvérsias técnicas sobre a origem exata dos pesos utilizados no treinamento. Independentemente dessas discussões, o episódio mostrou algo importante: existe interesse crescente no Brasil em participar da fronteira tecnológica da inteligência artificial.
Poucos anos atrás seria difícil imaginar uma prefeitura lançando um LLM com ambições globais.
Os modelos nacionais
O ecossistema brasileiro de LLMs cresceu bastante desde 2023. Além dos modelos já citados, temos também:
- Amazônia IA:
- Desenvolvido pela empresa brasileira WideLabs.
- Forte ênfase em cultura e contexto nacional.
- Infraestrutura hospedada no Brasil.
- Apresentado como um dos primeiros LLMs nativos brasileiros de uso geral.
- Boto/Cabra/Periquito (link para a pesquisa):
- Modelos brasileiros citados em levantamentos acadêmicos sobre LLMs nacionais.
- Faz parte de uma geração de modelos menores focados em português.
- Utilizado principalmente em pesquisas e benchmarking.
- TeenyTinyLlama (link para a pesquisa):
- Família de modelos compactos.
- Código e pesos abertos.
- Entre 160M e 460M parâmetros.
- Foco em execução local e baixo custo.
Comparativo entre os modelos
Um comparativo entre os modelos é mostrado na tabela a seguir.
| Modelo | Organização | Tamanho do modelo | API pública | Principal diferencial |
|---|---|---|---|---|
| Sabiá-4 | Maritaca AI | Não divulgado publicamente | Sim | Melhor modelo comercial brasileiro focado em português e contexto jurídico brasileiro (Maritaca AI) |
| Rio 3.5 Open | IplanRIO | 397B (MoE, ~17B ativos) | Parcial / comunitária | Maior modelo brasileiro open-weight já divulgado |
| Tucano-2 | Polyglot Project | 0,5B a 3,7B parâmetros | Não oficial (self-hosted) | Principal projeto open source brasileiro para português (arXiv) |
| Amazônia IA | WideLabs | Não divulgado | Sim | Forte foco em aplicações empresariais brasileiras |
| Sabiazinho-4 | Maritaca AI | Não divulgado | Sim | Versão menor do Sabiá para menor custo operacional (arXiv) |
Abaixo seguem formas de como acessar os modelos.
| Modelo | API disponível? | Como acessar |
|---|---|---|
| Sabiá-4 | Sim | API compatível com OpenAI (GitHub) |
| Sabiazinho-4 | Sim | API da Maritaca (docs.maritaca.ai) |
| Rio 3.5 Open | Depende da hospedagem | Normalmente via Hugging Face, vLLM ou SGLang |
| Tucano-2 | Não oficial | O usuário hospeda e expõe sua própria API OpenAI-compatible (Hugging Face) |
| Amazônia IA | Sim | Plataforma proprietária da WideLabs |
O futuro
O surgimento de projetos como Sabiá, Tucano e Rio 3.5 Open indica que o Brasil começa a construir competências próprias em inteligência artificial generativa.
Ainda estamos longe de rivalizar com os maiores laboratórios do mundo. Porém, o mais importante é que a participação brasileira deixou de ser apenas consumidora da tecnologia para também atuar como produtora.
