Criador da arquitetura Transformer lança modelo de IA open source focado em código

Ashish Vaswani, um dos engenheiros por trás do ChatGPT, apresenta o Rnj-1: um modelo de 8 bilhões de parâmetros que supera concorrentes em benchmarks de programação. O que isso significa para o mercado?

08 de dez. de 2025Value iT

Criador da arquitetura Transformer lança modelo de IA open source focado em código

Quando Ashish Vaswani publicou o paper "Attention Is All You Need" em 2017, poucos imaginavam que a arquitetura Transformer revolucionaria a indústria de tecnologia. Sete anos depois, o mesmo engenheiro está de volta com uma nova aposta: o Rnj-1, um modelo de IA open source otimizado para tarefas de programação.

A movimentação importa porque sinaliza uma mudança no mercado de IA para desenvolvedores. Enquanto OpenAI, Google e Anthropic disputam o segmento premium com modelos fechados, uma nova geração de alternativas abertas começa a competir de igual para igual — às vezes, superando os incumbentes.

O que é o Rnj-1

O modelo foi desenvolvido pela Essential AI, startup fundada por Vaswani após sua saída do Google. Com 8 bilhões de parâmetros, o Rnj-1 é significativamente menor que os modelos de ponta da OpenAI ou Anthropic, mas foi projetado especificamente para tarefas de código e raciocínio científico.

O nome homenageia Srinivasa Ramanujan, matemático indiano conhecido por contribuições extraordinárias feitas sem acesso a educação formal — uma metáfora para modelos que fazem mais com menos.

Especificações técnicas

O modelo existe em duas versões:

Rnj-1 Base: para fine-tuning e aplicações customizadas
Rnj-1 Instruct: otimizado para seguir instruções, pronto para uso em assistentes de código

Ambos são baseados na arquitetura Gemma 3 do Google e suportam contexto de até 32 mil tokens — suficiente para analisar arquivos de código extensos ou múltiplos arquivos simultaneamente.

Por que os resultados chamam atenção

Em benchmarks padronizados de programação, o Rnj-1 apresentou desempenho surpreendente:

HumanEval+ e BigCodeBench. Esses testes avaliam a capacidade do modelo de gerar código funcional a partir de descrições em linguagem natural. O Rnj-1 superou modelos com o dobro ou triplo de parâmetros.

SWE-bench. Benchmark que simula tarefas reais de engenharia de software, como correção de bugs em repositórios open source. O modelo mostrou capacidade de entender contexto amplo e propor soluções coerentes.

Function Calling (UC Berkeley). Teste de capacidade do modelo de chamar funções e APIs corretamente. O Rnj-1 obteve resultados superiores ao gpt-oss-20b da OpenAI — um modelo com mais do que o dobro de parâmetros.

Esses números sugerem que otimização arquitetural e treinamento focado podem compensar a vantagem bruta de escala.

O contexto maior: IA open source ganhando tração

O lançamento do Rnj-1 não é um evento isolado. Faz parte de um movimento mais amplo:

Meta liberou a família LLaMA, que se tornou base para dezenas de projetos de IA Mistral lançou modelos que rivalizam com GPT-3.5 em qualidade, mas são abertos DeepSeek surpreendeu o mercado com modelos de raciocínio de código aberto

Para empresas, isso significa mais opções. Modelos open source podem ser executados em infraestrutura própria, customizados para domínios específicos e auditados internamente — algo impossível com APIs fechadas.

O que isso significa para desenvolvedores e empresas

Para desenvolvedores individuais, o Rnj-1 representa mais uma ferramenta no arsenal. A possibilidade de rodar localmente, sem depender de APIs pagas, é atraente para projetos pessoais e experimentação.

Para empresas, o cenário é mais nuançado. Modelos open source oferecem controle e potencial economia, mas exigem infraestrutura e expertise para deploy e manutenção. A decisão entre usar APIs gerenciadas (Copilot, ChatGPT) ou hospedar modelos próprios depende de volume de uso, requisitos de privacidade e capacidade técnica.

Para o mercado como um todo, a competição é positiva. Mais opções significam preços mais baixos, inovação mais rápida e menor dependência de poucos fornecedores.

Infraestrutura por trás do Rnj-1

A Essential AI tomou decisões interessantes de infraestrutura:

Usa chips MI300X da AMD combinados com TPUs do Google em sistema unificado
Desenvolveu stack de treinamento baseado em JAX (framework do Google)
Otimiza custos com instâncias spot de cloud computing

Essa arquitetura heterogênea permite escalar treinamento sem depender exclusivamente de GPUs NVIDIA — um gargalo conhecido no mercado atual.

Próximos passos da Essential AI

A empresa sinalizou que o Rnj-1 é apenas o começo. Planos incluem:

Compressão de modelos para rodar em hardware mais acessível
Simulação comportamental para prever ações de código
Computação condicional para processar apenas partes relevantes do modelo

O objetivo declarado é "construir instrumentos abertos de inteligência que sirvam à sociedade" — uma filosofia alinhada com o movimento de IA aberta.

O que acompanhar

Para quem trabalha com desenvolvimento de software ou avalia ferramentas de IA para suas equipes, vale monitorar:

Adoção do Rnj-1 pela comunidade — modelos open source dependem de ecossistema
Benchmarks independentes — resultados divulgados pelo próprio desenvolvedor devem ser validados
Integração com IDEs — a utilidade prática depende de como o modelo é acessado no dia a dia

A corrida pela IA de código está longe de terminar. Mas lançamentos como o Rnj-1 mostram que o jogo não será decidido apenas por quem tem mais dinheiro para treinar modelos maiores.

Fonte: Exame

Value iT

Quer saber mais sobre nossas soluções?

Entre em contato conosco e descubra como podemos ajudar sua empresa.

Fale Conosco