Value iT

Criador da arquitetura Transformer lança modelo de IA open source focado em código

Ashish Vaswani, um dos engenheiros por trás do ChatGPT, apresenta o Rnj-1: um modelo de 8 bilhões de parâmetros que supera concorrentes em benchmarks de programação. O que isso significa para o mercado?

08 de dez. de 2025Value iT
Criador da arquitetura Transformer lança modelo de IA open source focado em código

Quando Ashish Vaswani publicou o paper "Attention Is All You Need" em 2017, poucos imaginavam que a arquitetura Transformer revolucionaria a indústria de tecnologia. Sete anos depois, o mesmo engenheiro está de volta com uma nova aposta: o Rnj-1, um modelo de IA open source otimizado para tarefas de programação.

A movimentação importa porque sinaliza uma mudança no mercado de IA para desenvolvedores. Enquanto OpenAI, Google e Anthropic disputam o segmento premium com modelos fechados, uma nova geração de alternativas abertas começa a competir de igual para igual — às vezes, superando os incumbentes.

O que é o Rnj-1

O modelo foi desenvolvido pela Essential AI, startup fundada por Vaswani após sua saída do Google. Com 8 bilhões de parâmetros, o Rnj-1 é significativamente menor que os modelos de ponta da OpenAI ou Anthropic, mas foi projetado especificamente para tarefas de código e raciocínio científico.

O nome homenageia Srinivasa Ramanujan, matemático indiano conhecido por contribuições extraordinárias feitas sem acesso a educação formal — uma metáfora para modelos que fazem mais com menos.

Especificações técnicas

O modelo existe em duas versões:

  • Rnj-1 Base: para fine-tuning e aplicações customizadas
  • Rnj-1 Instruct: otimizado para seguir instruções, pronto para uso em assistentes de código

Ambos são baseados na arquitetura Gemma 3 do Google e suportam contexto de até 32 mil tokens — suficiente para analisar arquivos de código extensos ou múltiplos arquivos simultaneamente.

Por que os resultados chamam atenção

Em benchmarks padronizados de programação, o Rnj-1 apresentou desempenho surpreendente:

HumanEval+ e BigCodeBench. Esses testes avaliam a capacidade do modelo de gerar código funcional a partir de descrições em linguagem natural. O Rnj-1 superou modelos com o dobro ou triplo de parâmetros.

SWE-bench. Benchmark que simula tarefas reais de engenharia de software, como correção de bugs em repositórios open source. O modelo mostrou capacidade de entender contexto amplo e propor soluções coerentes.

Function Calling (UC Berkeley). Teste de capacidade do modelo de chamar funções e APIs corretamente. O Rnj-1 obteve resultados superiores ao gpt-oss-20b da OpenAI — um modelo com mais do que o dobro de parâmetros.

Esses números sugerem que otimização arquitetural e treinamento focado podem compensar a vantagem bruta de escala.

O contexto maior: IA open source ganhando tração

O lançamento do Rnj-1 não é um evento isolado. Faz parte de um movimento mais amplo:

Meta liberou a família LLaMA, que se tornou base para dezenas de projetos de IA Mistral lançou modelos que rivalizam com GPT-3.5 em qualidade, mas são abertos DeepSeek surpreendeu o mercado com modelos de raciocínio de código aberto

Para empresas, isso significa mais opções. Modelos open source podem ser executados em infraestrutura própria, customizados para domínios específicos e auditados internamente — algo impossível com APIs fechadas.

O que isso significa para desenvolvedores e empresas

Para desenvolvedores individuais, o Rnj-1 representa mais uma ferramenta no arsenal. A possibilidade de rodar localmente, sem depender de APIs pagas, é atraente para projetos pessoais e experimentação.

Para empresas, o cenário é mais nuançado. Modelos open source oferecem controle e potencial economia, mas exigem infraestrutura e expertise para deploy e manutenção. A decisão entre usar APIs gerenciadas (Copilot, ChatGPT) ou hospedar modelos próprios depende de volume de uso, requisitos de privacidade e capacidade técnica.

Para o mercado como um todo, a competição é positiva. Mais opções significam preços mais baixos, inovação mais rápida e menor dependência de poucos fornecedores.

Infraestrutura por trás do Rnj-1

A Essential AI tomou decisões interessantes de infraestrutura:

  • Usa chips MI300X da AMD combinados com TPUs do Google em sistema unificado
  • Desenvolveu stack de treinamento baseado em JAX (framework do Google)
  • Otimiza custos com instâncias spot de cloud computing

Essa arquitetura heterogênea permite escalar treinamento sem depender exclusivamente de GPUs NVIDIA — um gargalo conhecido no mercado atual.

Próximos passos da Essential AI

A empresa sinalizou que o Rnj-1 é apenas o começo. Planos incluem:

  • Compressão de modelos para rodar em hardware mais acessível
  • Simulação comportamental para prever ações de código
  • Computação condicional para processar apenas partes relevantes do modelo

O objetivo declarado é "construir instrumentos abertos de inteligência que sirvam à sociedade" — uma filosofia alinhada com o movimento de IA aberta.

O que acompanhar

Para quem trabalha com desenvolvimento de software ou avalia ferramentas de IA para suas equipes, vale monitorar:

  1. Adoção do Rnj-1 pela comunidade — modelos open source dependem de ecossistema
  2. Benchmarks independentes — resultados divulgados pelo próprio desenvolvedor devem ser validados
  3. Integração com IDEs — a utilidade prática depende de como o modelo é acessado no dia a dia

A corrida pela IA de código está longe de terminar. Mas lançamentos como o Rnj-1 mostram que o jogo não será decidido apenas por quem tem mais dinheiro para treinar modelos maiores.


Fonte: Exame

V

Value iT

Value iT

Quer saber mais sobre nossas soluções?

Entre em contato conosco e descubra como podemos ajudar sua empresa.

Fale Conosco