A Era dos Dados Sintéticos
O cenário do fine-tuning de LLMs open source em 2026 passou por uma mudança de paradigma completa: de "anotação humana como centro" (2023-2024) para "dados sintéticos gerados por modelos professores como centro". Datasets de alta qualidade "destilados" de modelos fechados de ponta como Claude Opus 4.7, GPT-5 e Gemini 2.5 Ultra foram publicados abertamente, e modelos base na faixa de 7B a 13B passaram a adquirir capacidade de seguimento de instruções equivalente à de modelos de 70B de 2024.
Este artigo organiza as melhores práticas de abril de 2026 em cinco eixos: geração de dados, algoritmos, especialização em japonês, receitas reprodutíveis e ética.
Procedimento Padrão para Destilação de Modelos Professores
A filosofia de "textbook-quality data" pioneirada pela série Phi da Microsoft foi refinada ainda mais em 2026. Em datasets da comunidade que reproduziram a receita do Phi-5/Phi-5-mini, o seguinte pipeline se tornou padrão.
- Extração de dados semente: extrair os 5% com melhor pontuação de qualidade do Common Crawl, GitHub, arXiv e Stack Exchange
- Geração de perguntas pelo modelo professor: pedir ao Claude Opus 4.7 "10 perguntas que um pós-graduando faria sobre este documento"
- Geração de respostas com CoT: gerar respostas com processo de raciocínio incluído usando GPT-5, com verificação de consistência interna
- Balanceamento de dificuldade: misturar fácil, médio e difícil na proporção 3:5:2, com comprimento de 200 a 4.000 tokens
- Rejection sampling: pontuar com outro modelo professor e descartar os 30% inferiores
O dataset MAP-Neo-v2 publicado em março de 2026 (2,1T tokens, CC-BY-4.0) é um corpus multilíngue japonês-inglês-chinês construído com esse pipeline; o resultado do pré-treinamento contínuo baseado no Llama 3 8B, que custou o equivalente a 3 bilhões de ienes em recursos computacionais, está disponível gratuitamente.
Como Escolher entre DPO / IPO / KTO
Os algoritmos de aprendizado por preferência passaram pela era do RLHF e os métodos offline com menor custo computacional se tornaram dominantes. A escolha em 2026 é a seguinte.
- DPO (Direct Preference Optimization): primeira escolha quando há dados de preferência em pares em abundância. Implementação simples, custo computacional 1/5 comparado ao PPO. Porém, resistência a reward hacking é menor que PPO.
- IPO (Identity Preference Optimization): resolve teoricamente o problema de overfitting do DPO. Supera o DPO especialmente em datasets pequenos (menos de 10.000 pares).
- KTO (Kahneman-Tversky Optimization): não requer pares, aprende apenas com rótulos binários de "bom/ruim". Grande vantagem prática de poder usar diretamente logs de thumbs up/down de usuários.
- SimPO: melhora o DPO sem modelo de referência. Redução de 40% no uso de memória, com manutenção do desempenho. Aproximando-se do padrão de 2026.
- RLAIF (AI Feedback): substitui anotadores humanos por Claude/GPT. Custo 1/100, qualidade 95% da anotação humana.
```yaml # Exemplo de configuração SimPO no axolotl (base Qwen 3 7B) base_model: Qwen/Qwen3-7B-Base rl: simpo simpo_gamma: 1.4 simpo_beta: 2.0 datasets: - path: argilla/ultrafeedback-binarized-preferences-cleaned type: chatml.ultra learning_rate: 5.0e-7 num_epochs: 1 sample_packing: true gradient_checkpointing: true adapter: lora lora_r: 64 lora_alpha: 128 ```
O Estado Atual dos Modelos Especializados em Japonês
Os LLMs em japonês em 2026 seguiram decisivamente a rota de aprendizado contínuo sobre modelos base estrangeiros. Organizamos a situação mais recente das três principais linhagens.
Swallow v3 (Tokyo Institute of Technology): pré-treinamento contínuo + fine-tuning de instruções baseado no Llama 4 70B. 600B tokens de corpus em japonês adicionados. JMT-Bench 8,52, Jaster 77,4. Gratuito para uso em pesquisa, uso comercial segue a Llama 4 Community License.
Rinna Nekomata-2 (rinna Inc.): baseado no Qwen 3 72B, Apache 2.0 para uso comercial. Supera o Swallow na fluência de expressões respeitosas, deferentes e documentos de negócios. JMT-Bench 8,47.
Sarashina 2.5 (SB Intuitions): híbrido de treinamento do zero + destilação do Llama 4. Dois tamanhos: 405B e 70B. Como bandeira da IA soberana doméstica, as implementações em finanças, saúde e municípios estão crescendo rapidamente.
A tendência importante de 2026 é que o fine-tuning especializado em japonês foi decomposto em 3 etapas — "seleção do modelo base × dados sintéticos em japonês × aprendizado por preferência leve" — atingindo um nível que qualquer pessoa pode reproduzir com poucas centenas de linhas de YAML no axolotl.
Receitas Reprodutíveis: axolotl x unsloth
O unsloth na versão 2026 melhorou 4,2x a eficiência de memória do QLoRA, chegando ao nível em que o QLoRA de 70B pode ser executado em uma única RTX 4090. O axolotl oferece suporte tanto a treinamento distribuído quanto a aprendizado por preferência, com alta reprodutibilidade em configurações multi-nó e multi-GPU.
O procedimento típico de fine-tuning de instruções em japonês reprodutível é o seguinte.
- Seleção do modelo base (Qwen 3 7B Base)
- 500.000 dados sintéticos em japonês (destilação do Claude Opus 4.7, CC-BY-4.0)
- unsloth + QLoRA r=128, 3 epochs, 18 horas em 1x 3090
- Fase SimPO: 100.000 pares rinna/ultrafeedback-ja, 6 horas em 1x 4090
- Avaliação: JMT-Bench, Jaster, elyza-tasks-100
Com custo total estimado de cerca de US$ 180 em nuvem, chegamos à era em que é possível criar modelos em japonês que superam APIs comerciais de 2024.
Ética e Proveniência dos Dados
O que merece ênfase é a importância da proveniência dos dados (data provenance). Mesmo sendo dados sintéticos, os direitos autorais dos dados de treinamento do modelo professor projetam sombra sobre os outputs. Após a entrada em vigor do EU AI Act em 2026, modelos que visam expansão para a Europa têm a obrigação de documentar o seguinte.
- Lista de licenças dos dados semente (respeito ao robots.txt)
- Termos de serviço do modelo professor e cláusulas de obras derivadas
- Método de remoção de PII (informações pessoalmente identificáveis) e precisão dos filtros
- Avaliação de viés (BBQ-ja, StereoSet-ja, etc.)
- Procedimento para responder ao "direito ao esquecimento"
O Hugging Face tornou obrigatório o Dataset Cards v2 em março de 2026, e datasets que não contiverem os itens acima foram excluídos da exibição de downloads. Documentar a proveniência é uma iniciativa com alto retorno sobre investimento para uso comercial.
Pontos de Atenção para o Segundo Semestre de 2026
Os loops de auto-aprimoramento (self-play/self-reward) estão migrando da pesquisa para a aplicação prática. São esperados: um sucessor do Self-Rewarding Language Models da Meta, uma implementação pública da Constitutional AI da Anthropic e o surgimento de uma "versão japonesa da Constitutional AI" de origem japonesa. Os especialistas em fine-tuning entram em uma era em que a diferença é determinada não pelos algoritmos em si, mas pela capacidade de design de dados e design de avaliação.