Pular para conteúdo
Voltar aos artigos
AI/AGI14分

Fine-tuning de LLMs open source 2026: dados sintéticos, variantes DPO e modelos específicos

Open LLM Fine-Tuning 2026: Synthetic Data, DPO Variants, Japanese-Specific Models

山本 健一Applied Research Lead
2026-04-2214分
Fine-TuningDPOSynthetic DataJapanese LLMaxolotl

A Era dos Dados Sintéticos

O cenário do fine-tuning de LLMs open source em 2026 passou por uma mudança de paradigma completa: de "anotação humana como centro" (2023-2024) para "dados sintéticos gerados por modelos professores como centro". Datasets de alta qualidade "destilados" de modelos fechados de ponta como Claude Opus 4.7, GPT-5 e Gemini 2.5 Ultra foram publicados abertamente, e modelos base na faixa de 7B a 13B passaram a adquirir capacidade de seguimento de instruções equivalente à de modelos de 70B de 2024.

Este artigo organiza as melhores práticas de abril de 2026 em cinco eixos: geração de dados, algoritmos, especialização em japonês, receitas reprodutíveis e ética.

Procedimento Padrão para Destilação de Modelos Professores

A filosofia de "textbook-quality data" pioneirada pela série Phi da Microsoft foi refinada ainda mais em 2026. Em datasets da comunidade que reproduziram a receita do Phi-5/Phi-5-mini, o seguinte pipeline se tornou padrão.

  • Extração de dados semente: extrair os 5% com melhor pontuação de qualidade do Common Crawl, GitHub, arXiv e Stack Exchange
  • Geração de perguntas pelo modelo professor: pedir ao Claude Opus 4.7 "10 perguntas que um pós-graduando faria sobre este documento"
  • Geração de respostas com CoT: gerar respostas com processo de raciocínio incluído usando GPT-5, com verificação de consistência interna
  • Balanceamento de dificuldade: misturar fácil, médio e difícil na proporção 3:5:2, com comprimento de 200 a 4.000 tokens
  • Rejection sampling: pontuar com outro modelo professor e descartar os 30% inferiores

O dataset MAP-Neo-v2 publicado em março de 2026 (2,1T tokens, CC-BY-4.0) é um corpus multilíngue japonês-inglês-chinês construído com esse pipeline; o resultado do pré-treinamento contínuo baseado no Llama 3 8B, que custou o equivalente a 3 bilhões de ienes em recursos computacionais, está disponível gratuitamente.

Como Escolher entre DPO / IPO / KTO

Os algoritmos de aprendizado por preferência passaram pela era do RLHF e os métodos offline com menor custo computacional se tornaram dominantes. A escolha em 2026 é a seguinte.

  • DPO (Direct Preference Optimization): primeira escolha quando há dados de preferência em pares em abundância. Implementação simples, custo computacional 1/5 comparado ao PPO. Porém, resistência a reward hacking é menor que PPO.
  • IPO (Identity Preference Optimization): resolve teoricamente o problema de overfitting do DPO. Supera o DPO especialmente em datasets pequenos (menos de 10.000 pares).
  • KTO (Kahneman-Tversky Optimization): não requer pares, aprende apenas com rótulos binários de "bom/ruim". Grande vantagem prática de poder usar diretamente logs de thumbs up/down de usuários.
  • SimPO: melhora o DPO sem modelo de referência. Redução de 40% no uso de memória, com manutenção do desempenho. Aproximando-se do padrão de 2026.
  • RLAIF (AI Feedback): substitui anotadores humanos por Claude/GPT. Custo 1/100, qualidade 95% da anotação humana.

```yaml # Exemplo de configuração SimPO no axolotl (base Qwen 3 7B) base_model: Qwen/Qwen3-7B-Base rl: simpo simpo_gamma: 1.4 simpo_beta: 2.0 datasets: - path: argilla/ultrafeedback-binarized-preferences-cleaned type: chatml.ultra learning_rate: 5.0e-7 num_epochs: 1 sample_packing: true gradient_checkpointing: true adapter: lora lora_r: 64 lora_alpha: 128 ```

O Estado Atual dos Modelos Especializados em Japonês

Os LLMs em japonês em 2026 seguiram decisivamente a rota de aprendizado contínuo sobre modelos base estrangeiros. Organizamos a situação mais recente das três principais linhagens.

Swallow v3 (Tokyo Institute of Technology): pré-treinamento contínuo + fine-tuning de instruções baseado no Llama 4 70B. 600B tokens de corpus em japonês adicionados. JMT-Bench 8,52, Jaster 77,4. Gratuito para uso em pesquisa, uso comercial segue a Llama 4 Community License.

Rinna Nekomata-2 (rinna Inc.): baseado no Qwen 3 72B, Apache 2.0 para uso comercial. Supera o Swallow na fluência de expressões respeitosas, deferentes e documentos de negócios. JMT-Bench 8,47.

Sarashina 2.5 (SB Intuitions): híbrido de treinamento do zero + destilação do Llama 4. Dois tamanhos: 405B e 70B. Como bandeira da IA soberana doméstica, as implementações em finanças, saúde e municípios estão crescendo rapidamente.

A tendência importante de 2026 é que o fine-tuning especializado em japonês foi decomposto em 3 etapas — "seleção do modelo base × dados sintéticos em japonês × aprendizado por preferência leve" — atingindo um nível que qualquer pessoa pode reproduzir com poucas centenas de linhas de YAML no axolotl.

Receitas Reprodutíveis: axolotl x unsloth

O unsloth na versão 2026 melhorou 4,2x a eficiência de memória do QLoRA, chegando ao nível em que o QLoRA de 70B pode ser executado em uma única RTX 4090. O axolotl oferece suporte tanto a treinamento distribuído quanto a aprendizado por preferência, com alta reprodutibilidade em configurações multi-nó e multi-GPU.

O procedimento típico de fine-tuning de instruções em japonês reprodutível é o seguinte.

  • Seleção do modelo base (Qwen 3 7B Base)
  • 500.000 dados sintéticos em japonês (destilação do Claude Opus 4.7, CC-BY-4.0)
  • unsloth + QLoRA r=128, 3 epochs, 18 horas em 1x 3090
  • Fase SimPO: 100.000 pares rinna/ultrafeedback-ja, 6 horas em 1x 4090
  • Avaliação: JMT-Bench, Jaster, elyza-tasks-100

Com custo total estimado de cerca de US$ 180 em nuvem, chegamos à era em que é possível criar modelos em japonês que superam APIs comerciais de 2024.

Ética e Proveniência dos Dados

O que merece ênfase é a importância da proveniência dos dados (data provenance). Mesmo sendo dados sintéticos, os direitos autorais dos dados de treinamento do modelo professor projetam sombra sobre os outputs. Após a entrada em vigor do EU AI Act em 2026, modelos que visam expansão para a Europa têm a obrigação de documentar o seguinte.

  • Lista de licenças dos dados semente (respeito ao robots.txt)
  • Termos de serviço do modelo professor e cláusulas de obras derivadas
  • Método de remoção de PII (informações pessoalmente identificáveis) e precisão dos filtros
  • Avaliação de viés (BBQ-ja, StereoSet-ja, etc.)
  • Procedimento para responder ao "direito ao esquecimento"

O Hugging Face tornou obrigatório o Dataset Cards v2 em março de 2026, e datasets que não contiverem os itens acima foram excluídos da exibição de downloads. Documentar a proveniência é uma iniciativa com alto retorno sobre investimento para uso comercial.

Pontos de Atenção para o Segundo Semestre de 2026

Os loops de auto-aprimoramento (self-play/self-reward) estão migrando da pesquisa para a aplicação prática. São esperados: um sucessor do Self-Rewarding Language Models da Meta, uma implementação pública da Constitutional AI da Anthropic e o surgimento de uma "versão japonesa da Constitutional AI" de origem japonesa. Os especialistas em fine-tuning entram em uma era em que a diferença é determinada não pelos algoritmos em si, mas pela capacidade de design de dados e design de avaliação.

Vamos resolver seus desafios técnicos juntos?

A KGA IT Solutions tem times especializados em AI, cloud e DevOps para entregar a solução ideal para seu problema.

Fale Conosco