La llegada de la era de los datos sintéticos
El fine-tuning de LLMs open-source en 2026 ha completado un cambio de paradigma: del «anotación humana como eje central» de 2023–2024 a los «datos sintéticos generados por modelos maestros». Se han publicado datasets de alta calidad «destilados» de modelos closed-source de vanguardia como Claude Opus 4.7, GPT-5 y Gemini 2.5 Ultra, y ahora los modelos base de tamaño 7B–13B pueden adquirir capacidades de seguimiento de instrucciones equivalentes a las de un modelo de 70B de 2024.
Este artículo organiza las mejores prácticas vigentes en abril de 2026 en cinco ejes: generación de datos, algoritmos, especialización en japonés, recetas reproducibles y ética.
El proceso estándar de destilación con modelos maestros
La filosofía de «datos de calidad de libro de texto» que Microsoft abrió camino con la serie Phi se refinó aún más en 2026. En los datasets de la comunidad que han replicado la receta de Phi-5 / Phi-5-mini, el siguiente pipeline se ha estandarizado.
- Extracción de datos semilla: se extrae el 5 % superior por puntuación de calidad de Common Crawl + GitHub + arXiv + Stack Exchange.
- Generación de preguntas con el modelo maestro: se le pide a Claude Opus 4.7 «10 preguntas que un estudiante de posgrado haría sobre este documento».
- Generación de respuestas con CoT: se generan respuestas con el proceso de razonamiento incluido usando GPT-5, con verificación de autoconsistencia.
- Balanceo de dificultad: mezcla en proporción 3:5:2 de niveles fácil, medio y difícil; longitud entre 200 y 4.000 tokens.
- Rejection sampling: se puntúa con otro modelo maestro y se descarta el 30 % inferior.
El dataset MAP-Neo-v2 publicado en marzo de 2026 (2,1T de tokens, CC-BY-4.0) es un corpus multilingüe inglés-japonés-chino construido con este pipeline. El resultado del entrenamiento continuo previo sobre una base Llama 3 8B, que requirió el equivalente computacional de miles de millones de yenes, se distribuye de forma gratuita.
Cuándo usar DPO / IPO / KTO
Los algoritmos de aprendizaje por preferencias han dejado atrás la era de RLHF y hoy dominan los métodos offline de menor costo computacional. En 2026, la guía de uso es la siguiente.
- DPO (Direct Preference Optimization): primera opción cuando hay abundantes datos de preferencias en pares. Implementación simple, 1/5 del costo computacional de PPO. Sin embargo, tiene menos resistencia al reward hacking que PPO.
- IPO (Identity Preference Optimization): resuelve teóricamente el problema de sobreajuste de DPO. Supera a DPO especialmente con datasets pequeños (menos de 10.000 pares).
- KTO (Kahneman-Tversky Optimization): no requiere pares; solo etiquetas binarias «bueno/malo». Gran ventaja práctica porque permite usar directamente los logs de thumbs up/down de los usuarios.
- SimPO: mejora de DPO que no necesita modelo de referencia. Reduce el uso de memoria en un 40 % manteniendo el rendimiento. Se acerca al estándar de 2026.
- RLAIF (AI Feedback): reemplaza a los anotadores humanos con Claude o GPT. Costo 1/100, calidad del 95 % respecto a la anotación humana.
```yaml # Ejemplo de configuración SimPO en axolotl (base Qwen 3 7B) base_model: Qwen/Qwen3-7B-Base rl: simpo simpo_gamma: 1.4 simpo_beta: 2.0 datasets: - path: argilla/ultrafeedback-binarized-preferences-cleaned type: chatml.ultra learning_rate: 5.0e-7 num_epochs: 1 sample_packing: true gradient_checkpointing: true adapter: lora lora_r: 64 lora_alpha: 128 ```
El estado actual de los modelos especializados en japonés
En 2026, los modelos de LLM en japonés han optado de forma decisiva por la ruta del entrenamiento continuo sobre modelos base en inglés. El estado de las tres principales familias es el siguiente.
Swallow v3 (Instituto de Ciencia de Tokio): entrenamiento continuo previo + instruction tuning sobre Llama 4 70B. Se agregaron 600B tokens de corpus japonés; JMT-Bench 8,52 y Jaster 77,4. Uso gratuito para investigación; uso comercial según la Llama 4 Community License.
Rinna Nekomata-2 (rinna): basado en Qwen 3 72B, con licencia Apache 2.0 para uso comercial. Supera a Swallow en fluidez de lenguaje honorífico, humilde y documentos empresariales; JMT-Bench 8,47.
Sarashina 2.5 (SB Intuitions): híbrido de entrenamiento desde cero y destilación de Llama 4. Dos tamaños: 405B y 70B. Líder de la IA soberana japonesa, con creciente adopción en finanzas, salud y gobiernos locales.
El gran avance de 2026 es que los modelos especializados en japonés se han descompuesto en tres etapas: elección de la base, datos sintéticos en japonés y aprendizaje por preferencias liviano. Y cualquiera puede reproducir el proceso con apenas unas pocas centenas de líneas de YAML en axolotl.
Receta reproducible: axolotl × unsloth
unsloth en su versión 2026 ha mejorado la eficiencia de memoria de QLoRA en 4,2 veces, alcanzando el nivel en que un QLoRA de 70B puede correr en una sola RTX 4090. axolotl soporta tanto entrenamiento distribuido como aprendizaje por preferencias, con alta reproducibilidad en configuraciones multi-nodo y multi-GPU.
El proceso típico reproducible de instruction tuning en japonés es el siguiente.
- Selección del modelo base (Qwen 3 7B Base)
- 500.000 ejemplos de datos sintéticos en japonés (destilados de Claude Opus 4.7, CC-BY-4.0)
- unsloth + QLoRA r=128, 3 epochs, 18 horas en una sola 3090
- Fase SimPO: 100.000 pares de rinna/ultrafeedback-ja, 6 horas en una sola 4090
- Evaluación: JMT-Bench, Jaster, elyza-tasks-100
El costo total, calculado en equivalente en la nube, es de aproximadamente 180 USD. En 2026 ya es posible crear un modelo en japonés que supere a las APIs comerciales de 2024 con ese presupuesto.
Ética y procedencia de datos
Es importante destacar la importancia de la procedencia de los datos (data provenance). Incluso en datos sintéticos, la salida del modelo maestro lleva la sombra de los derechos de autor de sus datos de entrenamiento. Tras la entrada en vigor del AI Act de la UE en 2026, los modelos pensados para el mercado europeo deben documentar lo siguiente.
- Lista de licencias de los datos semilla (incluido si se respetó robots.txt)
- Términos de servicio del modelo maestro y cláusulas sobre obras derivadas
- Método de eliminación de PII (información de identificación personal) y precisión del filtro
- Evaluación de sesgos (BBQ-ja, StereoSet-ja, etc.)
- Procedimiento de respuesta al «derecho al olvido»
En marzo de 2026, Hugging Face hizo obligatorias las Dataset Cards v2 y excluyó de la visualización de descargas los datasets que no incluyan estos campos. Documentar la procedencia es una medida con alta relación costo-beneficio para cualquier uso comercial.
Lo que hay que seguir en la segunda mitad de 2026
Los bucles de automejora (self-play / self-reward) están pasando de la investigación a la fase de uso práctico. Se esperan el sucesor de los Self-Rewarding Language Models de Meta, una implementación pública del Constitutional AI de Anthropic y la aparición de una «versión japonesa del Constitutional AI» de origen japonés. Los especialistas en fine-tuning están entrando en una era donde la diferencia ya no la marca el dominio de los algoritmos, sino la capacidad de diseño de datos y de evaluación.