Sự ra đời của kỷ nguyên dữ liệu tổng hợp
Tình hình fine-tuning LLM mã nguồn mở năm 2026 đã hoàn toàn chuyển đổi paradigm từ "tập trung vào annotation thủ công" của 2023-2024 sang "tập trung vào dữ liệu tổng hợp từ mô hình giáo viên". Các bộ dữ liệu chất lượng cao được "chưng cất" từ các mô hình closed hàng đầu như Claude Opus 4.7, GPT-5, Gemini 2.5 Ultra được công bố, và ngay cả các mô hình base cỡ 7B~13B cũng có thể đạt khả năng tuân theo chỉ dẫn tương đương 70B của năm 2024.
Bài viết này tổng hợp thực hành tốt nhất tính đến tháng 4 năm 2026 theo 5 trục: tạo dữ liệu, thuật toán, chuyên biệt tiếng Nhật, công thức có thể tái tạo và đạo đức.
Quy trình chuẩn chưng cất mô hình giáo viên
Triết lý "textbook-quality data" mà dòng Phi của Microsoft đi tiên phong đã được tinh chỉnh thêm vào năm 2026. Trong các bộ dữ liệu cộng đồng tái tạo công thức của Phi-5 / Phi-5-mini, pipeline sau đây đã được tiêu chuẩn hóa.
- Trích xuất dữ liệu nguồn: Trích xuất top 5% điểm chất lượng từ Common Crawl + GitHub + arXiv + Stack Exchange
- Tạo câu hỏi bằng mô hình giáo viên: Yêu cầu Claude Opus 4.7 "10 câu hỏi mà sinh viên đại học sẽ hỏi về tài liệu này"
- Tạo câu trả lời kèm CoT: Tạo câu trả lời bao gồm quá trình lập luận bằng GPT-5, kiểm tra tính nhất quán bản thân
- Cân bằng độ khó: Trộn dễ/trung bình/khó theo tỷ lệ 3:5:2, độ dài 200~4000 token
- Rejection sampling: Chấm điểm bằng mô hình giáo viên khác, loại bỏ 30% dưới cùng
Bộ dữ liệu MAP-Neo-v2 (2,1T token, CC-BY-4.0) được công bố tháng 3 năm 2026 là corpus đa ngôn ngữ Nhật-Anh-Trung được xây dựng bằng pipeline này, và kết quả đòi hỏi chi phí tính toán tương đương 3 tỷ yên để tiếp tục pre-training dựa trên Llama 3 8B được phân phối miễn phí.
Cách phân biệt sử dụng DPO / IPO / KTO
Thuật toán học sở thích đã qua thời kỳ RLHF và các phương pháp offline nhẹ về tính toán trở nên chủ đạo. Cách phân biệt sử dụng tính đến năm 2026 như sau.
- DPO (Direct Preference Optimization): Lựa chọn đầu tiên khi có dữ liệu sở thích theo cặp dồi dào. Triển khai đơn giản, chi phí tính toán 1/5 so với PPO. Tuy nhiên, khả năng chống reward hacking yếu hơn PPO.
- IPO (Identity Preference Optimization): Giải quyết lý thuyết vấn đề overfitting của DPO. Đặc biệt vượt trội DPO với bộ dữ liệu quy mô nhỏ (dưới 10.000 cặp).
- KTO (Kahneman-Tversky Optimization): Không cần cặp, có thể học chỉ với nhãn nhị phân "tốt/xấu". Lợi ích thực tế lớn vì có thể tận dụng trực tiếp log thumbs up/down của người dùng.
- SimPO: Cải tiến DPO không cần mô hình tham chiếu. Giảm 40% bộ nhớ sử dụng, duy trì hiệu suất. Đang tiến gần đến tiêu chuẩn năm 2026.
- RLAIF (AI Feedback): Thay thế human labeler bằng Claude / GPT. Chi phí 1/100, chất lượng 95% so với thủ công.
```yaml # Ví dụ cấu hình SimPO trong axolotl (dựa trên Qwen 3 7B) base_model: Qwen/Qwen3-7B-Base rl: simpo simpo_gamma: 1.4 simpo_beta: 2.0 datasets: - path: argilla/ultrafeedback-binarized-preferences-cleaned type: chatml.ultra learning_rate: 5.0e-7 num_epochs: 1 sample_packing: true gradient_checkpointing: true adapter: lora lora_r: 64 lora_alpha: 128 ```
Đỉnh cao của mô hình chuyên biệt tiếng Nhật
LLM tiếng Nhật bước vào năm 2026, con đường tiếp tục học dựa trên mô hình base nước ngoài đã trở nên chiếm ưu thế quyết định. Tổng hợp tình hình mới nhất của 3 dòng chính.
Swallow v3 (Tokyo Institute of Technology): Tiếp tục pre-training + instruction tuning dựa trên Llama 4 70B. Bổ sung 600B token corpus tiếng Nhật, JMT-Bench 8,52, Jaster 77,4. Miễn phí cho mục đích nghiên cứu, thương mại tuân theo Llama 4 Community License.
Rinna Nekomata-2 (rinna): Dựa trên Qwen 3 72B, Apache 2.0 có thể sử dụng thương mại. Vượt Swallow về tính trôi chảy của kính ngữ, khiêm tốn ngữ và văn bản kinh doanh, JMT-Bench 8,47.
Sarashina 2.5 (SB Intuitions): Hybrid học từ đầu + chưng cất Llama 4. 2 kích thước: 405B và 70B. Là cờ đầu của AI chủ quyền nội địa, số lượng triển khai trong tài chính, y tế, cơ quan chính quyền địa phương tăng nhanh.
Xu hướng quan trọng năm 2026 là mô hình chuyên biệt tiếng Nhật được phân tách thành 3 giai đoạn: "lựa chọn base × dữ liệu tổng hợp tiếng Nhật × học sở thích nhẹ", và đã đạt mức mà ai cũng có thể tái tạo với vài trăm dòng YAML của axolotl.
Công thức có thể tái tạo: axolotl × unsloth
unsloth phiên bản 2026 cải thiện hiệu quả bộ nhớ của QLoRA gấp 4,2 lần, đạt mức chạy được 70B QLoRA trên một thẻ RTX 4090 duy nhất. axolotl hỗ trợ cả học phân tán và học sở thích, có tính tái tạo cao trong cấu hình multi-node multi-GPU.
Quy trình tái tạo điển hình cho instruction tuning tiếng Nhật như sau.
- Lựa chọn mô hình base (Qwen 3 7B Base)
- Dữ liệu tổng hợp tiếng Nhật 500.000 mẫu (chưng cất Claude Opus 4.7, CC-BY-4.0)
- unsloth + QLoRA r=128, 3 epoch, 18 giờ trên một thẻ 3090
- Giai đoạn SimPO: 100.000 cặp rinna/ultrafeedback-ja, 6 giờ trên một thẻ 4090
- Đánh giá: JMT-Bench, Jaster, elyza-tasks-100
Tổng chi phí khoảng $180 quy đổi cloud, đã đến thời đại có thể tạo mô hình tiếng Nhật vượt qua API thương mại của năm 2024.
Đạo đức và xuất xứ dữ liệu
Cần nhấn mạnh tầm quan trọng của xuất xứ dữ liệu (data provenance). Ngay cả dữ liệu tổng hợp, bản quyền của dữ liệu nguồn gốc của mô hình giáo viên cũng để lại bóng. Sau khi EU AI Act có hiệu lực năm 2026, các mô hình dự kiến triển khai ở châu Âu có nghĩa vụ lập tài liệu các nội dung sau.
- Danh sách giấy phép dữ liệu nguồn (có tôn trọng robots.txt không)
- ToS của mô hình giáo viên và điều khoản tác phẩm phái sinh
- Phương pháp loại bỏ PII (thông tin cá nhân có thể xác định) và độ chính xác của bộ lọc
- Đánh giá thiên lệch (BBQ-ja, StereoSet-ja v.v.)
- Quy trình đối phó "quyền được lãng quên"
Hugging Face đã bắt buộc Dataset Cards v2 vào tháng 3 năm 2026, và các bộ dữ liệu không ghi các mục trên bị loại khỏi hiển thị downloads. Nếu sử dụng thương mại, việc lập tài liệu xuất xứ là biện pháp có hiệu quả đầu tư cao.
Điểm chú ý nửa sau năm 2026
Vòng lặp tự cải thiện (self-play / self-reward) đang chuyển từ nghiên cứu sang giai đoạn thực dụng. Kế tiếp của Self-Rewarding Language Models của Meta, triển khai công khai của Anthropic Constitutional AI và sự xuất hiện của "Constitutional AI phiên bản tiếng Nhật" do Nhật Bản tạo ra được kỳ vọng. Các chuyên gia fine-tuning đã bước vào thời đại mà sự khác biệt được tạo ra không phải từ bản thân thuật toán mà từ năng lực thiết kế dữ liệu và thiết kế đánh giá.