KGA는 어떤 IT 서비스를 제공하나요?

KGA는 소프트웨어 설치·설정, SaaS 시스템 유지보수, 애플리케이션 설정 대행, 기술 지원, 디지털 컨설팅(웹사이트 제작 포함), 보안 서비스, 데이터 관리·백업 등 종합적인 IT 지원 서비스를 제공합니다.

서비스 지역은 어디인가요?

시즈오카현 코사이시를 거점으로 일본 전국에 원격 지원을 제공합니다. 방문 지원은 도카이 지역을 중심으로 대응합니다.

계약 전에 상담이 가능한가요?

네, 초기 상담과 견적은 완전히 무료입니다. 고객의 IT 과제를 듣고 최적의 솔루션을 제안합니다.

긴급 지원이 가능한가요?

네, 프리미엄 플랜은 24시간 긴급 대응이 가능합니다. 스탠다드 플랜도 영업시간 내 우선 대응을 제공합니다.

해외 TV 앱 설정도 가능한가요?

네, 해외 TV 애플리케이션 및 미디어 플레이어의 설치·설정을 지원합니다. 합법적인 해외 콘텐츠 접근 환경을 구축해 드립니다.

다국어 지원이 가능한가요?

일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어의 9개 언어로 지원을 제공합니다.

초기 비용이나 숨겨진 요금이 있나요?

없습니다. 표시된 모든 가격은 세금이 포함된 최종 금액입니다. 초기 비용, 숨겨진 요금, 예상치 못한 청구가 일절 발생하지 않습니다. 표시된 그대로 결제하시면 됩니다.

나중에 플랜을 변경할 수 있나요?

네, 언제든지 업그레이드, 다운그레이드, 해지하실 수 있습니다. 업그레이드는 즉시 적용되며 차액은 일할 계산됩니다. 다운그레이드는 다음 갱신 주기부터 적용됩니다.

이용 가능한 결제 수단은 무엇인가요?

Komoju를 통해 주요 신용카드(Visa, Mastercard, JCB, American Express)를 이용하실 수 있으며, 일본 내 계좌이체 및 편의점 결제도 지원합니다. 비즈니스 IT 플랜 고객에게는 세금계산서 발행도 가능합니다.

환불이 가능한가요?

네. 모든 연간 플랜에 대해 14일 전액 환불 보장을 제공하며, 사유를 묻지 않습니다. 월 정기 비즈니스 IT 플랜은 언제든지 해지 가능하며 미사용 기간에 대해 일할 환불됩니다.

연간 플랜과 비즈니스 IT 플랜의 차이는 무엇인가요?

연간 플랜은 개인 및 소규모 팀을 위한 앱 설정과 지원을 제공합니다. 비즈니스 IT 플랜은 웹사이트 개발, 시스템 운영, 자동화, 보안, 전담 계정 매니저까지 포함된 기업용 종합 월 구독 서비스입니다.

한국어로도 지원되나요?

네. 일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어 9개 언어로 이메일, 채팅, 화상 회의를 통해 완벽하게 지원해 드립니다.

임베딩 모델 2026 전망: text-embedding-3-large·Voyage-3·Cohere Embed v4·BGE-M3·Jina v3 — KGA Tech Blog

임베딩 모델이 '성능 차이의 주전장'으로 돌아온 이유

년의 RAG 붐 초기, 임베딩 모델은 'text-embedding-ada-002면 충분하다'고 여겨져 차별화 요소로서 경시되기 쉬웠습니다. 2026년의 상황은 전혀 다릅니다. LLM의 생성 성능이 일부 태스크에서 포화에 가까워지는 한편, Retrieval 측에서 놓치는 정보가 RAG 전체의 상한을 결정한다는 것이 공통 인식이 되어, 임베딩 모델의 선정과 튜닝이 가장 ROI가 높은 투자 영역으로 복권되었습니다.

Hugging Face의 MTEB(Massive Text Embedding Benchmark) 리더보드는 2026년 4월 시점에서 200개를 넘는 모델이 랭크인되어 있지만, 일본어 프로덕트에서 실용적인 선택지가 되는 것은 10개 모델 전후로 좁혀집니다. 본고에서는 OpenAI, Voyage, Cohere, BAAI, Jina를 횡단하여, MTEB/BEIR/JMTEB의 점수와 구현상의 다루기 쉬움을 나란히 놓습니다.

2026년 4월의 점수 표(요약)

OpenAI text-embedding-3-large: MTEB 64.6, JMTEB 75.2, 3,072차원, 8,192 tokens, $0.13/M tokens
OpenAI Embed-4 (2026/02 릴리스): MTEB 68.9, JMTEB 79.8, 4,096차원, 32k tokens, $0.18/M tokens
Voyage-3-large: MTEB 67.8, BEIR 58.3, 1,024/2,048/4,096차원, 32k tokens, $0.18/M tokens
Voyage-3: MTEB 64.2, 1,024차원, 32k tokens, $0.06/M tokens(비용 대비 성능 최강 클래스)
Cohere Embed v4: MTEB 68.1, JMTEB 77.5, 1,536차원, 128k tokens 대응, $0.12/M tokens, multimodal
BGE-M3 (BAAI): MTEB 59.4, JMTEB 73.1, 1,024차원, 8,192 tokens, OSS (MIT)
Jina Embeddings v3: MTEB 65.5, JMTEB 74.8, 1,024차원(Matryoshka), 8,192 tokens, OSS + API

점수만 보면 Embed-4와 Voyage-3-large가 정상이지만, '본番에서 무엇을 사용할 것인가'는 다음 4가지 축으로 결정됩니다: (1) 도메인에서의 파인튜닝 가능성, (2) 레이턴시와 차원, (3) 다국어/일본어 성능, (4) 데이터 월경 컴플라이언스입니다.

일본어 성능: JMTEB가 효과적

JMTEB는 도쿄공업대학 Okazaki 연구실 등이 정비한 일본어판 MTEB로, Retrieval, STS, Classification, Clustering, Reranking을 종합 평가합니다. 영어 MTEB에서 상위라도 일본어에서는 순위가 크게 움직입니다.

년 4월 시점의 JMTEB 경향:

일본어 Retrieval 서브셋에서는 Embed-4 > Voyage-3-large > Cohere Embed v4 > BGE-M3 > text-embedding-3-large
STS(문장 유사도)에서는 Cohere Embed v4가 수위. 일본어의 경어·표현 바리에이션에 강함
다국어 횡단(영일 semantic search)에서는 BGE-M3가 예상 외로 선전하며, Voyage-3-large와 근소한 차이

국내 금융·공공에서 데이터 월경이 금지되는 프로젝트에서는 OpenAI/Voyage/Cohere를 사용할 수 없으며, BGE-M3를 셀프호스트하는 것 외에는 방법이 없습니다. 2026년은 Llama.cpp와 vLLM에서 GGUF/AWQ 양자화된 BGE-M3를 H100 1장으로 2,000 req/s 처리할 수 있어, 온프레미스 RAG의 사실상 표준 임베딩으로 자리잡았습니다.

Matryoshka Representation: 차원을 계층화한다

Voyage-3와 Jina v3, OpenAI text-embedding-3-*에 공통되는 2026년의 중요 기술이 Matryoshka Representation Learning(MRL)입니다. 1개의 모델에서 얻은 벡터의 앞쪽 k차원만 사용해도 충분한 의미를 유지하도록, 학습 시에 손실 함수를 계층화하는 기법입니다.

종래에는 '3,072차원이면 고정밀이지만 무겁고, 256차원으로 줄이면 정밀도가 무너진다'는 것이었는데, MRL 대응 모델에서는 '3,072차원으로 인덱스화해두고, first-stage 검색은 256차원으로 고속으로, second-stage에서 3,072차원 전체를 사용하여 재순위 매기기'라는 두 단계 구성이 가능해졌습니다.

```python from openai import OpenAI import numpy as np

client = OpenAI() resp = client.embeddings.create( model="text-embedding-3-large", input=texts, dimensions=256, # MRL로 앞쪽 256차원만 반환 ) short_vecs = np.array([d.embedding for d in resp.data])

# full 3,072차원 버전은 별도 취득하여 풀 재순위 매기기에 사용 resp_full = client.embeddings.create( model="text-embedding-3-large", input=texts, ) full_vecs = np.array([d.embedding for d in resp_full.data]) ```

억 벡터를 3,072차원으로 보유하면 원시 데이터만으로 1.2TB가 됩니다. MRL로 256차원으로 트리밍하면 100GB까지 줄어들며, HNSW 구축도 메모리 상주도 현실적이 됩니다. 이는 Qdrant/Weaviate의 multi-vector 기능과 조합하면 더욱 강력합니다.

ColBERT와 Late Interaction

년, dense 벡터 단독이 아니라 Late Interaction(ColBERT 계열)을 구현하는 본番 RAG가 증가하였습니다. ColBERT는 문서를 1개의 벡터로 압축하지 않고, 토큰 단위의 벡터군으로 보유하여, 쿼리 측의 토큰 벡터와 MaxSim 연산으로 유사도를 취합니다.

장문 문서에서의 뉘앙스 보지력이 dense 단독보다 격단적으로 높음
스토리지 비용은 dense의 10~50배(토큰 수에 따라 다름)
Qdrant 1.12, Vespa, Weaviate 1.28이 multi-vector 네이티브 지원

Jina-ColBERT-v2나 ColBERTv2(Stanford)는 MTEB 비대칭에서 dense top 모델에 필적하는 Retrieval 성능을 내면서, 학습 데이터에서 미묘하게 벗어난 도메인에서도 무너지기 어렵습니다. 장문 계약서, 논문, 소스 코드 등 '단일 벡터로는 담을 수 없는' 도메인에서 특히 효과적입니다.

```python from ragatouille import RAGPretrainedModel

rag = RAGPretrainedModel.from_pretrained("jinaai/jina-colbert-v2") rag.index( collection=documents, index_name="contracts", max_document_length=512, split_documents=True, ) hits = rag.search("액정 패널의 보증 기간에 관한 조항", k=20) ```

도메인 특화 파인튜닝

범용 임베딩 모델은 폭넓게 어느 정도 강하지만, 전문 영역(의료, 법무, 사내 용어)에서는 반드시 집니다. 2026년은 대조 학습 기반의 파인튜닝이 몇 시간 만에 돌릴 수 있는 툴체인이 갖춰졌습니다.

sentence-transformers 3.x: `SentenceTransformerTrainer`로 LoRA 포함 파인튜닝
Voyage Fine-tuning API: 자사 도메인 쿼리/문서 페어로부터 2시간 만에 전용 모델 생성
Cohere Custom Models: Rerank와 Embed 양쪽을 도메인 학습 가능

KGA의 의료계 프로젝트에서는, BGE-M3를 5만 페어의 사내 Q&A로 파인튜닝하여, JMTEB의 의료 Retrieval 서브셋에서 8포인트, 사내 테스트 세트에서 14포인트의 nDCG@10 향상을 달성하였습니다. 범용 최강 모델에 대한 의존을 끊을 수 있다는 것의 의미는 큽니다.

선정 규칙

폭넓은 도메인, 영어 중심, API 허용 → Voyage-3-large
일본어 중심, 장문 128k가 필요 → Cohere Embed v4
온프레미스 필수, MIT 라이선스 → BGE-M3
비용 대비 성능 최우선 → Voyage-3 또는 text-embedding-3-small
이미지 + 텍스트 통합 검색 → Cohere Embed v4 (multimodal)
장문 뉘앙스 최우선 → Jina-ColBERT-v2(Late Interaction)

임베딩은 '모델을 1개 선택하고 끝'이 아니라, first-stage dense + second-stage Late Interaction + domain reranker의 계층 설계가 2026년의 본番 형태입니다.

임베딩 모델 2026 전망: text-embedding-3-large·Voyage-3·Cohere Embed v4·BGE-M3·Jina v3