Quais serviços de TI a KGA oferece?

A KGA oferece serviços abrangentes de suporte de TI, incluindo instalação de software, manutenção de sistemas SaaS, configuração de aplicativos, suporte técnico, consultoria digital (incluindo criação de sites), serviços de segurança e gerenciamento de dados e backup.

Quais áreas vocês atendem?

Sediados em Kosai, Shizuoka, oferecemos suporte remoto em todo o Japão. Atendimento presencial concentrado na região de Tokai.

É possível consultar antes de contratar?

Sim, a consulta inicial e orçamentos são completamente gratuitos. Ouviremos seus desafios de TI e proporemos a solução ideal.

Há suporte de emergência?

Sim, o plano Premium inclui suporte de emergência 24 horas. O plano Standard também oferece atendimento prioritário em horário comercial.

Vocês configuram apps de TV internacionais?

Sim, oferecemos suporte para instalação e configuração de aplicativos de TV internacionais e media players. Ajudamos a configurar ambientes para acesso legal a conteúdo internacional.

Oferecem suporte em múltiplos idiomas?

Atendemos em 9 idiomas: japonês, inglês, português, coreano, chinês, malaio, filipino, vietnamita e espanhol.

Existe alguma taxa de setup ou custo oculto?

Não. Todos os preços exibidos são finais e incluem impostos. Não há taxas de setup, cobranças ocultas ou faturas-surpresa. O valor que você vê é exatamente o que paga.

Posso trocar de plano depois?

Sim. Você pode fazer upgrade, downgrade ou cancelar a qualquer momento. Upgrades entram em vigor imediatamente e a diferença é calculada proporcionalmente. Downgrades valem a partir do próximo ciclo de renovação.

Quais formas de pagamento vocês aceitam?

Aceitamos todos os principais cartões de crédito (Visa, Mastercard, JCB, American Express) via Komoju, além de transferência bancária e pagamento em lojas de conveniência no Japão. Pagamento via boleto/fatura está disponível para clientes do Business IT Plan.

Vocês oferecem reembolso?

Sim. Oferecemos garantia de reembolso de 14 dias em todos os planos anuais — sem perguntas. Assinaturas mensais do Business IT Plan podem ser canceladas a qualquer momento, com reembolso proporcional do período não utilizado.

Qual a diferença entre os planos anuais e o Business IT Plan?

Os planos anuais cobrem configuração e suporte de apps para indivíduos e pequenas equipes. O Business IT Plan é uma assinatura mensal abrangente para empresas que precisam de desenvolvimento web, gerenciamento de sistemas, automação, segurança e um gerente de conta dedicado.

Vocês oferecem suporte em português?

Sim. Nossa equipe oferece suporte multilíngue completo em japonês, inglês, português, coreano, chinês, malaio, filipino, vietnamita e espanhol — por e-mail, chat e videochamadas agendadas.

Panorama de modelos de embedding 2026: text-embedding-3-large, Voyage-3, Cohere Embed v4 e BGE-M3 — KGA Tech Blog

Por que os modelos de embedding voltaram a ser o principal campo de batalha de performance

No início do boom de RAG em 2023, os modelos de embedding eram considerados "text-embedding-ada-002 é suficiente" e tendiam a ser negligenciados como elemento diferenciador. A situação em 2026 é completamente diferente. Com a performance de geração dos LLMs se aproximando da saturação em alguns tarefas, tornou-se entendimento comum que as informações perdidas no lado do Retrieval determinam o teto de todo o RAG — e a seleção e o ajuste de modelos de embedding voltaram como a área de investimento com maior ROI.

O leaderboard MTEB (Massive Text Embedding Benchmark) do Hugging Face tem mais de 200 modelos ranqueados em abril de 2026, mas as opções práticas para produtos em língua portuguesa se reduzem a cerca de 10 modelos. Neste artigo, comparamos OpenAI, Voyage, Cohere, BAAI e Jina, alinhando os scores de MTEB/BEIR e a praticidade de implementação.

Tabela de scores de abril de 2026 (resumo)

OpenAI text-embedding-3-large: MTEB 64,6 | JMTEB 75,2 | 3.072 dimensões | 8.192 tokens | US$ 0,13/M tokens
OpenAI Embed-4 (lançado em fev/2026): MTEB 68,9 | JMTEB 79,8 | 4.096 dimensões | 32k tokens | US$ 0,18/M tokens
Voyage-3-large: MTEB 67,8 | BEIR 58,3 | 1.024/2.048/4.096 dimensões | 32k tokens | US$ 0,18/M tokens
Voyage-3: MTEB 64,2 | 1.024 dimensões | 32k tokens | US$ 0,06/M tokens (melhor custo-benefício)
Cohere Embed v4: MTEB 68,1 | JMTEB 77,5 | 1.536 dimensões | 128k tokens | US$ 0,12/M tokens | multimodal
BGE-M3 (BAAI): MTEB 59,4 | JMTEB 73,1 | 1.024 dimensões | 8.192 tokens | OSS (MIT)
Jina Embeddings v3: MTEB 65,5 | JMTEB 74,8 | 1.024 dimensões (Matryoshka) | 8.192 tokens | OSS + API

Só pelo score, o Embed-4 e o Voyage-3-large estão no topo — mas "o que usar em produção" é determinado pelos seguintes 4 eixos: (1) possibilidade de fine-tune no domínio, (2) latência e dimensões, (3) performance multilíngue, (4) conformidade com cruzamento de dados.

Performance multilíngue: o MTEB para além do inglês importa

Para avaliar modelos além do inglês, use os leaderboards multilíngues do MTEB (MTEB Multilingual) e benchmarks específicos de idioma como o BEIR. Modelos com alta posição no MTEB inglês podem cair significativamente em rankings para outros idiomas.

Tendências do MTEB Multilingual em abril de 2026:

No subset de Retrieval multilíngue, a ordem é Embed-4 > Voyage-3-large > Cohere Embed v4 > BGE-M3 > text-embedding-3-large
Em STS (similaridade de sentenças), o Cohere Embed v4 lidera, com forte desempenho em variações de formalidade e expressões idiomáticas
Em busca semântica cross-lingual (ex: inglês-português), o BGE-M3 surpreende e fica bem próximo do Voyage-3-large

Em projetos onde o cruzamento de dados é proibido por regulamentações (financeiro, público), OpenAI, Voyage e Cohere ficam fora de cogitação, e não há alternativa além do self-host do BGE-M3. Em 2026, o Llama.cpp e o vLLM processam BGE-M3 quantizado (GGUF/AWQ) a 2.000 req/s com 1 GPU H100, tornando-se o embedding padrão de RAG on-premise.

Matryoshka Representation: hierarquizando as dimensões

Uma tecnologia importante de 2026 comum ao Voyage-3, Jina v3 e OpenAI text-embedding-3-* é o Matryoshka Representation Learning (MRL). É uma técnica que, ao usar apenas as primeiras k dimensões do vetor obtido de um único modelo, ainda preserva significado suficiente, hierarquizando a função de perda durante o treinamento.

Enquanto antes "3.072 dimensões ofereciam alta precisão mas eram pesadas, e reduzir para 256 dimensões prejudicava a precisão", os modelos com suporte a MRL permitem uma abordagem em dois estágios: "indexar com 3.072 dimensões, fazer a busca de primeiro estágio rapidamente com 256 dimensões, e reranquear com 3.072 dimensões completas no segundo estágio".

```python from openai import OpenAI import numpy as np

client = OpenAI() resp = client.embeddings.create( model="text-embedding-3-large", input=texts, dimensions=256, # MRL retorna apenas as primeiras 256 dimensões ) short_vecs = np.array([d.embedding for d in resp.data])

# A versão completa com 3.072 dimensões é obtida separadamente para o reranque completo resp_full = client.embeddings.create( model="text-embedding-3-large", input=texts, ) full_vecs = np.array([d.embedding for d in resp_full.data]) ```

Manter 100 milhões de vetores em 3.072 dimensões exige apenas 1,2 TB de dados brutos. Com MRL cortando para 256 dimensões, isso cai para 100 GB — tornando a construção de HNSW e a manutenção em memória viáveis. Isso é ainda mais poderoso combinado com as funcionalidades de multi-vector do Qdrant/Weaviate.

ColBERT e Late Interaction

Em 2026, RAGs em produção que implementam Late Interaction (família ColBERT) em vez de apenas vetores densos aumentaram. O ColBERT mantém documentos como grupos de vetores por token em vez de comprimi-los em 1 vetor, e calcula a similaridade com vetores de token do lado da query pela operação MaxSim.

Muito maior capacidade de preservar nuances em documentos longos do que um único vetor denso
Custo de armazenamento de 10 a 50 vezes maior que denso (dependendo do número de tokens)
Qdrant 1.12, Vespa e Weaviate 1.28 têm suporte nativo a multi-vector

Jina-ColBERT-v2 e ColBERTv2 (Stanford) atingem performance de Retrieval próxima dos melhores modelos densos em MTEB assimétrico, ao mesmo tempo que são mais robustos para domínios levemente fora dos dados de treinamento. São especialmente eficazes em domínios onde "não é possível comprimir em um único vetor" — como contratos longos, artigos científicos e código-fonte.

```python from ragatouille import RAGPretrainedModel

rag = RAGPretrainedModel.from_pretrained("jinaai/jina-colbert-v2") rag.index( collection=documents, index_name="contracts", max_document_length=512, split_documents=True, ) hits = rag.search("cláusulas relativas ao prazo de garantia de telas de LCD", k=20) ```

Fine-tune especializado por domínio

Modelos de embedding genéricos são medianamente fortes em uma ampla gama de tarefas, mas sempre perdem em áreas especializadas (medicina, direito, terminologia interna). Em 2026, a toolchain para fine-tune baseado em aprendizado contrastivo se consolidou e pode ser executada em horas.

sentence-transformers 3.x: fine-tune com LoRA via `SentenceTransformerTrainer`
Voyage Fine-tuning API: geração de modelo especializado em 2 horas a partir de pares query/documento do domínio próprio
Cohere Custom Models: treinamento de domínio possível tanto para Rerank quanto para Embed

Em um projeto médico da KGA, fizemos fine-tune do BGE-M3 com 50.000 pares de Q&A internos, obtendo uma melhora de 8 pontos no subset médico de Retrieval do MTEB Multilingual e de 14 pontos no nDCG@10 no conjunto de teste interno. O significado de poder se libertar da dependência do modelo genérico mais forte é grande.

Regras de seleção

Domínio amplo, inglês prioritário, API permitida → Voyage-3-large
Português prioritário, documentos longos de 128k necessários → Cohere Embed v4
On-premise obrigatório, licença MIT → BGE-M3
Custo-benefício prioritário → Voyage-3 ou text-embedding-3-small
Busca integrada de imagem + texto → Cohere Embed v4 (multimodal)
Nuances em documentos longos como prioridade máxima → Jina-ColBERT-v2 (Late Interaction)

Embedding não é "escolher um modelo e pronto" — o design em camadas de dense de primeiro estágio + Late Interaction de segundo estágio + reranker de domínio é a forma de produção de 2026.

Panorama de modelos de embedding 2026: text-embedding-3-large, Voyage-3, Cohere Embed v4 e BGE-M3