Definición
Un embedding es una representación numérica de un fragmento de texto (puede ser una palabra, oración, párrafo o documento completo) expresada como un vector de cientos o miles de números. Lo notable es que textos con significado similar quedan cerca en ese espacio numérico, aunque usen palabras distintas: «auto» y «coche» tendrán vectores parecidos; «auto» y «pizza» tendrán vectores muy distintos.
Cómo funciona
Los modelos de embedding (como text-embedding-3-small de OpenAI, o los embeddings de Cohere y Google) toman texto de entrada y producen un array de números flotantes de dimensión fija (por ejemplo, 1536 dimensiones para OpenAI). Este vector se almacena en una base de datos vectorial (Pinecone, Weaviate, pgvector). Cuando buscas algo, tu consulta también se convierte en embedding y el sistema encuentra los vectores más cercanos mediante distancia coseno.
Por qué importa en marketing
Los embeddings son la base técnica de sistemas muy prácticos: búsqueda semántica en tu sitio web (el usuario escribe «zapatillas para correr» y encuentra resultados de «tenis deportivos»), sistemas RAG para chatbots inteligentes, detección de reseñas duplicadas o similares, y motores de recomendación de productos. Sin embeddings, la búsqueda solo puede encontrar coincidencias exactas de palabras.
Ejemplo real
Una tienda en línea de joyería en Mérida implementa búsqueda semántica con embeddings. Antes, si el cliente escribía «regalo de aniversario» no aparecía nada (el catálogo decía «anillos de matrimonio» y «collares para parejas»). Con embeddings, el sistema entiende la intención y muestra los productos relevantes. La tasa de conversión desde la búsqueda aumenta 34%.
Errores comunes
- Usar el modelo de embedding equivocado para el idioma: algunos modelos de embedding son principalmente en inglés y tienen peor desempeño en español. Para contenido en español usa modelos multilingües o modelos entrenados específicamente en español.
- Confundir embeddings con el LLM en sí: son modelos distintos con precios distintos. Generar embeddings es mucho más barato que generar texto con un LLM.
- No actualizar los embeddings cuando cambia el contenido: si cambias precios o descripciones en tu tienda, debes regenerar los embeddings de esos productos. Un índice desactualizado produce resultados incorrectos.
En Weblindrome ofrecemos transformación digital para PyMEs mexicanas. Solicita un diagnóstico gratuito.