Definición
Un token es la unidad básica en la que los modelos de lenguaje dividen el texto antes de procesarlo. No son palabras exactas: pueden ser sílabas, sufijos, o palabras completas según la frecuencia en el idioma. «Transformación» puede dividirse en 3-4 tokens en español. En inglés, las palabras comunes suelen ser 1 token. Como regla práctica, 1,000 tokens equivalen a aproximadamente 750 palabras en inglés o 600 en español.
El context window (ventana de contexto) es el número máximo de tokens que un modelo puede procesar en una sola interacción, incluyendo el historial de la conversación y la respuesta. Es la «memoria de trabajo» del modelo.
Cómo funciona
Cuando envías un mensaje a Claude o ChatGPT, el modelo convierte tu texto en tokens, procesa toda la conversación (dentro de la ventana de contexto) y genera tokens de respuesta uno por uno. Los tokens de entrada y salida se cuentan por separado y tienen precios distintos (los de salida suelen costar más).
Límites actuales en 2026: Claude 3.7 Sonnet: 200K tokens (~150K palabras). GPT-4o: 128K tokens. Gemini 1.5 Pro: hasta 1 millón de tokens. Estos límites permiten analizar documentos completos, libros cortos o historiales largos de conversación.
Por qué importa en marketing
Entender tokens te ayuda a optimizar costos. Si pagas por API, un prompt innecesariamente largo puede costar 5x más que uno conciso con el mismo resultado. También explica por qué un chatbot «olvida» lo que dijiste hace muchos mensajes: cuando la conversación supera el context window, el modelo pierde acceso a mensajes antiguos.
Ejemplo real
Un equipo de contenido usa Claude para analizar documentos de competidores. Al principio enviaban el documento completo (80K tokens) con una sola pregunta simple. Al aprender de tokenización, empezaron a extraer solo las secciones relevantes (~8K tokens) para la misma pregunta. El costo por análisis bajó 90% con la misma calidad de respuesta.
Errores comunes
- Repetir contexto en cada mensaje: si tienes un system prompt de 5,000 tokens, cada mensaje lo incluye. Usa «prompt caching» (disponible en Claude y GPT-4o) para reducir costos hasta 90% en contexto repetido.
- Ignorar los tokens de salida: los tokens generados cuestan más que los de entrada. Si pides resúmenes largos innecesarios, el costo sube rápido.
- Asumir que más contexto siempre es mejor: los modelos pueden «diluir» la atención cuando el contexto es muy largo. Para preguntas específicas, menos contexto relevante suele dar mejores resultados.
En Weblindrome ofrecemos transformación digital para PyMEs mexicanas. Solicita un diagnóstico gratuito.