Texto fragmentado en tokens para procesamiento por modelo de lenguaje — Foto: Shahadat Rahman en Unsplash. Los modelos de IA procesan el texto en pequeñas unidades llamadas tokens.

IA y Marketing Digital 3 min de lectura

¿Qué es Token / Context Window en IA?

Por Santiago Kantun

Publicado: 28 de mayo de 2026

Definición

Un token es la unidad básica en la que los modelos de lenguaje dividen el texto antes de procesarlo. No son palabras exactas: pueden ser sílabas, sufijos, o palabras completas según la frecuencia en el idioma. «Transformación» puede dividirse en 3-4 tokens en español. En inglés, las palabras comunes suelen ser 1 token. Como regla práctica, 1,000 tokens equivalen a aproximadamente 750 palabras en inglés o 600 en español.

El context window (ventana de contexto) es el número máximo de tokens que un modelo puede procesar en una sola interacción, incluyendo el historial de la conversación y la respuesta. Es la «memoria de trabajo» del modelo.

Cómo funciona

Cuando envías un mensaje a Claude o ChatGPT, el modelo convierte tu texto en tokens, procesa toda la conversación (dentro de la ventana de contexto) y genera tokens de respuesta uno por uno. Los tokens de entrada y salida se cuentan por separado y tienen precios distintos (los de salida suelen costar más).

Límites actuales en 2026: Claude 3.7 Sonnet: 200K tokens (~150K palabras). GPT-4o: 128K tokens. Gemini 1.5 Pro: hasta 1 millón de tokens. Estos límites permiten analizar documentos completos, libros cortos o historiales largos de conversación.

Por qué importa en marketing

Entender tokens te ayuda a optimizar costos. Si pagas por API, un prompt innecesariamente largo puede costar 5x más que uno conciso con el mismo resultado. También explica por qué un chatbot «olvida» lo que dijiste hace muchos mensajes: cuando la conversación supera el context window, el modelo pierde acceso a mensajes antiguos.

Ejemplo real

Un equipo de contenido usa Claude para analizar documentos de competidores. Al principio enviaban el documento completo (80K tokens) con una sola pregunta simple. Al aprender de tokenización, empezaron a extraer solo las secciones relevantes (~8K tokens) para la misma pregunta. El costo por análisis bajó 90% con la misma calidad de respuesta.

Errores comunes

Repetir contexto en cada mensaje: si tienes un system prompt de 5,000 tokens, cada mensaje lo incluye. Usa «prompt caching» (disponible en Claude y GPT-4o) para reducir costos hasta 90% en contexto repetido.
Ignorar los tokens de salida: los tokens generados cuestan más que los de entrada. Si pides resúmenes largos innecesarios, el costo sube rápido.
Asumir que más contexto siempre es mejor: los modelos pueden «diluir» la atención cuando el contexto es muy largo. Para preguntas específicas, menos contexto relevante suele dar mejores resultados.

En Weblindrome ofrecemos transformación digital para PyMEs mexicanas. Solicita un diagnóstico gratuito.

Preguntas frecuentes

¿Cuántos tokens tiene una página de texto normal?

Una página de texto estándar (aproximadamente 250 palabras en español) equivale a unos 350-400 tokens. Un documento de 10 páginas serían 3,500-4,000 tokens. Esto ayuda a estimar costos antes de procesar documentos grandes.

¿Por qué los textos en español consumen más tokens que en inglés?

Los tokenizadores de los LLMs están optimizados principalmente para inglés, donde las palabras son más cortas y el vocabulario del tokenizador es más completo. En español, palabras más largas y con más variantes morfológicas (conjugaciones, acentos) tienden a dividirse en más tokens.

¿Qué pasa cuando supero el context window?

El modelo deja de procesar texto adicional (y puede dar error), o descarta el texto más antiguo de la conversación automáticamente. El resultado es que el modelo «olvida» partes de la conversación anterior, lo que puede afectar la coherencia de respuestas largas.

¿Cómo puedo contar los tokens antes de enviar un prompt?

OpenAI tiene la librería tiktoken para contar tokens de sus modelos. Anthropic tiene su propio contador en la API. También hay herramientas web gratuitas como tokenizer.anthropic.com donde puedes pegar texto y ver cuántos tokens consume.

¿El context window afecta la calidad de las respuestas?

Sí. Con contextos muy largos, los modelos tienden a «perder el hilo» de instrucciones al principio del prompt (el fenómeno se llama «lost in the middle»). Coloca las instrucciones críticas al inicio o al final del prompt para mayor efectividad.