GLM-5.2 en Cloudflare Workers AI: free tier, 262K de contexto y licencia MIT

Cloudflare ha añadido GLM-5.2 a su catálogo de Workers AI, y lo que lo hace interesante no es solo el rendimiento: puedes empezar a usarlo ahora mismo sin tarjeta de crédito, sin GPU propia y sin deployar nada. Un POST request y ya está corriendo en la infraestructura de Cloudflare.

GLM-5.2 lo desarrolla Zhipu AI (también conocida como Z.ai), una empresa china de inteligencia artificial. Al pasar por Workers AI, las peticiones van a la infraestructura de Cloudflare antes de llegar a cualquier otro sitio, lo que puede ser relevante para quien prefiere no mandar datos directamente a servidores de una empresa con sede en China.

Qué tiene GLM-5.2 bajo el capó

El modelo tiene 744B parámetros, 262.144 tokens de contexto, soporte de function calling y reasoning integrado. La licencia es MIT, así que puedes usarlo en proyectos comerciales sin restricciones. En los benchmarks actuales de inteligencia frontier supera a DeepSeek V4 Pro y a MiniMax-M3, y según las comparativas disponibles alucina aproximadamente tres veces menos que GPT-5.5.

En Workers AI se identifica como @cf/zai-org/glm-5.2.

Free tier y precios

El free tier da 10.000 neurons al día, suficiente para desarrollo y pruebas. Cuando lo superas, el precio es:

  • $1,40 por millón de tokens de entrada
  • $4,40 por millón de tokens de salida
  • $0,26 por millón de tokens de entrada cacheados

El concepto de «neurons» es la unidad de cómputo de Cloudflare Workers AI, no equivale directamente a tokens: depende del modelo y del tipo de operación. Para GLM-5.2, Cloudflare publica el equivalente en su documentación de precios.

Playground sin registro

Antes de tocar una línea de código puedes probarlo en el LLM Playground de Cloudflare. No requiere cuenta ni API key: entras, escribes tu prompt y ves la respuesta. Viene bien para hacerse una idea rápida de cómo responde el modelo antes de integrarlo.

El acceso está en playground.ai.cloudflare.com.

Cómo usarlo desde un Worker (TypeScript, streaming)

La forma más directa es desde un Cloudflare Worker. El binding AI ya está disponible en el entorno de Workers, así que no necesitas instalar ningún SDK externo:

export interface Env {
  AI: Ai;
}

export default {
  async fetch(request, env): Promise<Response> {
    const messages = [
      { role: "system", content: "You are a friendly assistant" },
      {
        role: "user",
        content: "¿Cuál es la capital de España?",
      },
    ];

    const stream = await env.AI.run("@cf/zai-org/glm-5.2", {
      messages,
      stream: true,
    });

    return new Response(stream, {
      headers: { "content-type": "text/event-stream" },
    });
  },
} satisfies ExportedHandler<Env>;

El modo stream: true devuelve server-sent events. Si prefieres la respuesta completa de una vez, quita ese parámetro y la respuesta llega como objeto JSON con el campo result.response.

Desde Python (REST API)

Si no estás dentro de un Worker, puedes llamar al modelo a través de la API REST de Cloudflare. Necesitas tu ACCOUNT_ID y un API token con permiso de escritura en Workers AI:

import requests

account_id = "TU_ACCOUNT_ID"
api_token  = "TU_API_TOKEN"

respuesta = requests.post(
    f"https://api.cloudflare.com/client/v4/accounts/{account_id}/ai/run/@cf/zai-org/glm-5.2",
    headers={"Authorization": f"Bearer {api_token}"},
    json={
        "messages": [
            {"role": "system", "content": "Eres un asistente útil"},
            {"role": "user",   "content": "Explica qué es el function calling en tres líneas"},
        ]
    },
)

print(respuesta.json()["result"]["response"])

Desde curl

La misma llamada con curl, por si la necesitas en un script de shell o quieres probar rápido desde el terminal:

curl https://api.cloudflare.com/client/v4/accounts/TU_ACCOUNT_ID/ai/run/@cf/zai-org/glm-5.2 
  -H "Authorization: Bearer TU_API_TOKEN" 
  -H "Content-Type: application/json" 
  -d '{
    "messages": [
      {"role": "system",  "content": "Eres un asistente útil"},
      {"role": "user",    "content": "¿Qué ventajas tiene un contexto de 262K tokens?"}
    ]
  }'

La respuesta incluye el campo result.response con el texto generado y result.usage con el desglose de tokens consumidos.

Function calling y reasoning

GLM-5.2 soporta function calling siguiendo el formato estándar de herramientas (tools array en el payload). Puedes definir funciones con su esquema JSON y el modelo decidirá cuándo llamarlas, igual que en la API de OpenAI. El campo tool_calls aparece en la respuesta cuando el modelo quiere ejecutar alguna.

El reasoning está activado por defecto en las respuestas que lo necesitan. No hace falta ningún parámetro adicional: el modelo incluye su cadena de razonamiento cuando el problema lo requiere, y salta directamente a la respuesta cuando no.

El modelo como parte de un stack sin infraestructura propia

La combinación de GLM-5.2 con Workers AI tiene sentido cuando quieres integrar un modelo de lenguaje potente en una aplicación sin montar ningún servidor. Workers se despliega en los edge nodes de Cloudflare, el modelo corre en su infraestructura y tú solo escribes el código de la lógica. Sin gesionar GPUs, sin pensar en escalado, sin pagar instancias en reposo.

Para proyectos pequeños o prototipos, el free tier cubre bastante. Para producción con volumen, el precio es comparable al de otros proveedores de inference.

La documentación completa del modelo está en developers.cloudflare.com/workers-ai/models/glm-5.2/.

Imagen: Pexels / Google DeepMind

COMPARTE ESTE ARTÍCULO

COMPARTIR EN FACEBOOK
COMPARTIR EN TWITTER
COMPARTIR EN LINKEDIN
COMPARTIR EN WHATSAPP