La conversación sobre Inteligencia Artificial suele empezar por los modelos, pero en producción casi siempre acaba en lo mismo: costes, latencia, despliegues complejos y dependencias que se multiplican. En ese contexto, Cloudflare Workers AI se ha convertido en una propuesta especialmente atractiva para equipos de tecnologÃa y administradores de sistemas: permite exponer modelos de código abierto como una API serverless, integrada en el runtime de Workers, sin tener que gestionar GPUs ni llaves de terceros, y pagando por uso.
La idea es sencilla: en lugar de montar una infraestructura propia (o depender de un proveedor de API externo), el desarrollador despliega un Worker y llama a modelos alojados por Cloudflare con un binding nativo (env.AI). A partir de ahÃ, la misma pieza de código puede vivir en el borde de la red, cerca del usuario, y servir tareas tÃpicas de IA: generación de texto, clasificación, embeddings, extracción de datos o incluso generación de imágenes, siempre dentro de una misma plataforma.
El detalle que lo cambia todo: el precio por ?neuronas? (y por tiles en imágenes)
Workers AI se factura con un esquema basado en ?neuronas?, una unidad interna que Cloudflare usa para medir consumo. La referencia pública es clara: 1.000 neuronas cuestan 0,011 $ (y el consumo depende del modelo y la operación). Este enfoque permite que tareas pequeñas sean sorprendentemente baratas, sobre todo cuando se integran como microservicios sin estado: un endpoint para resumir tickets, otro para extraer campos de facturas, otro para ?limpiar? descripciones de producto, etc.
En generación de imágenes, la lógica de coste es más tangible porque Cloudflare desglosa el precio por tiles de 512×512 y, en algunos modelos, por pasos de inferencia. Con FLUX.1-schnell, por ejemplo, el coste publicado es de 0,0000528 $ por tile de salida y 0,0001056 $ por step (con 4 steps por defecto). Con esa tabla, se entiende de dónde sale el número que suele circular en redes: una imagen equivalente a 1.280×720 ?ocupa? 3×2 tiles (6 tiles). Solo en tiles, eso son 6 × 0,0000528 = 0,0003168 $ (? 0,000318 $). En la práctica, si el modelo aplica steps, habrÃa que sumar 4 × 0,0001056 = 0,0004224 $, dejando el total en ? 0,0007392 $ para ese ejemplo. Dicho de otro modo: sigue siendo un coste muy bajo, pero conviene saber qué incluye exactamente el cálculo.
Un microservicio real: API de generación de imágenes en un Worker
A nivel operativo, la clave para ?no depender de nada? es el binding AI, porque evita gestionar llaves externas. El Worker llama a env.AI.run() y devuelve el resultado. El modelo FLUX.1-schnell devuelve una imagen en base64, lo que encaja bien con una API.
Configuración mÃnima (Wrangler)
Cloudflare recomienda wrangler.jsonc en proyectos nuevos:
// wrangler.jsonc
{
"$schema": "./node_modules/wrangler/config-schema.json",
"name": "workers-ai-imagenes",
"main": "src/index.ts",
"compatibility_date": "2026-01-13",
"ai": { "binding": "AI" }
}
Código del Worker (TypeScript)
Este ejemplo expone un endpoint /image que recibe { "prompt": "..." } y devuelve { "image_base64": "..." }:
// src/index.ts
export interface Env {
AI: Ai;
}
export default {
async fetch(req: Request, env: Env): Promise<Response> {
const url = new URL(req.url);
if (url.pathname !== "/image") {
return new Response("Not Found", { status: 404 });
}
if (req.method !== "POST") {
return new Response("Method Not Allowed", { status: 405 });
}
const { prompt, steps = 4 } = await req.json().catch(() => ({}));
if (!prompt || typeof prompt !== "string") {
return new Response("Bad Request: missing prompt", { status: 400 });
}
const result = await env.AI.run("@cf/black-forest-labs/flux-1-schnell", {
prompt,
steps
});
// El modelo devuelve un objeto con `image` en base64.
return Response.json({ image_base64: result.image });
}
};
Prueba rápida con curl
curl -s http://localhost:8787/image
-H "content-type: application/json"
-d '{"prompt":"Un datacenter futurista en estilo editorial, luz azul y cables ordenados","steps":4}'
| jq -r .image_base64 | head
Desarrollo y despliegue
En el dÃa a dÃa, muchos equipos usan desarrollo local y, cuando necesitan bindingsremotos, activan ?remote bindings? o directamente wrangler dev --remote según el caso. Un matiz importante para finanzas y control de costes: el propio entorno de desarrollo puede consumir recursos de cuenta al ejecutar inferencias (no es ?gratis? por el hecho de estar probando).
Otro patrón útil para sysadmins: ?resumidor? de incidencias y runbooks
Donde Workers AI se vuelve especialmente ?de operaciones? es en automatismos que ahorran tiempo: resumir alertas, normalizar descripciones, extraer campos, generar un post-mortem inicial, etc. Un segundo endpoint podrÃa aceptar texto y devolver un resumen para pegar en un ticket:
// dentro del mismo Worker, por ejemplo en /summarize
const result = await env.AI.run("@cf/meta/llama-3.1-8b-instruct", {
messages: [
{ role: "system", content: "Eres un asistente para equipos de operaciones. Resume con precisión y en bullets." },
{ role: "user", content: `Resume este incidente:nn${text}` }
]
});
return Response.json({ summary: result.response });
Este tipo de microservicio, colocado ?cerca? del flujo de trabajo (hooks de monitorización, colas, webhooks), permite crear IA práctica sin convertir el proyecto en una plataforma gigantesca. Y, si la organización necesita control adicional, AI Gateway añade capas de observabilidad y polÃticas (incluyendo opciones de protección y DLP) para gobernar prompts y respuestas.
Lo que conviene vigilar antes de ponerlo en producción
Preguntas frecuentes
¿Cómo montar una API de Inteligencia Artificial sin usar claves de OpenAI u otros proveedores?
La vÃa más directa es usar un binding nativo de Workers AI (env.AI) y llamar a modelos alojados por Cloudflare desde un Worker, sin integrar SDKs externos ni gestionar credenciales de terceros.
¿Cuánto cuesta generar imágenes con Workers AI en resoluciones tipo 1.280×720?
Depende del modelo. En los modelos con tarificación por tiles de 512×512, esa resolución equivale a 6 tiles. Además, algunos modelos suman coste por steps de inferencia, por lo que el total final varÃa según parámetros como steps.
¿Workers AI sirve para automatizar tareas de administración de sistemas?
SÃ, especialmente en patrones como resumen de incidencias, clasificación de alertas, extracción de campos de logs, redacción de borradores de post-mortem o asistentes internos conectados a documentación y runbooks.
¿Qué buenas prácticas ayudan a evitar sorpresas en producción?
Autenticación, rate limiting, control de cuotas, logs estructurados, y una polÃtica clara de datos (minimización, enmascarado y revisión de prompts), además de observabilidad sobre consumo y errores.
Fuente: Noticias inteligencia artificial
