MiniMax M3 mete presión a los modelos cerrados con 1M de contexto y precios agresivos

MiniMax ha presentado M3, un modelo de inteligencia artificial orientado a programación, agentes y contexto largo con una promesa bastante directa: acercar capacidades de frontera a un modelo de pesos abiertos. La compañía lo sitúa como una alternativa capaz de competir en benchmarks de desarrollo de software y uso de herramientas, con una ventana de contexto de hasta 1 millón de tokens y tarifas de API bastante por debajo de las habituales en modelos cerrados de gama alta.

El anuncio encaja en una tendencia que lleva meses consolidándose en el mercado de IA. Ahora la frontera no la define quién responde mejor una pregunta suelta, sino qué modelo aguanta horas trabajando sobre un repositorio, ejecuta pasos encadenados, lee documentación extensa, interpreta imágenes o vídeo y mantiene coherencia en tareas largas. En ese terreno MiniMax M3 quiere disputarle espacio a modelos como Claude Opus, GPT o Gemini, que dominan los flujos de programación asistida y trabajo con agentes.

La compañía asegura que publicará el informe técnico y los pesos del modelo unos diez días después del anuncio. Hasta entonces conviene tratar sus resultados con prudencia, porque las cifras son llamativas pero siguen dependiendo de evaluaciones propias, metodologías concretas y comparativas que tendrán que replicar terceros.

Un modelo diseñado para programar y usar herramientas

MiniMax M3 se presenta como un modelo especializado en código y comportamiento agéntico. Va más allá de generar fragmentos de programación y funciona como un asistente que descompone tareas, invoca herramientas, ejecuta pasos encadenados, revisa errores y aguanta sesiones largas de trabajo.

Según MiniMax, M3 obtiene un 59,0 % en SWE-Bench Pro, un 66,0 % en Terminal Bench 2.1, un 28,8 % en KernelBench Hard, un 74,2 % en MCP Atlas y un 70,0 % en OSWorld-verified. En BrowseComp la compañía afirma que alcanza 83,5 puntos, por encima de Claude Opus 4.7 en la comparativa que ellos mismos han difundido.

Estos benchmarks importan porque miden capacidades más cercanas al uso real de los desarrolladores (corregir repositorios, manejar terminales, navegar por documentación, trabajar con herramientas externas o resolver problemas sobre bases de código amplias), a diferencia de las pruebas clásicas de respuesta corta, que muchas veces no reflejan cómo se comporta un modelo en una tarea de ingeniería con varios pasos. Si te interesa el impacto de estos modelos en el día a día, el estado de los LLMs en 2025 analiza cómo están cambiando la forma de programar.

A esto se suma MiniMax Code, el agente oficial de la compañía para tareas de programación. El planteamiento comercial es vender una experiencia de trabajo completa, similar a la que ya ofrecen Claude Code, Cursor o Cline.

Benchmark destacado	Resultado atribuido a MiniMax M3
SWE-Bench Pro	59,0 %
Terminal Bench 2.1	66,0 %
BrowseComp	83,5
GDPval rubrics	74,7
BankerToolBench	76,1
MCP Atlas	74,2
OSWorld-verified	70,0 %
KernelBench Hard	28,8 %

Lo interesante es que MiniMax apunta directamente a los flujos de trabajo productivos. Si M3 mantiene estos resultados en pruebas externas puede ser una opción atractiva para equipos que buscan agentes de código con buena relación entre rendimiento y coste.

1 millón de tokens y atención selectiva para tareas largas

La segunda gran promesa de M3 es la ventana de contexto: hasta 1.000.000 de tokens, con un mínimo garantizado de 512K en su API. Para conseguirlo MiniMax usa una arquitectura propia llamada MiniMax Sparse Attention (MSA), que reemplaza parte de la atención completa por selección de bloques relevantes del caché KV, con el objetivo de reducir el coste de trabajar con contextos enormes sin perder demasiada calidad.

La compañía afirma que, a 1 millón de tokens, M3 reduce el cómputo por token a una vigésima parte respecto a la generación anterior, con más de 9 veces de mejora en prefill y más de 15 veces en decodificación. Si esos datos se confirman en uso real el avance sería relevante en tareas donde el cuello de botella está tanto en la inteligencia del modelo como en su capacidad de leer y sostener grandes cantidades de información.

En programación una ventana de contexto tan amplia permite cargar repositorios extensos, documentación, logs, historial de cambios y especificaciones sin fragmentarlo todo en múltiples llamadas. En empresas puede servir para revisar contratos largos, expedientes, manuales técnicos o documentación interna con imágenes y vídeo.

Pero un contexto largo no garantiza buen razonamiento, y los modelos pueden aceptar cientos de miles de tokens y aun así perder detalles importantes, ignorar información en partes alejadas del prompt o mezclar instrucciones contradictorias. Lo que de verdad importa no es cuántos tokens admite M3, sino cuántos utiliza bien.

La multimodalidad también forma parte del mensaje. MiniMax describe M3 como un modelo multimodal nativo desde el inicio del entrenamiento, con soporte para texto, imagen y vídeo como entrada. Esto lo acerca a la nueva generación de asistentes capaces de interpretar interfaces, capturas de pantalla, diagramas o documentos técnicos. Para agentes de código esa capacidad puede ayudar a depurar interfaces, analizar errores visuales o trabajar sobre documentación que no es solo texto.

La guerra de precios se endurece

MiniMax también quiere competir por precio. La API de M3 se anuncia con tarifas de 0,60 dólares por millón de tokens de entrada y 2,40 dólares por millón de tokens de salida para contextos de hasta 512K, con la lectura de caché a 0,12 dólares por millón. Para llamadas entre 512K y 1M tokens el precio sube a 1,20 dólares de entrada, 4,80 dólares de salida y 0,24 dólares en caché.

Durante los primeros siete días la compañía aplica un descuento del 50 % al uso estándar de M3 hasta 512K, lo que deja el precio promocional en 0,30 dólares por millón de tokens de entrada y 1,20 dólares por millón de salida en plataformas como OpenRouter.

Modalidad API	Entrada	Salida	Lectura de caché
M3 hasta 512K	0,60 $/M tokens	2,40 $/M tokens	0,12 $/M tokens
M3 entre 512K y 1M	1,20 $/M tokens	4,80 $/M tokens	0,24 $/M tokens
Promoción inicial hasta 512K	0,30 $/M tokens	1,20 $/M tokens	según plataforma

La compañía también comercializa planes de suscripción para desarrolladores. El plan Plus sale a 20 dólares al mes e incluye unos 1.700 millones de tokens, el Max a 50 dólares con unos 5.100 millones, y el Ultra a 120 dólares con hasta unos 12.500 millones, mayor concurrencia de agentes y cuotas de multimedia según el nivel.

Estos volúmenes son agresivos si se comparan con el coste habitual de trabajar con modelos de gama alta en tareas largas. Para programación asistida, donde una sesión puede consumir decenas o cientos de miles de tokens entre lectura de archivos, generación, pruebas y correcciones, el precio puede ser tan importante como el benchmark. Un modelo algo menos preciso pero mucho más barato y con más contexto puede resultar más útil en el día a día que un modelo superior pero prohibitivo para sesiones largas.

China acelera en modelos abiertos y agentes

MiniMax M3 refuerza lo que vienen haciendo DeepSeek, Qwen, Kimi o Zhipu: apostar por modelos de pesos abiertos, precios bajos y grandes ventanas de contexto para disputarle espacio a los proveedores estadounidenses. Ya no compiten solo a ver quién tiene el mejor modelo cerrado, sino quién ofrece una alternativa suficientemente buena, barata e integrable.

Para empresas europeas y desarrolladores independientes esto abre oportunidades. Disponer de modelos más baratos, con APIs compatibles con OpenAI y potencial publicación de pesos, puede reducir la dependencia de un pequeño grupo de proveedores y permite experimentar con despliegues más flexibles, herramientas propias y agentes especializados. El debate sobre cómo la IA está transformando la forma de programar sigue siendo relevante en este contexto.

La cautela sigue siendo necesaria. "Pesos abiertos" no equivale automáticamente a "open source" en sentido estricto. Habrá que revisar licencia, condiciones de uso, restricciones comerciales, requisitos de despliegue, rendimiento en hardware propio, consumo de memoria, seguridad, privacidad y cumplimiento normativo. También conviene comprobar si el modelo funciona igual de bien fuera de las demos y de los benchmarks publicados por la propia compañía.

La siguiente generación de IA para desarrolladores no se va a decidir solo por chatbots más listos. Lo que importa son los agentes capaces de trabajar sobre proyectos completos con contexto largo, multimodalidad, herramientas, baja latencia y costes sostenibles. MiniMax M3 llega justo a ese punto del mercado y, si sus pesos y su informe técnico cumplen lo prometido, puede convertirse en una de las propuestas más interesantes para equipos que quieren rendimiento de frontera sin depender por completo de los modelos cerrados.

Preguntas frecuentes

¿Qué es MiniMax M3?

MiniMax M3 es un modelo de inteligencia artificial orientado a programación, agentes, contexto largo y multimodalidad, presentado como un modelo de pesos abiertos con ventana de hasta 1 millón de tokens.

¿Ya están disponibles los pesos del modelo?

MiniMax afirma que publicará el informe técnico y los pesos unos diez días después del anuncio. Hasta que estén disponibles la comunidad no podrá auditar por completo licencia, arquitectura y rendimiento real.

¿Por qué importa su contexto de 1 millón de tokens?

Porque permite trabajar con repositorios grandes, documentación extensa, logs, contratos o sesiones largas sin dividir tanto la información. Aun así la calidad dependerá de cómo use el modelo ese contexto.

¿Es una alternativa real a GPT, Claude o Gemini?

Puede serlo en algunas tareas de código y agentes si los resultados se confirman de forma independiente. Por ahora sus cifras son prometedoras, pero conviene validarlas en casos reales antes de compararlo definitivamente con los modelos cerrados.

Fuente: Noticias.ai

COMPARTE ESTA NOTICIA

COMPARTIR EN FACEBOOK

COMPARTIR EN TWITTER

COMPARTIR EN LINKEDIN

COMPARTIR EN WHATSAPP

NOTICIA ANTERIOR

Los grandes del mercado de los vehículos eléctricos

SIGUIENTE NOTICIA

TeamPCP compromete más de 700 versiones de paquetes Laravel-Lang con un ladrón de credenciales en Composer