Desde su lanzamiento en marzo de 2023, Midjourney v5 ha consolidado su posición como la opción de máxima calidad visual en generación de imágenes por IA. A seis meses de la release, es un buen momento para evaluar qué hace bien, dónde no llega, y cómo encaja en flujos profesionales.
Qué cambia respecto a v4
Tres mejoras clave que marcan la diferencia:
- Fotorrealismo. v5 produce imágenes que en muchos casos son indistinguibles de fotos reales. Texturas de piel, luz ambiental, profundidad de campo — elementos que delataban a v4 — ahora son consistentes.
- Seguimiento de prompt mejorado. Composiciones complejas con múltiples elementos y relaciones espaciales (“un gato naranja sobre un sofá azul en una habitación iluminada por una ventana a la derecha”) funcionan sin tantas iteraciones.
- Manos y texto. Dos talones de Aquiles históricos. v5 no los resuelve perfectamente, pero sí con mucho menos horror que v4. Manos con 5 dedos la mayoría del tiempo; texto legible en algunos casos (sigue siendo poco fiable para logos).
El modelo “–style raw”
Una opción añadida tras v5 GA: --style raw. Por defecto, Midjourney aplica un “estilo artístico” sutil sobre cualquier prompt. Útil para creatividad, pero indeseable cuando quieres realismo máximo. --style raw desactiva ese estilo, dando salidas más literales al prompt.
Para uso empresarial (fotografía de producto, recreaciones realistas), --style raw es casi siempre mejor punto de partida.
Parámetros útiles
Más allá del prompt de texto, v5 ofrece parámetros para ajustar:
--ar 16:9: relación de aspecto. Importante — v5 puede producir en 1:1, 16:9, 3:2, 9:16, etc.--stylize 100-1000(o –s): intensidad del estilo artístico. 100 = sutil, 1000 = muy marcado. Con--style raweste efecto se reduce.--chaos 0-100: variabilidad entre las 4 imágenes que Midjourney genera por prompt. 0 = consistentes, 100 = muy variadas.--no X: exclusiones. “–no text” suele ayudar a que no aparezca texto garabateado.
Flujo en Discord
Midjourney se accede vía Discord, lo cual es contraintuitivo para producción profesional. Ventajas e inconvenientes:
- Ventajas: colaboración natural, historial por conversación, sin necesidad de infraestructura propia.
- Inconvenientes: sin API oficial (una queja muy extendida), difícil de integrar en pipelines automatizados, rate limits de Discord.
Herramientas de terceros (Midjourney Automation, scripting no oficial) existen pero son frágiles. Para automatización real, Stable Diffusion o DALL-E 3 siguen siendo más prácticos.
Comparativa frente a SDXL y DALL-E 3
Los tres líderes en generación de imágenes cubren perfiles distintos:
- Midjourney v5: mejor calidad estética media, especialmente en estilos artísticos y fotorrealismo. Menor control técnico.
- Stable Diffusion XL: máximo control técnico (LoRA, ControlNet, inpainting), open-source. Requiere más ajuste.
- DALL-E 3 (septiembre 2023): mejor seguimiento de prompts en lenguaje natural, integrado con ChatGPT Plus. Coste por imagen.
Para equipos serios de diseño, probar los tres con prompts reales propios antes de decidir es la única validación fiable.
Casos de uso en producto
Dónde Midjourney v5 añade valor en entornos profesionales:
- Moodboards y concepts visuales. Rapidez para explorar direcciones estéticas antes de fotografía o ilustración profesional.
- Marketing y social media. Imágenes de fondo, ilustraciones para posts, composiciones temáticas.
- Prototipado de interfaces. Junto con Figma, ayuda a visualizar qué estéticas encajan antes de diseño detallado.
Lo que no sustituye: fotografía de producto real (problemas legales y de coherencia entre productos), dirección creativa profesional, ilustración narrativa compleja.
Implicaciones legales
La licencia de Midjourney es clara en su Terms of Service:
- Usuarios pagando el plan Pro o superior tienen derechos comerciales sobre imágenes generadas.
- Plan gratuito (trial, ahora limitado): no uso comercial.
- Midjourney retiene derecho para usar los prompts e imágenes generadas para entrenar modelos futuros.
Las demandas sobre entrenamiento con imágenes protegidas (incluyendo Midjourney entre las demandadas) están en proceso. La situación legal puede cambiar en los próximos trimestres.
Ver nuestro análisis de Stable Diffusion XL para contraste con la alternativa open-source, y Code Interpreter de OpenAI como ejemplo de integración conversacional de IA.
Conclusión
Midjourney v5 es la opción de referencia cuando calidad estética es la prioridad máxima. Para integración en pipelines, automatización, o control fino, Stable Diffusion XL sigue ganando. Para seguimiento de prompts complejos en lenguaje natural, DALL-E 3 aporta su diferencial. Los tres coexistirán con roles distintos en los próximos trimestres.
Síguenos en jacar.es para más sobre IA generativa aplicada a imagen, diseño y marketing.