Correr hacia adelante: Sora y las fisuras del audiovisual generado por inteligencia artificial

mayo 7, 2026

“La parte más difícil es que ya no puedes volver atrás”
Washed Out, The Hardest Part

“Las imágenes ya no representan el mundo: participan en su producción.”
Hito Steyerl

Luego del lanzamiento de Sora en 2024 —cuyas capacidades fueron calificadas como “impresionantes” y llegaron a producir un efecto de “pánico” en los sindicatos de Hollywood— y tan solo seis meses después de la presentación de su aplicación independiente, OpenAI anunció en marzo de 2026 la descontinuación de su servicio de generación de video. Este arco narrativo, que va de la euforia demostrativa a la clausura temprana, se convierte en un síntoma revelador de una de las derivas contemporáneas de las tecnologías visuales. La innovación aparece bajo la forma de una promesa de transformación radical del lenguaje audiovisual para resultar rápidamente en formas de restricción, control y repliegue estratégico. Ese movimiento pendular entre espectacularización y discontinuidad permite ensayar un breve análisis sobre el estatuto contemporáneo de la imagen generativa y las mutaciones del lenguaje audiovisual.

La reciente irrupción de modelos de generación audiovisual mediante inteligencia artificial ha reactivado debates de larga data en torno a la relación entre técnica, imagen y regímenes de visibilidad. La emergencia de Sora, sin embargo, no puede comprenderse de manera aislada. Forma parte de una ecología más amplia de sistemas generativos que incluye herramientas de video como Runway Gen-2, Pika Labs o Google Lumiere, precedidas por modelos de imagen fija como Stable Diffusion y Midjourney. No obstante, Sora introdujo un desplazamiento significativo: ya no se trataba únicamente de producir imágenes aisladas o clips breves, sino de aproximarse a la escena como una unidad compleja, capaz de sostener continuidad espacial, temporal y atmosférica. Esa promesa de continuidad —disponible inicialmente solo para un conjunto reducido de artistas, realizadores e investigadores con acceso privilegiado al sistema— se convirtió rápidamente en uno de los principales núcleos de espectacularización de la IA audiovisual contemporánea.

Este salto técnico estuvo acompañado por una puesta en escena publicitariamente orquestada. El lanzamiento de Sora se apoyó en una serie de clips de alto impacto visual —movimientos de cámara fluidos, entornos hiperrealistas y situaciones físicamente improbables— que funcionaron menos como ejemplos de uso cotidiano que como demostraciones espectaculares de capacidad técnica. Más cerca del “cine de atracciones” que del relato clásico, estas imágenes privilegiaban el asombro por sobre la construcción narrativa. Releyendo a Guy Debord, podría decirse que no se trataba simplemente de mostrar una tecnología, sino de producir un acontecimiento visual destinado a capturar atención y organizar la percepción pública de la innovación (Debord, 2018 [1967]). No resulta menor, en este sentido, que un grupo de artistas involucrados en el programa de pruebas señalara que la iniciativa priorizaba las relaciones públicas y la publicidad por sobre las posibilidades de experimentación crítica y creativa (González, 2024).

Desde el punto de vista cinematográfico, esta lógica demostrativa adopta la forma de una verdadera “estética de demo”: planos secuencia sintéticos, desplazamientos de cámara sin fricción y composiciones centradas que remiten más al videoclip publicitario o a la visualización técnica que al cine narrativo clásico. Se trata de imágenes diseñadas para impresionar, donde la espectacularidad desplaza el conflicto y la coherencia dramática queda subordinada al impacto visual. En términos históricos, esta lógica puede vincularse con lo que Tom Gunning definió como “cine de atracciones”: un régimen visual donde el efecto de fascinación precede a la narración y donde el dispositivo exhibe, antes que ocultar, su propia potencia técnica (Gunning, 2020 [1986]).

Es precisamente en este contexto de espectacularización técnica donde el videoclip The Hardest Part adquiere relevancia como objeto para el análisis crítico.

La parte más difícil

Resulta particularmente sugerente el análisis de Hito Steyerl sobre uno de los primeros videoclips realizados con herramientas de generación audiovisual mediante IA: The Hardest Part, dirigido por Paul Trillo para el músico Washed Out (Steyerl, 2025). El trabajo —rápidamente difundido como uno de los primeros ejemplos de videoclip artístico generado casi íntegramente con IA— constituye un caso especialmente fértil para pensar algunas transformaciones recientes del lenguaje audiovisual y de las condiciones contemporáneas de producción de imágenes.

El videoclip presenta a una pareja que camina, conduce un auto y corre hacia adelante atravesando distintas etapas de la vida —infancia, juventud y adultez— en una progresión aparentemente continua. Sin embargo, lo que en una lectura superficial podría interpretarse como una metáfora del paso del tiempo adquiere, en la lectura de Steyerl, un carácter más problemático: no se trata tanto de una narración temporal como de una simulación estadística del tiempo atravesada por una lógica onírica. La continuidad biográfica ya no se organiza mediante el montaje clásico —basado en corte, elipsis y articulación— sino a través de un travelling de seguimiento continuo (tracking shot) o push-in perpetuo que construye la ilusión de un plano secuencia sintético. Mediante procesos de morphing¹ algorítmico, el videoclip consigue que los espacios muten mientras la cámara continúa desplazándose, que las locaciones se transformen casi sin cortes visibles y que la continuidad espacial adquiera una cualidad imposible. Incluso las fallas visibles —rostros inestables, gestos deformados, movimientos ambiguos— terminan revelando la propia condición sintética de la imagen y las tensiones todavía presentes en este régimen visual en formación.

Desde una perspectiva de análisis cinematográfico, el dispositivo narrativo del videoclip se organiza en torno a una continuidad ilusoria: el movimiento constante, hiperfluido e insistente de los cuerpos produce una sensación de devenir onírico y de desplazamiento perpetuo. Sin embargo, esta continuidad no se sostiene en la lógica clásica del montaje —basada en el corte como articulación significativa— sino en una forma de síntesis o “montaje algorítmico” que busca borrar las huellas mismas de la transición. A diferencia del cine moderno, donde el corte podía volverse visible, disruptivo o incluso políticamente productivo (Deleuze, 1986), aquí asistimos a una hiperfluidez orientada a eliminar toda fricción perceptiva. La imagen no corta: muta.

No obstante, en ese gesto continuo de simulación estadística, el sistema todavía deja entrever sus fisuras. Rostros inestables, movimientos corporales ambiguos y deformaciones parciales emergen como restos visibles de una imagen que no termina de estabilizarse plenamente. Lejos de ser meros errores técnicos, estas anomalías revelan las tensiones propias de un régimen visual todavía en formación. Es justamente la dimensión onírica del relato —su atmósfera de sueño, deriva y extrañamiento— la que permite integrar esas heridas de lo visible dentro de la lógica perceptiva del videoclip.

El pasaje del corte a la mutación implica una transformación profunda del lenguaje cinematográfico. Si el plano secuencia preservaba una cierta continuidad material entre duración, espacio y movimiento, en la imagen generada mediante IA esa continuidad emerge por interpolación algorítmica. Ya no se trata de registrar un tiempo real compartido entre cámara y mundo, sino de sintetizar estadísticamente una sensación de continuidad perceptiva. A su vez, mientras el montaje clásico —de Sergei Eisenstein a Jean-Luc Godard— operaba a partir de la lógica del conflicto, la yuxtaposición y la producción de sentido, el video generado por IA tiende hacia un flujo visual sin exterior. La lógica generativa erosiona así parte de la función clásica del fuera de campo: potencialmente, todo puede ser generado, prolongado o interpolado dentro del mismo flujo visual.

En términos deleuzianos, podría pensarse —extendiendo la lógica de la imagen-tiempo— una suerte de “imagen-probabilidad”, donde lo que se encadena ya no son planos en sentido estricto, sino distribuciones estadísticas de lo verosímil. La continuidad deja entonces de ser una operación cinematográfica para convertirse en una operación predictiva. Allí donde el montaje articulaba diferencias y tensiones, la síntesis algorítmica tiende a suavizar las discontinuidades en favor de un flujo visual extraño pero permanente.

Es posible que la cámara nunca se detenga para evitar que las fallas de generación se vuelvan demasiado evidentes. Mientras las heridas de la imagen se hacen visibles, el movimiento se acelera y continúa hacia adelante. En términos perceptivos, este desplazamiento constante produce una sensación de extrañeza: la cámara jamás termina de estabilizarse del todo, se desliza sin fricciones aparentes y atraviesa cuerpos y escenarios. Sin embargo, como escollos frente a esa aspiración de fluidez infinita, el videoclip deja emerger fisuras persistentes: anomalías corporales, inconsistencias espaciales y gestos perceptivamente imposibles.

Estos “errores visuales” no constituyen simples limitaciones técnicas, sino síntomas de un régimen visual todavía en formación. The Hardest Part puede leerse así como una pieza liminal, situada en el umbral entre la espectacularización de las posibilidades audiovisuales de la IA y la evidencia de sus propios límites materiales. El videoclip no solo exhibe el intento por resolver uno de los grandes problemas de la generación de video por IA —la coherencia temporal entre cuadros—, sino también las tensiones que emergen cuando la continuidad sintética todavía no logra estabilizarse plenamente. Allí, en esas fisuras de la simulación, comienza también a insinuarse una mirada crítica sobre los límites estéticos y perceptivos de la imagen generativa.

Lo que nos deja

Desde una perspectiva crítica, el recorrido que va del entusiasmo global por Sora a su abrupta descontinuación permite extraer algunas reflexiones relevantes. La más evidente remite a las propias dinámicas empresariales que estructuran la actual disputa por el liderazgo del mercado audiovisual algorítmico. Como señala Roberts-Islam Moin (2026), OpenAI lanzó una tecnología cuya proyección pública y espectacularización mediática antecedieron a la consolidación de bases comerciales, técnicas y éticas suficientemente estables para sostenerla en el tiempo. El cierre temprano de Sora deja entrever, así, no solo las dificultades inherentes a la generación audiovisual mediante IA, sino también la aceleración competitiva que atraviesa a las grandes corporaciones tecnológicas contemporáneas.

Al mismo tiempo, el caso vuelve visible una cuestión central: la innovación tecnológica no implica necesariamente democratización. Por el contrario, puede reforzar procesos de concentración en los que la capacidad de producir imágenes de alta complejidad permanece restringida a un conjunto reducido de actores con acceso privilegiado a infraestructura, datos y capacidad de procesamiento. La espectacularización de estas tecnologías opera, además, como una forma de ocultamiento: mientras la atención se concentra en el impacto visual de las imágenes generadas, quedan parcialmente invisibilizadas las condiciones materiales que las hacen posibles —infraestructura computacional, datasets, consumo energético y trabajo humano—.

Desde el punto de vista cinematográfico, la evolución de estos sistemas también plantea interrogantes más profundos sobre el futuro del montaje, la autoría y la experiencia espectatorial. Si el cine se definía, en parte, por la tensión entre corte y duración, entre visible e invisible, ¿qué ocurre cuando la imagen puede producirse como flujo continuo, sin resto aparente? ¿Qué tipo de espectador emerge frente a imágenes que ya no registran ni representan el mundo, sino que lo sintetizan probabilísticamente bajo criterios de verosimilitud?

En este sentido, la generación contemporánea de imágenes y videos mediante IA se encuentra atravesada por una condición ambivalente. Por un lado, habilita herramientas inéditas para la experimentación estética y la exploración de nuevas formas audiovisuales. Por otro, reproduce —e incluso intensifica— problemas ya presentes en la cultura digital contemporánea: opacidad algorítmica, concentración de poder, homogeneización estética y subordinación de la experiencia visual a lógicas de optimización y rendimiento.

Volviendo a la escena principal de The Hardest Part —esa pareja que avanza incesantemente hacia adelante—, podría leerse allí una metáfora precisa de esta condición contemporánea: un movimiento permanente impulsado por la promesa de futuro, aunque todavía incapaz de estabilizar plenamente sus formas y sus imágenes. Las fallas visibles del videoclip —rostros inestables, gestos ambiguos, espacialidades imposibles— no debilitan necesariamente esa metáfora; por el contrario, la vuelven más elocuente. La tarea crítica, entonces, quizás no consista en celebrar la sorpresa que provocan estas imágenes, sino en interrumpir su velocidad: reintroducir el corte, volver visibles sus condiciones de producción y abrir la posibilidad de otros regímenes de visualidad y experiencia estética.

¹ Morphing refiere a la técnica de efectos visuales digitales que transforma suavemente una imagen u objeto en otro mediante la interpolación de píxeles y puntos de referencia.

Referencias

Debord, G. (2018 [1967]). La sociedad del espectáculo. La Marca Editora.

Deleuze, G. (1987 [1985]). La imagen-tiempo: Estudios sobre cine 2. Paidós.

González, F. (2024). Artistas filtran accesos a Sora: No somos títeres de relaciones públicas, dicen a OpenAI. Wired. https://es.wired.com/articulos/artistas-filtran-accesos-a-sora-en-senal-de-protesta

Gunning, T. (2020 [1986]). El cine de atracciones: Las primeras películas, su público y la vanguardia. Vivomatografías. Revista de estudios sobre precine y cine silente en Latinoamérica, (6), 417-431.

Islam Moin, R. (2026). Qué significa el ascenso y la repentina caída de Sora para OpenAI, Disney y el vídeo con IA. Forbes Argentina. https://www.forbesargentina.com/innovacion/que-significa-ascenso-repentina-caida-sora-openai-disney-video-ia-n88464

Steyerl, H. (2025). Medios calientes. Las imágenes en la era del calor. Caja Negra Editora.

Tones, J. (2026). Decían que la IA generativa de vídeo acabaría con Hollywood. De momento la pelea está de parte de la tradición. Xataka. https://www.xataka.com/robotica-e-ia/cuando-se-lanzo-sora-muchos-asumieron-que-era-muerte-hollywood-solo-dos-anos-despues-sora-no-existe

Guillermo José Colombo es Profesor y Licenciado en Historia por la Universidad Nacional de Mar del Plata (UNMdP) y Doctor en Historia por la Universidad Nacional de La Plata (UNLP).

Es investigador de la Universidad Nacional de Mar del Plata con lugar de trabajo en el Instituto de Humanidades y Ciencias Sociales (INHUS) y en el Instituto de Investigaciones sobre Territorios, Sociedades y Cultura (ISTEC). Es Jefe de Trabajos Prácticos del Departamento de Sociología de la Facultad de Humanidades (UNMdP), miembro del Grupo Violencia, Justicia y Derechos Humanos de la Facultad de Humanidades (UNMdP) y del Laboratorio de Inteligencias Artificiales Aplicadas a las Humanidades y Ciencias Sociales (LIAS).

También es realizador audiovisual. Actualmente se desempeña como Secretario de Comunicación de la Facultad de Humanidades (UNMdP).

X: @GuilleJColombo

IG: @guille.colombo