La empresa de tecnología británica Google DeepMind ha lanzado una inteligencia artificial capaz de crear música original para películas y series de televisión. Esta innovadora herramienta, llamada “Amper Music“, utiliza algoritmos avanzados para analizar patrones y estilos musicales y generar melodías y temas únicos en tiempo real. De acuerdo con los desarrolladores, Amper Music puede producir música que es tan atractiva como la compuesta por humanos, lo que abre nuevas posibilidades para la creación musical en la industria cinematográfica y audiovisual.
La división enfocada en inteligencia artificial (IA) ha logrado importantes avances en la tecnología de video a audio (V2A), que permite producir sonidos a partir de un archivo de video y una entrada de texto. Gracias a este modelo, es posible generar una pista de audio que esté acorde con los elementos del video y sincronizarla con precisión.
La inteligencia artificial de DeepMind permite a los usuarios generar pistas y efectos de sonido realistas, incluyendo diálogos que se ajusten a los personajes, a partir de un archivo de video y un prompt en lenguaje natural. Para hacerlo, solo es necesario proporcionar el archivo de video y una descripción textual que sirva como apoyo. Las entradas de texto pueden contener información sobre el tipo de sonido deseado, género musical o tempo, así como frases que describan el entorno en el que se desarrolla la escena.
La tecnología V2A (Video-to-Audio) permite la generación de una cantidad prácticamente ilimitada de bandas sonoras personalizadas para cualquier contenido visual, lo que revoluciona el proceso de producción y posibilita un enfoque más innovador en la creación de audiovisuales.
Mientras suena una armónica lenta y suave mientras el sol se pone en la pradera, el ruido de coches derrapando y el motor acelerado se fusionan con música electrónica angelical. De acuerdo a Google, V2A aplica un enfoque basado en difusión para generar y sincronizar el audio. El sistema codifica la entrada de video en una representación comprimida y la ejecuta de manera iterativa mediante el modelo de difusión. Luego, genera audio comprimido que se decodifica en forma de onda de audio.
La utilización de instrucciones en lenguaje natural (prompts) es fundamental para que un modelo pueda generar sonidos específicos y precisos. Estas directrices, también conocidas como prompts, sirven como guía para que el modelo aprenda a identificar y reproducir patrones y características auditivas, lo que permite crear resultados más precisos y coherentes con la intención del usuario.
La tecnología de visión por computadora (V2A) ha experimentado un gran avance con la introducción del algoritmo desarrollado por DeepMind, capaz de comprender píxeles sin necesidad de procesarlos previamente. Esto significa que las instrucciones en texto se han vuelto opcionales para los usuarios, lo que otorga mayor flexibilidad y eficiencia a la herramienta. De acuerdo con DeepMind, este algoritmo es capaz de analizar directamente los píxeles y extraer información relevante sin necesidad de transformarlos en un lenguaje procesable por computadora. Esto abre nuevas posibilidades para la aplicación de la visión por computadora en campos como el reconocimiento de patrones, la detección de objetos y la automatización de tareas.
La inteligencia artificial de Google revoluciona la creación de contenidos con la capacidad de generar efectos, música y voces
La inteligencia artificial (IA) ha demostrado ser capaz de combinar eventos de audio específicos con representaciones visuales cuando se utilizan conjuntamente. Esto permite a la IA asociar sonidos y imágenes de manera efectiva, lo que puede tener importantes implicaciones en campos como el aprendizaje automático y la visualización de datos. La tecnológica ha proporcionado múltiples ejemplos de videos V2A (Video-to-Audio) en acción con su respectivo prompt, lo que demuestra la capacidad de la IA para convertir audio en video y viceversa.
La nave espacial desciende velozmente a través del espacio, con estrellas que se deslizan como un rayo a su alrededor, creando un paisaje de ciencia ficción vibrante y emocionante. Los ingenieros detrás del sistema de IA han logrado sincronizar los efectos de sonido con la imagen, generando una experiencia inmersiva que nos transporta a un universo lejano y mágico. El sistema no requiere alineación manual, por lo que podemos disfrutar plenamente de esta aventura sin preocuparnos por ajustar el tempo o otros valores.
Como ocurre con todos los modelos de inteligencia artificial (IA), el sistema V2A no es perfecto. Según Google, la calidad del sonido generado depende de la calidad del video, por lo que, si se introduce una pista comprimida o de mala calidad, es posible que no se obtengan los resultados deseados. Además, la generación de voces para videos que involucran diálogos requiere ajustes, ya que no efectúa una sincronización de labios precisa.
La inteligencia artificial (IA) V2A supone un avance significativo en este campo. Sin embargo, es fundamental tomar medidas para prevenir un uso indebido de esta tecnología. Al respecto, Google ha decidido implementar marcas de agua en todo el contenido generado mediante IA y someterlo a pruebas de seguridad exhaustivas para garantizar la seguridad y la integridad del mismo.
Mientras que DeepMind enfoca su esfuerzo en desarrollar inteligencia artificial, los ingenieros de la empresa se apoyarán en expertos de otras áreas, especialmente de la comunidad creativa, como cineastas y creadores, para modelar su sistema. Esta colaboración permitirá a los científicos de DeepMind abordar problemas complejos desde perspectivas innovadoras y creativas, lo que podría dar lugar a soluciones más efectivas y eficientes en el campo de la inteligencia artificial.