ChatGPT podrá ver, oír y hablar: las nuevas funciones que revolucionarán la forma de interactuar con esta IA

OpenAI ha anunciado la implementación de nuevas capacidades de voz e imagen en ChatGPT.

Lectura 4 minutos
2 de octubre 2023

OpenAI ha anunciado la implementación de nuevas capacidades de voz e imagen en ChatGPT. Estas características permitirán a los usuarios hablar directamente con ChatGPT, mostrarle imágenes para obtener respuestas y mantener conversaciones más elaboradas. Los usuarios de los planes Plus y Enterprise podrán disfrutar de estas funciones que revolucionarán la forma en que interactuamos con esta IA generativa en las próximas semanas.

Así mismo, la implementación de estas funciones se realiza con un enfoque claro en la seguridad y la utilidad, ya que OpenAI reconoce los desafíos y riesgos potenciales asociados con la voz y la imagen en la IA.

Mantén conversaciones habladas con ChatGPT gracias a sus funciones de voz

En el caso de la voz, OpenAI ha decidido enfocarse principalmente en el chat de voz, lo que significa que las capacidades de conversación por voz están diseñadas para ser seguras y útiles para los usuarios en situaciones como solicitar información, contar historias o resolver preguntas.

Ahora los usuarios podrán pedirle a ChatGPT una historia para contar antes de dormir, debatir un tema o simplemente mantener una conversación. Este nuevo nivel de interacción está diseñado para hacer que la experiencia sea más personal y accesible.

Para comenzar a usar la voz, simplemente dirígete a la Configuración en la aplicación móvil, selecciona «Nuevas funciones» y opta por las «Conversaciones de voz». Luego, elige una de las 5 voces disponibles para tu asistente. La tecnología subyacente se basa en un modelo de conversión de texto a voz que puede generar audio que replica la voz humana de modo realista a partir de texto y una breve muestra de voz. Las voces utilizadas en la función de voz han sido creadas en colaboración con actores de voz profesionales.

Esta innovación también se apoya en Whisper, el sistema de reconocimiento de voz de código abierto desarrollado por OpenAI, que transcribe tus palabras habladas en texto. A través de esta integración de voz, ChatGPT ofrece una experiencia más rica y natural para los usuarios, permitiéndoles mantener conversaciones con la IA.

Además, OpenAI también está aplicando esta tecnología de voz en colaboración con organizaciones externas, como Spotify. Un ejemplo mencionado es el piloto de la función de traducción de voz de Spotify, que permite a los podcasters ampliar su audiencia mediante la traducción de sus programas a diferentes idiomas utilizando las voces de los propios podcasters.

Nuevas capacidades de comprensión de imágenes

La otra gran adición a ChatGPT es su capacidad para comprender y discutir imágenes. Ahora puedes mostrarle una o varias imágenes y obtener respuestas útiles en función de lo que ve. Esto tiene aplicaciones infinitas, desde solucionar problemas técnicos hasta planificar comidas con lo que tienes en el refrigerador o analizar gráficos complejos para obtener información relevante para tu trabajo.

La comprensión de imágenes en ChatGPT se basa en los modelos GPT-3.5 y GPT-4 multimodales, que aplican su capacidad de razonamiento lingüístico a una amplia variedad de imágenes, incluyendo fotografías, capturas de pantalla y documentos que combinan texto e imágenes. Esta funcionalidad promete hacer que las conversaciones sean aún más informativas y prácticas.

Además, para esta función, OpenAI ha priorizado su utilidad y seguridad. Han implementado medidas técnicas para limitar la capacidad de ChatGPT para analizar y hacer afirmaciones sobre personas en las imágenes, respetando así la privacidad de los usuarios. Esto significa que la IA no realizará análisis intrusivos o inapropiados de las personas en las imágenes que los usuarios compartan, garantizando un uso seguro y ético de la tecnología de imágenes.

Fuente: marketing4ecommerce.net

Path Copy Created with Sketch.
X