Voz e imagen en ChatGPT y GPT-4V(ision)

Nuevas característica de voz e imagen en OpenAI con ChatGPT y GPT-4V(ision). En la publicación de ChatGPT, éste ya puede ver, oír y hablar.

Nuevas características de voz y e imagen en OpenAI con ChatGPT y GPT-4V(ision).

La nueva publicación de OpenAI nos avisa de que ChatGPT ya puede ver, oír y hablar.

- De momento, solo los usuarios de las categorías Plus y Enterprise tendrán acceso a las funciones de voz e imágenes en las próximas dos semanas.

- El resto de usuarios deberán esperar un poco más. No indican la fecha concreta.

La tecnología de voz e imagen

Para comenzar con la característica de imágenes, simplemente toca el botón de fotos para capturar o elegir una imagen. Si estás utilizando iOS o Android, primero toca el botón de suma.

OpenAI ha implementado la capacidad de mantener conversaciones relacionadas con imágenes.

Nos indican que mostrándole a ChatGPT una o más imágenes, éste podrá utilizarlas para resolver diversos problemas matemáticos o planificar una comida basada en el contenido de tu nevera. Próximamente veremos si podemos realizar todas estas tareas y cómo se verifican.

Para iniciar con la función de voz en OpenAI, dirígete a Configuración en la aplicación móvil y selecciona Nuevas Funciones. Una vez allí, opta por habilitar las conversaciones por voz. Luego, en la pantalla de inicio, encontrarás un botón de auriculares en la esquina superior derecha. Toca este botón y elige tu voz preferida entre cinco opciones diferentes.

Esta nueva modalidad de voz se basa en un nuevo modelo de texto a voz (TTS) capaz de generar audio similar al humano a partir de texto y con solo unos segundos de muestra de voz.

Además, apuntan que utilizan Whisper (sistema de reconocimiento de voz de código abierto, para transcribir palabras habladas en texto).

En la propia publicación de OpenAi puedes escuchar ejemplos de esas voces disponibles y seleccionar la que más te guste.

Existen 5 opciones diferentes: Juniper, Sky, Cove, Ember y Breeze.

Imágenes y una potente tecnología

El uso de imágenes está impulsado por los modelos multimodales GPT-3.5 y GPT-4. Estos modelos se aplican a una amplia gama de imágenes, como fotografías, capturas de pantalla o documentos que contienen tanto texto como imágenes.

Garantizar la seguridad

GPT-4 con visión (GPT-4V) permite a los usuarios instruir a GPT-4 para que analice las entradas de imagen proporcionadas por el usuario.

Consideran desde OpenAI que las imágenes son «una frontera clave en la investigación y el desarrollo de la inteligencia artificial. Los LLM multimodales ofrecen la posibilidad de ampliar el impacto de los sistemas exclusivamente lingüísticos con interfaces y capacidades novedosas.«

La meta de OpenAI es construir la Inteligencia Artificial General (IAG) de manera segura y beneficiosa. Por ello, se opta por desplegar gradualmente estas herramientas, lo que permite realizar mejoras y refinar las mitigaciones de riesgo con el tiempo.

Uso responsable de la tecnología de voz

La nueva tecnología de voz tiene el potencial de crear voces sintéticas realistas a partir de solo unos segundos de voz real.

Aunque esto abre posibilidades creativas y de accesibilidad, también presenta nuevos riesgos, como la posibilidad de que actores maliciosos se hagan pasar por figuras públicas o cometan fraudes.

Por esta razón, OpenAI utiliza esta tecnología para impulsar un caso de uso específico: el chat de voz.

Las voces en el chat de voz fueron creadas en colaboración con actores de voz y con Spotify, que utiliza esta tecnología para la función de Traducción de Voz. Esto permite ampliar el alcance de sus podcast al traducirlos a otros idiomas utilizando sus propias voces.

Visión y los desafíos éticos

Los modelos basados en visión presentan desafíos nuevos, desde alucinaciones relacionadas con personas hasta la interpretación de imágenes en temas críticos.

Antes de su despliegue general, OpenAI probó el modelo con un equipo para evaluar riesgos en temas como el extremismo y la competencia científica, además de contar con un conjunto diverso de testers alpha.

Esta investigación permitió alinear detalles clave para un uso responsable.

Nada más nos dicen sobre cómo se asegurará ese uso responsable.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

Colaboración con Be My Eyes

Este punto quizá sea el más interesante.

La colaboración directa con Be My Eyes, una aplicación móvil gratuita para personas ciegas y con baja visión.

Está diseñada para ayudar a mostrar lo que vemos a otras personas que no ven o tienen una visión limitada.

Desde OpenAI avisan de que se han tomado medidas técnicas para limitar significativamente la capacidad de ChatGPT de analizar y hacer afirmaciones directas sobre personas, ya que el sistema no siempre es preciso y debe respetar la privacidad de las personas.

Transparencia

OpenAI matiza que es transparente en cuanto a las limitaciones del modelo y desaconseja casos de uso de alto riesgo sin una verificación adecuada.

Además, el modelo es competente en la transcripción de texto en inglés, pero tiene un rendimiento deficiente en algunos otros idiomas.

Por tanto, se aconseja a los usuarios no angloparlantes que eviten utilizar ChatGPT para este propósito.

En resumen, OpenAI está llevando a cabo avances significativos en la tecnología de voz y visión que conllevan tomar medidas para garantizar la seguridad y el uso responsable de estas tecnologías, especialmente en lo que respecta a la voz, para prevenir posibles abusos o fraudes.

La colaboración y la implementación de salvaguardias técnicas afirman desde OpenAI, refuerzan su compromiso con la creación de herramientas poderosas y seguras. Además, la transparencia sobre las limitaciones del modelo y la conciencia de los riesgos potenciales son aspectos clave de su enfoque.

Habrá que comprobar si con el paso del tiempo todas estas buenas guías de implementación y autoregulación, se cumplen. O todo esto son simples avisos publicitarios para hacer más llevadero el hecho de que la IA formará parte de toda nuestra vida, sin que en la mayoría de las veces «nos demos cuenta».

El problema es que nadie nos haya avisado ni seamos capaces de diferenciar si estamos siendo «conducidos» por la IA o no.

Para seguir la actualidad de las noticias más interesantes sobre robótica colaborativa e inteligencia artificial, no dudes en visitar nuestras Últimas noticias.

Dolores Abuin

Abogada especializada en Inteligencia Artificial Generativa, LLMS y ética de la IA. Participa en la elaboración del Código de Buenas Prácticas de la Comisión Europea y la Oficina Europea de IA, que regulará el uso de modelos de IA de propósito general en la UE. Miembro de OdiseIA en el área robots-persona.

Comparte esta noticia si crees que puede ser interesante. Gracias por leernos.