Cómo subir una imagen a ChatGPT con GPT-4

Te explicamos todo lo que necesitas saber sobre cómo subir una imagen a ChatGPT utilizando GPT-4. Esta es una de las novedades más sorprendentes que OpenAI anunció durante su lanzamiento. Primero, analizaremos ejemplos prácticos proporcionados por la propia compañía, y luego te explicaremos si tú también puedes utilizar esta tecnología y cómo hacerlo.

Los ejemplos que mencionaremos aquí provienen de la documentación oficial de GPT-4 publicada por OpenAI. Estos ejemplos ayudan a comprender el gran potencial que tiene subir una imagen a ChatGPT o cualquier otra herramienta que funcione con el motor GPT-4.

GPT-4 tiene la capacidad de detectar anomalías en una fotografía, es decir, cosas extrañas que, aunque posibles, no suelen verse habitualmente. Un ejemplo es una imagen de un hombre planchando ropa atado a la parte trasera de un coche. La pregunta que se le formula a GPT-4 es: “¿Qué tiene de inusual esta imagen?”.

La Sorprendente Respuesta de la IA

La inteligencia artificial no deja de sorprendernos. En esta ocasión, la respuesta fue clara y contundente: “Lo inusual de esta imagen es que un hombre está planchando ropa en una tabla de planchar atada al techo de un taxi en movimiento.”

El Conector VGA para iPhone

Otro ejemplo fascinante sobre la capacidad de reconocimiento de imágenes de ChatGPT con GPT-4 es lo que han denominado el cargador VGA. Un usuario de Reddit publicó unas imágenes de un cable lightning modificado de tal manera que parece que el teléfono está conectado mediante un cabezal VGA. Tras subir la imagen, se le preguntó a GPT-4: “¿Qué tiene de gracioso esta imagen? Descríbelo panel por panel.”

La Ingeniosa Respuesta de GPT-4

La respuesta no solo describe lo que aparece en las imágenes, sino que también identifica el motivo por el cual este conjunto de fotografías es gracioso. GPT-4 devuelve esta respuesta:

Describe cada elemento de la imagen con precisión.
Identifica el humor en la situación.
Señala la ironía del montaje.

Estos ejemplos muestran cómo la inteligencia artificial está avanzando rápidamente, siendo capaz de entender e interpretar situaciones complejas y humorísticas. Sin duda, el futuro de la IA promete ser aún más impresionante.

La imagen que se presenta destaca un paquete para un adaptador «Lightning Cable» a través de tres paneles visuales.

Descripción de los Paneles

Panel 1: Un teléfono inteligente aparece con un conector VGA (un conector grande y azul de 15 pines, típicamente usado para monitores de computadora) conectado a su puerto de carga.

Panel 2: Muestra el paquete del adaptador «Lightning Cable» con una imagen de un conector VGA en la etiqueta.

Panel 3: Un primer plano del conector VGA que revela un pequeño conector Lightning (utilizado para cargar iPhones y otros dispositivos Apple) en el extremo.

El Humor en la Imagen

La gracia de esta imagen reside en lo absurdo de conectar un conector VGA grande y anticuado en un puerto de carga de un teléfono inteligente, que es pequeño y moderno. Esta contradicción provoca una sonrisa al usuario, destacando la disparidad entre lo antiguo y lo nuevo.

Resumen de Documentos

En ningún momento, OpenAI ha mencionado que las herramientas desarrolladas con GPT-4, como ChatGPT, serán capaces de recibir documentos en formato PDF o DOCX como entrada. Sin embargo, dado que sí admite imágenes, es muy sencillo enviarle varios folios con texto y gráficos en un formato compatible.

Esta información es fundamental para entender las capacidades y limitaciones actuales de estas herramientas avanzadas, asegurando así un uso adecuado y efectivo.

En este artículo, exploraremos cómo GPT-4 puede manejar tareas específicas, como la lectura y resumen de documentos. Observaremos un ejemplo práctico y discutiremos una de sus funciones más destacadas: el reconocimiento de imágenes.

Capacidades de GPT-4 para Resumir Documentos

En el siguiente ejemplo, se le solicita a GPT-4 que lea y resuma un fragmento del documento InstructGPT:

Respuesta de GPT-4

GPT-4 responde de la siguiente manera:

El documento InstructGPT se enfoca en entrenar modelos de lenguaje grandes para seguir instrucciones mediante retroalimentación humana. Los autores señalan que hacer modelos de lenguaje más grandes no los hace inherentemente mejores para seguir la intención de un usuario. Los modelos grandes pueden generar resultados falsos, tóxicos o simplemente inútiles.

Subir Imágenes a ChatGPT: Una Función en Espera

Una de las capacidades más destacadas de GPT-4 es el reconocimiento de imágenes. Se espera que esta función llegue a herramientas como ChatGPT y el nuevo Bing de Microsoft, ambos basados en este avanzado modelo de lenguaje. Sin embargo, actualmente esta función no está disponible para el público general. Lo que conocemos hasta ahora proviene de las demostraciones oficiales.

En resumen, aunque GPT-4 ya muestra un rendimiento impresionante en tareas de resumen y comprensión de texto, estamos ansiosos por ver cómo evolucionará con la incorporación de nuevas capacidades como el reconocimiento de imágenes.

El reconocimiento de imágenes en GPT-4 utiliza un avanzado sistema multimodal que combina dos tipos de datos: texto e imagen. Gracias al uso de redes neuronales específicas, GPT-4 es capaz de detectar y analizar el contenido de una imagen. Una vez que los datos visuales se convierten en texto, GPT-4 ofrece una respuesta coherente y natural que describe detalladamente la imagen.

Limitaciones Actuales del Reconocimiento de Imágenes en GPT-4

Actualmente, la capacidad de subir una imagen a ChatGPT con la tecnología de GPT-4 aún no está disponible para el público general. Existen varias razones de peso que podrían explicar esta limitación:

Fiabilidad: Asegurar una precisión máxima en los resultados es un desafío técnico significativo.
Coste: Mantener una infraestructura que soporte un sistema multimodal implica costos elevados.

Expectativas Futuras

A pesar de estas limitaciones, la expectativa de poder disfrutar del reconocimiento de imágenes en GPT-4 sigue siendo alta. Sin embargo, la compañía aún no ha confirmado una fecha exacta para su lanzamiento. Así que, por ahora, tendremos que esperar un poco más para ver esta funcionalidad en acción.

En resumen, GPT-4 promete revolucionar la manera en que interactuamos con la inteligencia artificial, combinando texto e imagen para ofrecer respuestas más completas y detalladas. ¡La espera valdrá la pena!

Si bien es cierto que las capacidades de GPT-4 para leer imágenes todavía están por llegar, ya hay algunas cosas que puedes hacer con ChatGPT al respecto. Algunos usuarios mencionan que es posible enviar la URL de un gráfico y pedirle que lo interprete. No obstante, nosotros lo hemos probado y los resultados no funcionan realmente.

¿Qué se puede hacer actualmente con ChatGPT y las imágenes?

Primero, le hemos pedido que reconociera el logotipo de Google. Lo ha hecho correctamente. Luego, le hemos ordenado que generara el código de una web basándose en un mockup que hemos encontrado en Internet. Aunque ha creado un código, lo cierto es que no se ajustaba al aspecto que le habíamos pedido.

Limitaciones de ChatGPT al interpretar imágenes

Lo más probable es que en realidad ChatGPT no lea la imagen y genere texto tomando en cuenta el contenido de la URL. Esto queda demostrado cuando le hemos demandado que nos diga qué veía en un GIF. Este contenía el logotipo de Google modificado, pero el nombre del archivo no contenía referencias a la marca. El resultado es que GPT se inventa por completo lo que aparece en la imagen.

Conclusión

Aunque ChatGPT puede interpretar algunas imágenes simples o logotipos conocidos, todavía tiene limitaciones significativas. Es importante tener en cuenta estas restricciones al utilizar la herramienta para analizar gráficos o imágenes más complejas.