Auteur: Neura Tech - mer. 26 Mar 2025

OpenAI dévoile GPT-4o : génération d’images et innovation multimodale

OpenAI a récemment activé les capacités de génération d’images natives de son modèle multimodal GPT-4o, impressionnant déjà de nombreux utilisateurs. Ce lancement intervient alors que l’on approche du premier anniversaire de la sortie de GPT-4o, qui a été dévoilé en mai 2024. Désormais, les utilisateurs de ChatGPT, y compris ceux des plans Plus, Pro, Team et Free, peuvent bénéficier de cette fonctionnalité innovante, avec une extension prévue pour les entreprises et les établissements éducatifs via une API.

Contrairement à DALL-E 3, le modèle précédent d’OpenAI qui se concentrait uniquement sur la reconstruction d’images à partir de textes, GPT-4o intègre la génération d’images au sein d’un même modèle qui produit également du texte et du code. Cette approche multimodale permet à GPT-4o de comprendre et de créer des médias variés simultanément, offrant ainsi une qualité d’image nettement supérieure et des textes intégrés plus précis.

Greg Brockman, président d’OpenAI, avait déjà évoqué cette capacité native en mai 2024. Cependant, des raisons non divulguées avaient retardé son activation jusqu’à présent, notamment après la sortie d’une fonctionnalité similaire par Google AI Studio avec son modèle Gemini 2 Flash. Les utilisateurs ont déjà fait l’éloge de la qualité des images générées, qualifiant les résultats de « fous » et de « réalistes ».

Une interface améliorée pour la création visuelle

Les utilisateurs peuvent désormais générer des images directement dans ChatGPT, ajustant les détails via des conversations. La capacité de GPT-4o à rendre du texte avec précision dans des images ouvre la voie à la création de signes, de menus, d’invitations et d’infographies. Sa compréhension contextuelle améliorée permet des interactions plus dynamiques, tout en maintenant une cohérence visuelle grâce à la possibilité de travailler sur des images antérieures.

Parmi les applications clés de GPT-4o, on trouve :

Design et Branding : Création de logos et de publicités avec un placement de texte précis.
Éducation et visualisation : Élaboration de diagrammes scientifiques et d’infographies.
Développement de jeux : Maintien de la cohérence des personnages à travers différentes itérations de design.
Marketing et création de contenu : Production de ressources pour les médias sociaux et d’illustrations digitales.

Améliorations comparées à dall-e

GPT-4o surpasse DALL-E grâce à plusieurs améliorations notables :

Intégration de texte : Capacité à intégrer des mots de manière lisible et bien placée.
Compréhension contextuelle : Utilisation de l’historique des conversations pour améliorer les générations d’images.
Gestion des objets multiples : Capacité de positionner jusqu’à 20 objets distincts dans une scène.
Adaptation de style : Flexibilité pour créer des images dans divers styles, du croquis à la photoréalité.

Limites et engagement envers la sécurité

Malgré ces avancées, des défis subsistent, notamment des problèmes de recadrage pour les grandes images et des difficultés avec certains scripts non latins. OpenAI travaille activement à l’amélioration de ces aspects.

Dans un souci de développement responsable, toutes les images générées par GPT-4o incluent des métadonnées C2PA pour garantir leur origine. Des mesures de sécurité strictes sont mises en place pour empêcher la création de contenus nuisibles ou trompeurs.

Sam Altman, PDG d’OpenAI, a décrit ce lancement comme un « nouveau standard pour la liberté créative », illustrant l’engagement de l’entreprise à rendre la génération d’images accessible et pratique. GPT-4o représente ainsi une avancée significative vers l’intégration de la génération d’images dans les outils de communication et de créativité modernes.