Google bouscule le paradigme de l’intelligence artificielle en déposant un brevet qui remet en cause la nécessité d’utiliser systématiquement des grands modèles de langage (LLMs) pour chaque tâche. La firme propose désormais une approche hybride permettant de mixer automatiquement plusieurs IA génératives selon leur efficacité computationnelle.
Le mécanisme imaginé par Google commence par solliciter un modèle IA compact et économe en ressources pour générer une première réponse. Un module de vérification évalue ensuite la qualité de cette réponse. Si le score atteint le seuil fixé, la réponse est transmise directement à l’utilisateur. À défaut, l’entrée initiale est alors redirigée vers un LLM plus puissant, garantissant une réponse plus approfondie.
Google précise dans son dossier que « le modèle réduit peut comprendre 25 %, 33 %, 50 %, 66 % ou toute autre proportion de paramètres en moins que le modèle principal.
Une version réduite peut ainsi suffire pour traiter certains contenus. » Ce système permet de réduire drastiquement les coûts de calcul tout en augmentant la rapidité des réponses, réservant la puissance des LLMs uniquement aux tâches complexes.
Cette approche soulève une question fondamentale pour les entreprises qui intègrent l’IA à leurs processus : quel est le juste dosage de puissance à engager pour chaque tâche ? Alors que la course à la taille des modèles continue, OpenAI, Microsoft, Alibaba et d’autres proposent déjà des solutions de modèles réduits, confirmant une tendance de fond : la pertinence et l’efficacité priment sur la surenchère technique.
Face à la multiplication des déploiements IA, la recherche d’équilibre entre performance, coût et rapidité devient le nouveau terrain de différenciation pour les entreprises. NEURA KING invite les dirigeants à reconsidérer leurs investissements avec l’équation du gain IA : la rentabilité se trouve désormais dans l’alignement optimal entre la puissance du modèle et la nature de la tâche à accomplir.