Révolution de l’apprentissage par renforcement : FASTCURL et les Modèles R1 – NEURA KING

Révolution de l'apprentissage par renforcement : FASTCURL et les Modèles R1

Les modèles de langage de grande taille ont transformé la compréhension et la génération de texte par les machines, en particulier dans des domaines complexes tels que le raisonnement mathématique. Ces systèmes, appelés modèles R1, imitent des processus de pensée lents et délibérés. Leur force réside dans leur capacité à gérer des tâches complexes nécessitant un raisonnement étape par étape sur de longues séquences. Cela les rend précieux pour des applications comme la résolution de problèmes mathématiques de niveau Olympiade ou des tâches de raisonnement logique, où la profondeur et la cohérence du raisonnement sont essentielles.

Cependant, un défi majeur dans l’entraînement de ces modèles réside dans le coût computationnel élevé de l’apprentissage par renforcement, en particulier lors de l’utilisation de fenêtres de contexte longues. Les tâches nécessitant une logique multi-étapes forcent les modèles à produire des réponses longues, ce qui consomme davantage de ressources et ralentit l’apprentissage. De plus, toutes les réponses longues n’apportent pas une valeur ajoutée significative à la précision, de nombreuses justifications étant redondantes. Ces inefficacités dans la génération de réponses rendent difficile l’échelle d’entraînement efficace, surtout pour des modèles de 1,5 milliard de paramètres.

Innovations dans l’entraînement : l’émergence de fastcurl

Pour surmonter ces inefficacités, des chercheurs de Tencent ont introduit un cadre d’apprentissage par renforcement appelé FASTCURL. Cette méthode propose une stratégie basée sur un curriculum, alignée avec l’expansion de la fenêtre de contexte. FASTCURL segmente le jeu de données en catégories courtes, longues et combinées, permettant de progresser en quatre étapes, chacune utilisant un ensemble de données et un paramètre de fenêtre contextuelle différents. Cette approche garantit que le modèle maîtrise d’abord un raisonnement simple avant de passer à des raisonnements plus complexes.

Le processus de formation, qui s’effectue sur un seul nœud avec seulement 8 GPU, réduit considérablement la complexité d’installation. En effet, FASTCURL commence avec des invites courtes sous une fenêtre de 8K, puis évolue vers un ensemble de données mixte avec une fenêtre de 16K, suivi d’un ensemble de données longues avec la même taille de fenêtre, et enfin, le modèle revoit les données combinées. Chaque étape est entraînée pour une itération, nécessitant environ 860 étapes d’entraînement, ce qui est efficace par rapport aux 1 750 étapes requises par le modèle DeepScaleR, représentant une réduction de 50 % du temps et de l’utilisation des ressources, tout en maintenant l’efficacité.

Résultats et performances de fastcurl

Les évaluations de performance montrent que le modèle FASTCURL-1.5B-Preview a surpassé d’autres modèles sur cinq benchmarks. Il a obtenu des scores de 88,0 sur MATH 500, 43,1 sur AIME 2024, 74,2 sur AMC 2023, 31,6 sur Minerva Math et 50,4 sur OlympiadBench, avec un score PASS@1 moyen de 57,5. En comparaison, le modèle DeepScaleR-1.5B-Preview a enregistré un score moyen de 57,0, FASTCURL ayant mieux performé dans quatre des cinq ensembles de données. Ces résultats montrent que FASTCURL peut surpasser les techniques existantes tout en consommant significativement moins de ressources. De plus, le modèle a montré une meilleure généralisation, en particulier sur des ensembles de données tels qu’AMC 2023 et Minerva Math, ce qui témoigne de sa robustesse.

Conclusion

Cette recherche met en lumière un problème computationnel dans l’entraînement des modèles de raisonnement R1 et propose une stratégie innovante basée sur un curriculum comme solution. En combinant une segmentation des données basée sur les entrées avec une expansion de contexte, FASTCURL offre un cadre d’entraînement efficace et pratique. Ce modèle démontre qu’un design d’entraînement stratégique peut rivaliser avec l’échelle computationnelle brute, prouvant que l’innovation dans les méthodes d’apprentissage peut considérablement améliorer les performances des modèles d’intelligence artificielle.

Flash info

Utilisation croissante de l'ia dans la production audiovisuelle
Utilisation croissante de l'ia dans la production audiovisuelle
L'IA révolutionne l'audiovisuel : 60% des studios l'utilisent déjà en...
Amélioration de l'adaptabilité dans dinov2 grâce à la régularisation randomized-mlp
Amélioration de l'adaptabilité dans dinov2 grâce à la régularisation randomized-mlp
Les réseaux de neurones Randomized-MLP révolutionnent l'adaptabilité de l'IA Actuellement,...
Cognition et planification avec le token : avancée dans l'ia
Cognition et planification avec le token : avancée dans l'ia
Token Is All You Need : une révolution en planification...
Extraction automatique de données de factures avec llm et ocr
Extraction automatique de données de factures avec llm et ocr
Actuellement, le marché de l'extraction automatisée des données factures explose...
évaluation de la qualité en fabrication additive métallique avec l'ia vision-langage
évaluation de la qualité en fabrication additive métallique avec l'ia vision-langage
L'intelligence artificielle révolutionne le contrôle qualité dans l'industrie métallurgique Actuellement,...
Voir toutes les brèves

Dépêches

Softbank investit massivement dans openai et cède ses parts nvidia
Softbank investit massivement dans openai et cède ses parts nvidia
SoftBank opère un virage stratégique majeur vers l'IA générative SoftBank...
Controverse environnementale face à l'essor de l'ia en amérique latine
Controverse environnementale face à l'essor de l'ia en amérique latine
Depuis 2020, l'Amérique Latine connaît une expansion fulgurante des technologies...
L'importance des relations humaines face à l'essor de l'ia
L'importance des relations humaines face à l'essor de l'ia
62 % des américains jugent que l'intelligence artificielle nuit aux...
L'ue pourrait atténuer la législation sur l'ia sous pression politique
L'ue pourrait atténuer la législation sur l'ia sous pression politique
Entre protection des citoyens et compétitivité mondiale L'Union européenne pourrait...
Analytique autonome : l'avenir du self-service dans l'entreprise
Analytique autonome : l'avenir du self-service dans l'entreprise
L’intelligence artificielle accélère la démocratisation des données en entreprise La...
Voir toutes les dépêches

Chroniques

Optimiser la gouvernance stratégique grâce à l'intelligence artificielle
Optimiser la gouvernance stratégique grâce à l'intelligence artificielle
L’intelligence artificielle révolutionne la gouvernance stratégique des entreprises en accélérant...
Application innovante de la segmentation dynamique dans l'optimisation des systèmes d'information
Application innovante de la segmentation dynamique dans l'optimisation des systèmes d'information
La segmentation dynamique divise un système d’information en segments ajustables...
Révolution de l'intelligence artificielle : la méthode esp pour surmonter les limites des llm
Révolution de l'intelligence artificielle : la méthode esp pour surmonter les limites des llm
La méthode ESP (Exponential Segmentation Process) révolutionne l’utilisation des grands...
Optimiser la conception des systèmes d'ia avec le facteur anthropomorphe selon la méthode sroc
Optimiser la conception des systèmes d'ia avec le facteur anthropomorphe selon la méthode sroc
Le Système de Répartition Optimisée des Contextes (SROC) révolutionne l’intégration...
L'apport de l'anthropomorphisme dans l'optimisation du sroc pour une meilleure adéquation homme-machine
L'apport de l'anthropomorphisme dans l'optimisation du sroc pour une meilleure adéquation homme-machine
Le Système de Répartition Optimisée des Contextes (SROC) révolutionne la...
Voir toutes les chroniques

IA et politique

Reprise des efforts pour la sécurité de l'IA après l’échec du sommet de Paris
Reprise des efforts pour la sécurité de l'IA après l’échec du sommet de Paris
Après l’échec du sommet de Paris sur l’intelligence artificielle en...
Guerre des puces : enjeux technologiques et stratégiques entre États-Unis et Chine
Guerre des puces : enjeux technologiques et stratégiques entre États-Unis et Chine
Les États-Unis tentent de nuire au secteur de l'IA en...
DeepSeek : Menace à la sécurité nationale des États-Unis
DeepSeek : Menace à la sécurité nationale des États-Unis
Rapport de la commission de la chambre des représentants :...
L'UE interdit les assistants virtuels : une nouvelle règle pour les agents IA
L'UE interdit les assistants virtuels : une nouvelle règle pour les agents IA
Envisagiez-vous d'envoyer votre assistant intelligent à une réunion en ligne...
Acceptez qu'on vous vole, sinon, c'est la fin
Acceptez qu'on vous vole, sinon, c'est la fin
OpenAI affirme que l'accès sans restriction aux données d'entraînement de...
Voir tous les sujets politique

Opinions

Ils collectent vos données, exploitent vos idées et préparent votre remplacement
Ils collectent vos données, exploitent vos idées et préparent votre remplacement
OpenAI : L’illusion de l’innovation indépendante Les entreprises qui développent...
Pourquoi Grok dit (disait) que Musk est un désinformateur ?
Pourquoi Grok dit (disait) que Musk est un désinformateur ?
En 2024, Grok a fait la une en qualifiant Elon...
Comment faire passer un président pour un tocard ?
Comment faire passer un président pour un tocard ?
Au détour d'une actualité, nous constatons que l'état profond en...
OpenAI o3-mini réfléchit en Mandarin !
OpenAI o3-mini réfléchit en Mandarin !
Nous l'avions prédit : DeepSeek, le cadeau technologique empoisonné de...
DeepSeek : Le cadeau empoisonné de la Chine
DeepSeek : Le cadeau empoisonné de la Chine
Le monde entier s'inquiète de DeepSeek, mais pourquoi réellement ?...
Voir tous les sujets d'opinion

Decryptage

Reprise des efforts pour la sécurité de l'IA après l’échec du sommet de Paris
Reprise des efforts pour la sécurité de l'IA après l’échec du sommet de Paris
Après l’échec du sommet de Paris sur l’intelligence artificielle en...
Ils collectent vos données, exploitent vos idées et préparent votre remplacement
Ils collectent vos données, exploitent vos idées et préparent votre remplacement
OpenAI : L’illusion de l’innovation indépendante Les entreprises qui développent...
Elon Musk et Microsoft s'associent pour un projet d'IA de 30 milliards de dollars
Elon Musk et Microsoft s'associent pour un projet d'IA de 30 milliards de dollars
Microsoft, en collaboration avec BlackRock et la société MGX basée...
L'intelligence artificielle (IA)
L'intelligence artificielle (IA)
Durée de lecture : > 1 heure. L'intelligence artificielle (IA)...
Comment l'IA nous manipule ?
Comment l'IA nous manipule ?
Les modèles d'IA génératifs sont conçus pour produire des textes...
Voir tous les sujets décryptages
Retour en haut