Natively Sparse Attention : DeepSeek toujours en avance. – NEURA KING

Natively Sparse Attention : DeepSeek toujours en avance.

Résumé PDF

DeepSeek vient de publié une autre étude marquante sur l’évolution des mécanismes d’attention dans les modèles de langage, baptisée NSA (Natively Sparse Attention). Cette approche vise à optimiser l’efficacité tout en maintenant des performances élevées, particulièrement dans le traitement de contextes longs.

La motivation derrière cette recherche réside dans le constat que les modèles de langage à contexte long sont devenus indispensables pour les applications modernes. Cependant, les mécanismes d’attention standard présentent des coûts de calcul prohibitifs, en particulier pour les séquences longues. L’attention parcimonieuse se présente comme une solution viable, permettant de réduire ces coûts tout en préservant les capacités du modèle.

Les innovations apportées par NSA se déclinent en plusieurs axes. Tout d’abord, la stratégie hiérarchique dynamique combine une compression initiale des tokens avec une sélection fine, garantissant ainsi une conscience du contexte général tout en maintenant une précision locale. De plus, NSA est conçu pour maximiser son efficacité sur le matériel moderne, optimisant l’accès à la mémoire et l’intensité arithmétique.

Une autre avancée notable est l’entraînement de bout en bout, qui permet de réduire les coûts de pré-entraînement sans compromettre les performances. Les résultats expérimentaux sont éloquents : NSA égalise ou dépasse les performances des modèles à attention complète sur divers benchmarks, y compris des tâches nécessitant des contextes longs.

Les données révèlent des performances impressionnantes, avec des accélérations significatives pour des séquences de 64k tokens. Les gains de vitesse observés atteignent jusqu’à 11,6 fois en décodage, 9,0 fois en propagation avant et 6,0 fois en propagation arrière, rendant NSA particulièrement compétitif.

D’un point de vue algorithmique, NSA agrège les tokens en blocs pour diminuer le nombre de calculs, tout en préservant l’information essentielle. La sélection des tokens les plus pertinents se fait efficacement grâce à des scores d’importance basés sur les scores d’attention intermédiaires. Une fenêtre glissante permet également de capter des informations contextuelles pertinentes, évitant ainsi que les motifs locaux dominent le traitement.

En comparaison avec les méthodes existantes, NSA surpasse nettement les techniques d’attention parcimonieuse antérieures, tant en termes de performances que d’efficacité, en particulier pour les tâches complexes de raisonnement en chaîne.

En conclusion, NSA représente une avancée significative dans le domaine des mécanismes d’attention parcimonieuse. En alliant innovations algorithmiques et optimisations matérielles, il offre une modélisation efficace des contextes longs. Les résultats prometteurs de cette étude positionnent NSA comme une solution d’avenir pour les modèles de langage à grande échelle, renforçant ainsi la position de DeepSeek en tant que pionnier dans le domaine.

 

https://arxiv.org/pdf/2502.11089

Flash info

Fusion stratégique entre rumble et northern data en cours
Fusion stratégique entre rumble et northern data en cours
RUMBLE ET NORTHERN DATA S'ALLIENT POUR DÉFIER LES GÉANTS DU...
Reprise des exportations de puces nexperia par la chine et appel à l'ue
Reprise des exportations de puces nexperia par la chine et appel à l'ue
Actuellement, la Chine a officiellement repris depuis le 6 novembre...
5 vérités surprenantes sur l'ia au travail selon une étude de 3 ans
5 vérités surprenantes sur l'ia au travail selon une étude de 3 ans
L'IA en entreprise révèle son vrai visage : adoption massive...
Mythe sur la performance ia : l'importance réelle des iops
Mythe sur la performance ia : l'importance réelle des iops
Les IOPS, cette mesure tant vantée des opérations d'entrée-sortie par...
Rocky linux devient distribution linux autorisée pour nvidia ai stack
Rocky linux devient distribution linux autorisée pour nvidia ai stack
Rocky Linux reçoit la validation officielle NVIDIA AI Stack NVIDIA...
Voir toutes les brèves

Dépêches

L'importance des relations humaines face à l'essor de l'ia
L'importance des relations humaines face à l'essor de l'ia
62 % des américains jugent que l'intelligence artificielle nuit aux...
L'ue pourrait atténuer la législation sur l'ia sous pression politique
L'ue pourrait atténuer la législation sur l'ia sous pression politique
Entre protection des citoyens et compétitivité mondiale L'Union européenne pourrait...
Analytique autonome : l'avenir du self-service dans l'entreprise
Analytique autonome : l'avenir du self-service dans l'entreprise
L’intelligence artificielle accélère la démocratisation des données en entreprise La...
Amazon poursuit une startup d'ia pour fonctionnalités d'achat automatisé sur navigateur
Amazon poursuit une startup d'ia pour fonctionnalités d'achat automatisé sur navigateur
Amazon poursuit CartGenius AI pour violation de brevets dans le...
Chute spectaculaire des marchés suite à la crainte de bulle ai
Chute spectaculaire des marchés suite à la crainte de bulle ai
Correction brutale des marchés financiers entre le 1er octobre et...
Voir toutes les dépêches

Chroniques

Optimiser la gouvernance stratégique grâce à l'intelligence artificielle
Optimiser la gouvernance stratégique grâce à l'intelligence artificielle
L’intelligence artificielle révolutionne la gouvernance stratégique des entreprises en accélérant...
Application innovante de la segmentation dynamique dans l'optimisation des systèmes d'information
Application innovante de la segmentation dynamique dans l'optimisation des systèmes d'information
La segmentation dynamique divise un système d’information en segments ajustables...
Révolution de l'intelligence artificielle : la méthode esp pour surmonter les limites des llm
Révolution de l'intelligence artificielle : la méthode esp pour surmonter les limites des llm
La méthode ESP (Exponential Segmentation Process) révolutionne l’utilisation des grands...
Optimiser la conception des systèmes d'ia avec le facteur anthropomorphe selon la méthode sroc
Optimiser la conception des systèmes d'ia avec le facteur anthropomorphe selon la méthode sroc
Le Système de Répartition Optimisée des Contextes (SROC) révolutionne l’intégration...
L'apport de l'anthropomorphisme dans l'optimisation du sroc pour une meilleure adéquation homme-machine
L'apport de l'anthropomorphisme dans l'optimisation du sroc pour une meilleure adéquation homme-machine
Le Système de Répartition Optimisée des Contextes (SROC) révolutionne la...
Voir toutes les chroniques

IA et politique

Reprise des efforts pour la sécurité de l'IA après l’échec du sommet de Paris
Reprise des efforts pour la sécurité de l'IA après l’échec du sommet de Paris
Après l’échec du sommet de Paris sur l’intelligence artificielle en...
Guerre des puces : enjeux technologiques et stratégiques entre États-Unis et Chine
Guerre des puces : enjeux technologiques et stratégiques entre États-Unis et Chine
Les États-Unis tentent de nuire au secteur de l'IA en...
DeepSeek : Menace à la sécurité nationale des États-Unis
DeepSeek : Menace à la sécurité nationale des États-Unis
Rapport de la commission de la chambre des représentants :...
L'UE interdit les assistants virtuels : une nouvelle règle pour les agents IA
L'UE interdit les assistants virtuels : une nouvelle règle pour les agents IA
Envisagiez-vous d'envoyer votre assistant intelligent à une réunion en ligne...
Acceptez qu'on vous vole, sinon, c'est la fin
Acceptez qu'on vous vole, sinon, c'est la fin
OpenAI affirme que l'accès sans restriction aux données d'entraînement de...
Voir tous les sujets politique

Opinions

Ils collectent vos données, exploitent vos idées et préparent votre remplacement
Ils collectent vos données, exploitent vos idées et préparent votre remplacement
OpenAI : L’illusion de l’innovation indépendante Les entreprises qui développent...
Pourquoi Grok dit (disait) que Musk est un désinformateur ?
Pourquoi Grok dit (disait) que Musk est un désinformateur ?
En 2024, Grok a fait la une en qualifiant Elon...
Comment faire passer un président pour un tocard ?
Comment faire passer un président pour un tocard ?
Au détour d'une actualité, nous constatons que l'état profond en...
OpenAI o3-mini réfléchit en Mandarin !
OpenAI o3-mini réfléchit en Mandarin !
Nous l'avions prédit : DeepSeek, le cadeau technologique empoisonné de...
DeepSeek : Le cadeau empoisonné de la Chine
DeepSeek : Le cadeau empoisonné de la Chine
Le monde entier s'inquiète de DeepSeek, mais pourquoi réellement ?...
Voir tous les sujets d'opinion

Decryptage

Reprise des efforts pour la sécurité de l'IA après l’échec du sommet de Paris
Reprise des efforts pour la sécurité de l'IA après l’échec du sommet de Paris
Après l’échec du sommet de Paris sur l’intelligence artificielle en...
Ils collectent vos données, exploitent vos idées et préparent votre remplacement
Ils collectent vos données, exploitent vos idées et préparent votre remplacement
OpenAI : L’illusion de l’innovation indépendante Les entreprises qui développent...
Elon Musk et Microsoft s'associent pour un projet d'IA de 30 milliards de dollars
Elon Musk et Microsoft s'associent pour un projet d'IA de 30 milliards de dollars
Microsoft, en collaboration avec BlackRock et la société MGX basée...
L'intelligence artificielle (IA)
L'intelligence artificielle (IA)
Durée de lecture : > 1 heure. L'intelligence artificielle (IA)...
Comment l'IA nous manipule ?
Comment l'IA nous manipule ?
Les modèles d'IA génératifs sont conçus pour produire des textes...
Voir tous les sujets décryptages
Retour en haut