DeepSeek vient de publié une autre étude marquante sur l’évolution des mécanismes d’attention dans les modèles de langage, baptisée NSA (Natively Sparse Attention). Cette approche vise à optimiser l’efficacité tout en maintenant des performances élevées, particulièrement dans le traitement de contextes longs.
La motivation derrière cette recherche réside dans le constat que les modèles de langage à contexte long sont devenus indispensables pour les applications modernes. Cependant, les mécanismes d’attention standard présentent des coûts de calcul prohibitifs, en particulier pour les séquences longues. L’attention parcimonieuse se présente comme une solution viable, permettant de réduire ces coûts tout en préservant les capacités du modèle.
Les innovations apportées par NSA se déclinent en plusieurs axes. Tout d’abord, la stratégie hiérarchique dynamique combine une compression initiale des tokens avec une sélection fine, garantissant ainsi une conscience du contexte général tout en maintenant une précision locale. De plus, NSA est conçu pour maximiser son efficacité sur le matériel moderne, optimisant l’accès à la mémoire et l’intensité arithmétique.
Une autre avancée notable est l’entraînement de bout en bout, qui permet de réduire les coûts de pré-entraînement sans compromettre les performances. Les résultats expérimentaux sont éloquents : NSA égalise ou dépasse les performances des modèles à attention complète sur divers benchmarks, y compris des tâches nécessitant des contextes longs.
Les données révèlent des performances impressionnantes, avec des accélérations significatives pour des séquences de 64k tokens. Les gains de vitesse observés atteignent jusqu’à 11,6 fois en décodage, 9,0 fois en propagation avant et 6,0 fois en propagation arrière, rendant NSA particulièrement compétitif.
D’un point de vue algorithmique, NSA agrège les tokens en blocs pour diminuer le nombre de calculs, tout en préservant l’information essentielle. La sélection des tokens les plus pertinents se fait efficacement grâce à des scores d’importance basés sur les scores d’attention intermédiaires. Une fenêtre glissante permet également de capter des informations contextuelles pertinentes, évitant ainsi que les motifs locaux dominent le traitement.
En comparaison avec les méthodes existantes, NSA surpasse nettement les techniques d’attention parcimonieuse antérieures, tant en termes de performances que d’efficacité, en particulier pour les tâches complexes de raisonnement en chaîne.
En conclusion, NSA représente une avancée significative dans le domaine des mécanismes d’attention parcimonieuse. En alliant innovations algorithmiques et optimisations matérielles, il offre une modélisation efficace des contextes longs. Les résultats prometteurs de cette étude positionnent NSA comme une solution d’avenir pour les modèles de langage à grande échelle, renforçant ainsi la position de DeepSeek en tant que pionnier dans le domaine.
https://arxiv.org/pdf/2502.11089