DeepSeek
Natively Sparse Attention : DeepSeek toujours en avance.
Résumé PDF DeepSeek vient de publié une autre étude marquante sur l’évolution des mécanismes d’attention dans les modèles de langage, baptisée NSA (Natively Sparse Attention). Cette approche vise à optimiser l’efficacité tout en maintenant des performances élevées, particulièrement dans le traitement de contextes longs. La motivation derrière cette recherche réside dans le constat que les […]
Lire la suite