DeepSeek 3.1 : une fenêtre de contexte géante pour son modèle d’IA open weight

La start-up chinoise DeepSeek poursuit sa trajectoire fulgurante avec la sortie du modèle d’intelligence artificielle V3.1, annoncé discrètement via un groupe WeChat. La principale nouveauté : une fenêtre de contexte portée à 128 000 tokens, l’équivalent d’environ 300 pages de texte, permettant de traiter des documents beaucoup plus volumineux et de soutenir des conversations prolongées sans perte de cohérence.

DeepSeek 3.1 est publié en open weight sous licence MIT, ce qui signifie que les poids du modèle sont accessibles, téléchargeables et utilisables librement, y compris à des fins commerciales. Si la documentation technique reste pour l’instant limitée, cette ouverture offre aux chercheurs et aux entreprises la possibilité d’exécuter le modèle localement ou de l’intégrer à leurs propres outils. Il ne s’agit pas d’open source au sens strict – le code complet et tous les détails ne sont pas disponibles – mais cette transparence tranche avec les approches plus fermées de nombreux concurrents.

Le spectre du retard du modèle R2

Cette annonce intervient alors que l’attention se focalise sur le retard du modèle R2, censé succéder à l’impressionnant R1 lancé en janvier. Les références à R1 ont même disparu du chatbot de la société, nourrissant les spéculations sur une réorientation stratégique. Officiellement attendu au printemps, R2 a buté sur des obstacles techniques liés à l’entraînement sur les processeurs Ascend de Huawei, encouragés par Pékin pour réduire la dépendance aux puces Nvidia. Malgré l’appui d’ingénieurs de Huawei, DeepSeek continue de s’appuyer sur le matériel américain pour l’entraînement massif de ses modèles.

Le succès initial de DeepSeek, capable de produire un modèle performant pour moins de 6 millions de dollars, avait surpris la Silicon Valley et provoqué une onde de choc sur les marchés. Mais la concurrence s’intensifie : des IA alternatives comme Qwen3 d’Alibaba exploitent désormais des techniques similaires avec des gains d’efficacité notables. Après avoir brièvement capté 50 % des usages, DeepSeek serait retombé autour de 3 % de parts, selon les dernières estimations.

Avec cette version 3.1, DeepSeek joue la carte d’une progression incrémentale et pragmatique, tout en laissant planer le doute sur la sortie de R2.

Une fenêtre de contexte élargie pour DeepSeek 3.1

Le spectre du retard du modèle R2

J’aime ça :

Articles similaires

Une fenêtre de contexte élargie pour DeepSeek 3.1

Le spectre du retard du modèle R2

Partager :

J’aime ça :

Articles similaires

Must Read