interface de démonstration du modèle Apple SHARP convertissant une photo 2D de paysage en une scène spatiale 3D avec un insecte

SHARP : l’IA open source d’Apple qui transforme vos photos 2D en scènes 3D spatiales en un éclair

Apple vient de frapper un grand coup dans le domaine de la vision par ordinateur en publiant SHARP, un modèle d’intelligence artificielle capable de reconstruire une scène 3D photoréaliste à partir d’une simple photographie 2D. Cette technologie, présentée dans l’étude Sharp Monocular View Synthesis in Less Than a Second, marque une rupture technologique majeure en traitant l’image en moins d’une seconde sur un GPU standard.

Contrairement aux méthodes de reconstruction classiques utilisant des polygones complexes, le système SHARP s’appuie sur une représentation par gaussiennes 3D. Un réseau de neurones analyse l’image originale et prédit instantanément une collection de volumes flous, assimilables à des nuages de matière, possédant chacun leur propre position, couleur et transparence. Cette approche permet un rendu en temps réel avec une échelle métrique absolue, ce qui signifie que les mouvements de caméra virtuelle respectent les distances réelles de la scène originale. Les résultats expérimentaux sont sans appel, avec une réduction spectaculaire des erreurs visuelles par rapport aux modèles précédents, tout en accélérant le temps de synthèse de trois ordres de grandeur.

Comparaison de rendus 3D générés par le modèle Apple SHARP montrant des zooms sur la précision des textures (algues, tasse, poils de koala) après une synthèse de vue monoculaire.
SHARP parvient à maintenir une fidélité photoréaliste impressionnante sur les détails complexes, même lors de mouvements de caméra virtuels.

Bien qu’Apple ne le confirme pas explicitement, tout porte à croire que cette technologie est le moteur des nouvelles « scènes spatiales » introduites avec iOS 26. Cette fonctionnalité permet de doter n’importe quel cliché classique d’un effet de profondeur et de volume saisissant, offrant l’impression de pouvoir regarder derrière le sujet en faisant pivoter son iPhone. Alors que la capture spatiale était auparavant réservée aux modèles Pro équipés de plusieurs objectifs, SHARP démocratise cette expérience en convertissant les photos 2D standards en contenus immersifs exploitables pour les écrans verrouillés animés ou les widgets.

Une technologie déjà disponible en open source

Fidèle à ses récentes ouvertures vers la communauté de la recherche, Apple a publié l’intégralité du code de Ml Sharp sur github. Les développeurs et les curieux peuvent déjà expérimenter cette révolution via un prototype pour tester SHARP qui convertit vos propres images en nuages de points exportables au format .ply.

Cette ouverture permet d’imaginer des intégrations rapides dans des logiciels de création 3D comme l’application open source Blender, ce qui permettra de générer du contenu spatial à partir de simples archives photographiques. L’air de rien, c’est une avancée appréciable.

Retour en haut