Logo Apple illuminé sur la façade de l'Apple Store de Hambourg photographié de nuit

Une étude d’Apple montre qu’un modèle open source bat GPT-5 en conception d’interfaces

Une nouvelle étude publiée par Apple révèle que les modèles d’IA qui génèrent des interfaces utilisateur peuvent être considérablement améliorés lorsque des concepteurs professionnels fournissent des retours via leurs méthodes de travail naturelles, plutôt que par des systèmes d’évaluation conventionnels. Résultat : un modèle open source affiné surpasse GPT-5 d’OpenAI en qualité de génération d’UI.

La recherche, publiée sur arXiv et accompagnée du code source sur GitHub, remet en question l’approche dominante en matière d’alignement de l’IA basée sur des simples classements ou notations.

Le retour des designers : ça change tout

Apple a recruté 21 designers professionnels avec une expérience allant de 2 à plus de 30 ans dans les domaines du design UI/UX, du design de produit et du design de service. Les participants ont fourni des retours en utilisant quatre méthodes différentes : le classement par paires conventionnel, les commentaires en langage naturel, le croquis ancré visuellement, et la révision directe dans un logiciel de design.

Au total, les designers ont généré 1 460 annotations. Lorsque des évaluateurs indépendants ont évalué la qualité de ces retours, les résultats sont sans appel : ils ont approuvé les révisions manuelles des designers dans 76,1% des cas et les améliorations basées sur les croquis dans 63,6% des cas. En revanche, les évaluateurs n’ont approuvé les choix de classement simple que dans 49,2% des cas, soit essentiellement pas mieux que le hasard.

« Les paires de préférences d’interface utilisateur générées à partir des flux de travail naturels de retour des designers présentent des niveaux de désaccord plus faibles que les retours de classement conventionnels« , concluent les chercheurs.

En utilisant ces retours pour entraîner un modèle de récompense, Apple a affiné le modèle open source Qwen2.5-Coder en utilisant une approche appelée optimisation ORPO. Le modèle résultant a surpassé tous les modèles de référence testés lors d’évaluations humaines, y compris GPT-5 d’OpenAI.

L’étude s’appuie sur les recherches antérieures d’Apple sur UICoder, qui utilisait des outils automatisés pour améliorer les interfaces générées par les LLM. Ce nouveau travail démontre que même des quantités relativement petites de retours de designers de haute qualité peuvent permettre à des modèles open source plus petits de dépasser des systèmes propriétaires plus grands.

Les chercheurs reconnaissent que les retours basés sur la révision manuelle, bien qu’ils produisent des données de la plus haute qualité, sont également les plus chronophages : en moyenne 3,45 minutes par annotation contre environ 12 secondes pour les classements. Les retours basés sur des esquisses se révèlent être un compromis pratique, permettant aux designers de fournir des suggestions visuellement ancrées avec de brèves explications textuelles.

Ces résultats remettent en question l’approche RLHF (Reinforcement Learning from Human Feedback) traditionnelle, où les retours humains sont généralement collectés via des interfaces simples de type j’aime/je n’aime pas ou de classement. Apple soutient que de telles méthodes ignorent « la richesse du raisonnement utilisé pour critiquer et améliorer les designs d’interface utilisateur » et ne parviennent pas à capturer les connaissances tacites du domaine.

Apple a publié les modèles entraînés en libre accès via GitHub sous le nom de dépôt « ml-rldf », permettant à la communauté de reproduire et d’étendre ces travaux.

Retour en haut