Illustration conceptuelle pour le projet BigSet. Au centre, l'inscription BigSet est écrite en lettres cursives noires épaisses et brillantes, se terminant par une accolade de fermeture. L'arrière-plan est constitué d'une multitude de piles de livres blancs et de classeurs ouverts affichant des grilles de données financières texturées en niveaux de gris.

Extraire tout le web en une seule phrase ? BigSet libère un outil open source impressionnant

Le développement et la maintenance de scripts de collecte de données, de nettoyage et de traitement de l’information (les fameux pipelines ETL) figurent parmi les tâches les plus chronophages et rébarbatives pour les équipes techniques. Pour dynamiter ce processus et le rendre accessible à tous, la société TinyFish (déjà connue pour sa boîte à outils d’automatisation AgentQL) vient de frapper un grand coup en publiant BigSet.

Ce système multi-agents entièrement open source, distribué sous licence AGPL-3.0, promet de compresser un flux de travail qui prend habituellement plusieurs heures en une simple exécution de deux à cinq minutes. Son secret ? Convertir une simple description en langage naturel en un jeu de données structuré, validé et immédiatement exploitable.

Une armée d’agents IA pour structurer l’information en direct

Le fonctionnement de BigSet repose sur une orchestration de plusieurs modèles d’intelligence artificielle spécialisés qui se passent le relais de manière totalement transparente pour l’utilisateur. Il suffit de lui soumettre une requête textuelle descriptive – par exemple : « les entreprises de l’incubateur YC qui recrutent des ingénieurs, leur niveau de financement, leur localisation et le nombre de postes ouverts » – pour que la machine s’active :

  • L’analyse du schéma de données : le système s’appuie d’abord sur le modèle Claude Sonnet 4.6 (via la plateforme OpenRouter) pour déduire automatiquement la structure du tableau final, définissant les noms des colonnes, les types de données requis et les clés primaires avant même de lancer la recherche.

  • La collecte et la validation : un agent orchestrateur prend ensuite le relais pour planifier la collecte des données en direct sur le web. Il délègue l’extraction à des agents de travail propulsés par le modèle Qwen3.7-max, chargés de rassembler les informations, de supprimer les doublons et de valider la pertinence des résultats.

  • L’exportation finale : une fois le traitement terminé, l’utilisateur récupère un fichier directement exploitable au format CSV ou XLSX.

La souveraineté locale face aux géants du capital-risque

Au-delà de sa simplicité, BigSet se distingue par son architecture technique. L’outil est conçu pour être entièrement auto-hébergé par le biais de conteneurs Docker. Ce choix de conception offre aux entreprises un contrôle absolu sur leurs flux d’informations et sur la confidentialité des requêtes, un argument de poids pour les secteurs hautement réglementés soucieux de leur souveraineté numérique.

Pour démontrer l’efficacité de sa solution, l’équipe de TinyFish n’a pas hésité à publier sur les réseaux sociaux des comparaisons directes avec des alternatives propriétaires du marché, notamment Exa Websets, un outil adossé à des levées de fonds colossales s’élevant à 250 millions de dollars. Soumis aux mêmes requêtes complexes, le concurrent commercial a généré d’importantes hallucinations là où BigSet a restitué des données fiables et vérifiées.

La publication sous licence AGPL-3.0 garantit que toute modification de l’outil proposée sous forme de service cloud devra elle aussi être partagée avec la communauté, protégeant ainsi durablement ce bien commun.

Pour tester l’outil ou participer à son développement, l’intégralité du code source est accessible sur le GitHub de TinyFish BigSet, les guides d’installation étant disponibles sur le portail de l’éditeur TinyFish ainsi que sur leur annonce officielle LinkedIn.

🦋 L’actualité de l’open source dans votre flux. Suivez Goodtech sur Bluesky (ou vos applications AT Protocol préférées) grâce à notre bot officiel. Suivez, partagez, abonnez-vous à @goodtech.info !

Retour en haut