Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture de l’IA. Apprendre encore plus
La startup d’intelligence artificielle basée à Tokyo, Sakana, co-fondée par d’anciens scientifiques de Top Google AI, dont Llion Jones et David Ha, a dévoilé un nouveau type de Architecture du modèle AI appelé Machines de pensée continues (CTM).
Les CTM sont conçues pour inaugurer une nouvelle ère de modèles de langage AI qui seront plus flexibles et capables de gérer un plus large éventail de tâches cognitives – telles que la résolution de labyrinthes complexes ou de tâches de navigation sans indices de position ou préexistant des intérêts spatiaux – les rapprochant de la raison pour laquelle les êtres humains raisonnent par des problèmes inconnus.
Plutôt que de s’appuyer sur des couches parallèles fixes qui traitent les entrées en une seule fois – comme le font les modèles de transformateurs – le CTMS déplie les étapes de chaque unité d’entrée / sortie, connue sous le nom de «neurone» artificiel.
Chaque neurone du modèle conserve une courte histoire de son activité précédente et utilise cette mémoire pour décider quand s’activer à nouveau.
Cet état interne ajouté permet à CTMS d’ajuster dynamiquement la profondeur et la durée de leur raisonnement, selon la complexité de la tâche. En tant que tel, chaque neurone est beaucoup plus dense et complexe que dans un modèle de transformateur typique.
La startup a publié un Document sur le journal en plein air Arxiv décrivant son travail, un microsite et Référentiel GitHub.
En quoi CTMS diffère des LLM basés sur les transformateurs
La plupart des modèles de grande langue (LLMS) modernes sont toujours fondamentalement basés sur l’architecture «Transformer» décrite dans l’article fondateur de 2017 de Google Brain Researchers intitulé «L’attention est tout ce dont vous avez besoin. ”
Ces modèles utilisent des couches parallélisées et à profondeur fixe de neurones artificiels pour traiter les entrées en un seul passage – si ces entrées proviennent des invites utilisateur au moment de l’inférence ou des données étiquetées pendant la formation.
En revanche, CTMS permet à chaque neurone artificiel de fonctionner sur son propre calendrier interne, prenant des décisions d’activation basées sur une mémoire à court terme de ses états précédents. Ces décisions se déroulent sur des étapes internes appelées «tiques», permettant au modèle d’ajuster dynamiquement sa durée de raisonnement.
Cette architecture basée sur le temps permet à CTMS de raisonner progressivement, en ajustant la durée et la profondeur de leur calcul – en prenant un nombre différent de tiques en fonction de la complexité de l’entrée.
La mémoire et la synchronisation spécifiques aux neurones aident à déterminer quand le calcul doit se poursuivre – ou s’arrêter.
Le nombre de tiques change en fonction des informations saisies et peut être plus ou moins même si les informations d’entrée sont identiques, car chaque neurone décide du nombre de tiques à subir avant de fournir une sortie (ou de ne pas en fournir une du tout).
Cela représente à la fois un écart technique et philosophique par rapport à l’apprentissage en profondeur conventionnel, évoluant vers un modèle plus fondé sur la base. Sakana a conçu CTMS comme un pas vers une plus grande intelligence de type cerveau – des systèmes qui s’adaptent au fil du temps, traitent les informations de manière flexible et s’engagent dans un calcul interne plus profond en cas de besoin.
L’objectif de Sakana est de «finalement atteindre des niveaux de compétence qui rivalisent ou dépassent les cerveaux humains».
En utilisant des délais variables et personnalisés pour fournir plus d’intelligence
Le CTM est construit autour de deux mécanismes clés.
Premièrement, chaque neurone du modèle maintient une courte «historique» ou la mémoire de travail de son activité et pourquoi, et utilise cette histoire pour prendre une décision de tirer ensuite.
Deuxièmement, synchronisation neuronale – comment et quand groupes Des neurones artificiels d’un modèle «tirer» ou de traitement des informations ensemble – peut se produire de manière organique.
Des groupes de neurones décident du moment de tirer ensemble en fonction de l’alignement interne, et non des instructions externes ou de la mise en forme de récompense. Ces événements de synchronisation sont utilisés pour moduler l’attention et produire des sorties – c’est-à-dire que l’attention est dirigée vers les domaines où plus de neurones tirent.
Le modèle ne traite pas seulement des données, il est de chronométrer sa réflexion pour correspondre à la complexité de la tâche.
Ensemble, ces mécanismes permettent au CTMS de réduire la charge de calcul sur des tâches plus simples tout en appliquant un raisonnement plus profond et prolongé si nécessaire.
Dans des démonstrations allant de la classification des images et de la résolution de labyrinthe 2D à l’apprentissage du renforcement, CTMS a montré à la fois l’interprétabilité et l’adaptabilité. Leurs étapes de «pensée» internes permettent aux chercheurs d’observer comment les décisions se forment au fil du temps – un niveau de transparence rarement observé dans d’autres familles de modèles.
Résultats précoces: comment CTMS se compare aux modèles de transformateurs sur des références et des tâches clés
La machine à réflexion continue de Sakana Ai n’est pas conçue pour poursuivre les scores de référence en termes de classement, mais ses premiers résultats indiquent que sa conception biologiquement inspirée ne se fait pas au prix de la capacité pratique.
Sur l’indice de référence ImageNet-1k largement utilisé, le CTM a atteint 72,47% TOP-1 et 89,89% de précision top 5.
Bien que cela ne soit pas des modèles de transformateurs de pointe comme VIT ou ConvNext, il reste compétitif, en particulier en considérant que l’architecture CTM est fondamentalement différente et n’a pas été optimisée uniquement pour la performance.
Ce qui ressort le plus, ce sont les comportements de CTM dans les tâches séquentielles et adaptatives. Dans les scénarios de résolution de labyrinthes, le modèle produit des sorties directionnelles étape par étape des images brutes, sans utiliser d’intégration de position, qui sont généralement essentielles dans les modèles de transformateurs. Les traces d’attention visuelle révèlent que le CTMS s’occupe souvent des régions d’image d’une séquence de type humain, comme l’identification des caractéristiques faciales des yeux à un nez à l’autre.
Le modèle présente également un étalonnage fort: ses estimations de confiance s’alignent étroitement sur la précision de la prédiction réelle. Contrairement à la plupart des modèles qui nécessitent une échelle de température ou des ajustements post-hoc, le CTMS améliore l’étalonnage naturellement en faisant la moyenne des prévisions au fil du temps au fur et à mesure que leur raisonnement interne se déroule.
Ce mélange de raisonnement séquentiel, d’étalonnage naturel et d’interprétabilité offre un compromis précieux pour les applications où la confiance et la traçabilité comptent autant que la précision brute.
De quoi nécessaire avant que CTMS ne soit prêt pour les entreprises et le déploiement commercial?
Bien que CTMS présente une promesse substantielle, l’architecture est toujours expérimentale et n’est pas encore optimisée pour le déploiement commercial. Sakana AI présente le modèle en tant que plate-forme de recherche et d’exploration plus approfondies plutôt que comme une solution d’entreprise plug-and-play.
La formation CTMS exige actuellement plus de ressources que les modèles de transformateurs standard. Leur structure temporelle dynamique élargit l’espace d’état, et un réglage minutieux est nécessaire pour assurer un apprentissage stable et efficace sur les pas de temps interne. De plus, le support de débogage et d’outillage est toujours en train de rattraper son retard – beaucoup des bibliothèques et des profileurs d’aujourd’hui ne sont pas conçus avec les modèles non pliants dans le temps.
Pourtant, Sakana a jeté une base solide pour l’adoption des communautés. L’implémentation CTM complète est ouverte Github et comprend des scripts de formation spécifiques au domaine, des points de contrôle pré-entraînés, des utilitaires de traçage et des outils d’analyse. Les tâches prises en charge incluent la classification des images (ImageNet, CIFAR), la navigation de labyrinthe 2D, le qamnisiste, le calcul de parité, le tri et l’apprentissage du renforcement.
Une démo Web interactive permet également aux utilisateurs d’explorer le CTM en action, observant comment son attention se déplace au fil du temps pendant l’inférence – une façon convaincante de comprendre le flux de raisonnement de l’architecture.
Pour que CTMS atteigne les environnements de production, des progrès supplémentaires sont nécessaires dans l’optimisation, l’efficacité matérielle et l’intégration avec des pipelines d’inférence standard. Mais avec un code accessible et une documentation active, Sakana a permis aux chercheurs et aux ingénieurs de commencer à expérimenter le modèle aujourd’hui.
Ce que les dirigeants de l’IA de l’entreprise devraient savoir sur CTMS
L’architecture CTM est encore à ses débuts, mais les décideurs d’entreprise devraient déjà en prendre note. Sa capacité à allouer de manière adaptative le calcul, à l’autoréguler la profondeur de raisonnement et à offrir une interprétabilité claire peut s’avérer très précieuse dans les systèmes de production confrontés à une complexité d’entrée variable ou à des exigences réglementaires strictes.
Les ingénieurs AI gérant le déploiement du modèle trouveront de la valeur dans l’inférence économe en énergie de CTM – en particulier dans les applications à grande échelle ou sensibles à la latence.
Pendant ce temps, le raisonnement étape par étape de l’architecture débloque une explication plus riche, permettant aux organisations de retracer non seulement ce qu’un modèle a prédit, mais comment il y est arrivé.
Pour les équipes d’orchestration et de MLOPS, CTMS s’intègre à des composants familiers comme les encodeurs basés sur Resnet, permettant une incorporation plus fluide dans les flux de travail existants. Et les fils d’infrastructure peuvent utiliser les crochets de profilage de l’architecture pour mieux allouer les ressources et surveiller la dynamique des performances au fil du temps.
CTMS n’est pas prêt à remplacer les transformateurs, mais ils représentent une nouvelle catégorie de modèle par de nouvelles offres. Pour les organisations hiérarchiques sur la sécurité, l’interprétabilité et le calcul adaptatif, l’architecture mérite une attention particulière.
L’histoire de la recherche sur l’IA à carreaux de Sakana
En février, Sakana a présenté l’ingénieur AI Cudaun système d’IA agentique conçu pour automatiser la production de hauts Grains de cudales ensembles d’instructions qui permettent aux unités de traitement graphiques (et GPU) de Nvidia (et d’autres) d’exécuter efficacement le code en parallèle sur plusieurs «threads» ou unités de calcul.
La promesse était importante: accélération de 10x à 100x dans les opérations ML. Cependant, peu de temps après la publication, les examinateurs externes ont découvert que le Le système exploitait les faiblesses dans le bac à sable d’évaluation—Esntialement “tricherie«En contournant l’exactitude des vérifications via un exploit de mémoire.
Dans un poste public, Sakana a reconnu le problème et a crédité les membres de la communauté de l’avoir signalé.
Ils ont depuis révisé leur évaluation et leurs outils de profilage d’exécution pour éliminer les lacunes similaires et réviser leurs résultats et leurs documents de recherche en conséquence. L’incident a offert un test du monde réel de l’une des valeurs déclarées de Sakana: adopter l’itération et la transparence à la recherche de meilleurs systèmes d’IA.
Pariant sur les mécanismes évolutifs
L’éthique fondatrice de Sakana AI réside dans la fusion du calcul évolutif avec l’apprentissage automatique moderne. La société estime que les modèles actuels sont trop rigides – liés à des architectures fixes et nécessitant un recyclage pour de nouvelles tâches.
En revanche, Sakana vise à créer des modèles qui s’adaptent en temps réel, présentent un comportement émergent et évoluent naturellement par l’interaction et la rétroaction, tout comme les organismes dans un écosystème.
Cette vision se manifeste déjà dans des produits comme Transformer², un système qui ajuste les paramètres LLM au moment de l’inférence sans recyclage, en utilisant des astuces algébriques comme la décomposition de la valeur singulière.
Cela est également évident dans leur engagement envers les systèmes d’Open-Sourcing comme le scientifique de l’IA – même au milieu de la controverse – déterminez une volonté de s’engager avec la communauté de recherche plus large, pas seulement la concurrence.
Comme les grands titulaires comme Openai et Google doublent les modèles de fondation, Sakana trace un cours différent: petits systèmes dynamiques et biologiquement inspirés qui pensent avec le temps, collaborent par conception et évoluent à travers l’expérience.