Un modèle d'IA qui raisonne comme nous
L'EPFL développe un nouveau LLM dont la structure s’inspire de celle du cerveau humain
Lorsqu’un grand modèle de langage (LLM) classique est confronté à un problème, il tente de le résoudre en le mettant en correspondance avec des informations similaires qu’il a déjà rencontrées, puis fournit une réponse basée sur ces schémas antérieurs. Mais, vu de l’extérieur, la manière dont il décide quelles informations utiliser et quelle valeur il accorde aux différentes informations peut sembler impénétrable.
De son côté, le nouveau LLM Micro (Mixture of Cognitive Reasoners) est divisé, sur le plan architectural, en quatre domaines spécialisés. Ils agissent comme différentes parties du cerveau humain, permettant ainsi aux utilisateurs d’avoir davantage de contrôle sur la manière dont il aborde une question et de mieux comprendre comment il parvient à ses réponses. Ce modèle, qui a été présenté lors de la Conférence internationale sur les représentations d’apprentissage, est le fruit des travaux du Natural Language Processing Lab, rattaché à la Faculté informatique et communications (IC), et du NeuroAI Lab, rattaché à l’IC et à la Faculté des sciences de la vie de l’EPFL.
Les quatre experts
Pour créer Micro, les chercheurs ont identifié quatre régions du cerveau spécialisées dans différentes fonctions, qualifiées d’«experts»: le langage, la logique, le raisonnement social et la connaissance du monde. «Le cerveau est organisé en régions spécialisées, chacune étant adaptée pour gérer une fonction spécifique. Cette division du travail n’apparaît pas de façon aussi claire dans les modèles de langage actuels», explique Badr AlKhamissi, doctorant à la tête de cette recherche. «Nous avons sélectionné quatre régions cérébrales bien connues des neuroscientifiques et avons doté le modèle de ses propres modules spécialisés, chacun étant entraîné pour correspondre à l’une de ces régions cérébrales.»
Un LLM fonctionne généralement comme un ensemble de couches à travers lesquelles un problème ou une question peut être traité. Dans le cas de Micro, chaque couche est divisée en quatre «experts» distincts. Lorsque l’on soumet une phrase au modèle, par exemple «Le chat est endormi», elle atterrit au niveau de la première couche. Au sein de cette couche, le routeur peut alors choisir un expert pour le premier mot «le», mais un expert différent pour le deuxième mot «chat», et ainsi de suite, ce qui rend le modèle modulaire et hautement adaptable.
«Chaque mot d’une phrase peut être confié à un expert différent», explique Badr AlKhamissi. «Ainsi, une même phrase peut en réalité être traitée par plusieurs experts à chaque couche.»
Prenons par exemple une requête telle que: «Emma souhaite répartir une addition de 60 francs entre trois amis, mais elle sait que Jake a perdu son emploi la semaine dernière et qu’il est trop fier pour avouer qu’il a des difficultés.» Un module purement mathématique divise 60 francs par trois, cela fait 20 francs chacun. Mais le module de raisonnement social perçoit quelque chose de plus subtil: la prise de conscience par Emma de la situation de Jake, sa fierté tacite et la suggestion implicite qu’elle pourrait discrètement prendre en charge sa part. Ces deux types de raisonnement sont nécessaires pour comprendre pleinement ce qui se passe. Dans Micro, chaque aspect de la consigne est acheminé vers l’expert le mieux à même de le traiter.
«Quand on regarde comment le modèle fonctionne, on constate qu’il achemine les mots liés aux aspects sociaux vers l’expert social, et, lorsqu’il s’occupe de la partie mathématique, il achemine ces chiffres vers l’expert en logique.»
Cette séparation permet de mieux comprendre comment le modèle «pense» et pourquoi il prend certaines décisions. Cela signifie aussi que les décisions peuvent être dirigées: par exemple, on peut choisir de renforcer l’influence de l’expert en relations sociales ou de limiter celle de l’expert en logique, selon le type de modèle que l’on souhaite utiliser dans une situation donnée.
«Dans les LLM classiques, on y parvient par le biais de prompts, en demandant au modèle de rendre la sortie plus sociale ou plus liée aux émotions», explique Badr AlKhamissi. «Mais ici, cela se fait en intervenant directement sur l’architecture elle-même, sans recourir à aucun prompt.»
«Un cercle vertueux»
Pour créer Micro, l’équipe de l’EPFL a collaboré avec Greta Tuckute, neuroscientifique de Harvard et du MIT, afin de comprendre quelles parties du cerveau humain sont activées par différents problèmes. Elle a ensuite appliqué ces connaissances au modèle.
Les neuroscientifiques ont identifié la région du cerveau analogue à l’expert en «logique en soumettant des sujets à des tâches exigeantes, telles que des équations mathématiques complexes, et à des tâches moins exigeantes, comme des équations mathématiques simples. Ils ont ensuite enregistré leur activité cérébrale afin de déterminer quelles régions du cerveau étaient les plus actives lors des tâches exigeantes par rapport aux tâches non exigeantes. Puis, l’équipe de Badr AlKhamissi a procédé de la même manière avec le modèle, en lui soumettant des équations mathématiques complexes pour voir quels experts seraient les plus activés.
«Ce qui est génial, c’est que nous avons utilisé exactement la même méthode que celle employée en neurosciences, mais appliquée au modèle. Et le modèle a été capable d’identifier ces experts de lui-même.»
Si les neurosciences alimentent le modèle, ce dernier contribue aussi à la compréhension du cerveau. Il permet potentiellement aux neuroscientifiques de découvrir les contributions des différentes zones à un problème ou à une question donnés. Ainsi, une phrase donnée peut, par exemple, activer les zones du langage à 20%, les zones mathématiques à 50% et les zones de raisonnement social à 40%.
«Dans le cadre de ma thèse de doctorat, je me suis intéressé à ce cercle vertueux entre les neurosciences et l’IA. D’une part, nous utilisons les découvertes et les connaissances issues des neurosciences et nous les intégrons dans des modèles linguistiques», explique Badr AlKhamissi. «D’autre part, grâce à des modèles comme Micro, nous pouvons explorer l’autre sens et nous demander comment utiliser les modèles d’IA pour mieux comprendre le cerveau.»