Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture de l’IA. Apprendre encore plus
Cela a été un peu une semaine à l’envers pour la première entreprise générative d’IA en termes d’utilisateurs.
Openai, créateur de Chatgpt, publié puis a retiré une version mise à jour du modèle de langue multimodal sous-jacent (texte, image, audio) grand langage (LLM) auquel Chatgpt est connecté par défaut, GPT-4O, car il est trop sycophantique pour les utilisateurs. La société a récemment signalé à Au moins 500 millions d’utilisateurs hebdomadaires actifs du service Web Hit.
Une amorce rapide sur la mise à jour terrible, pas bonne et sycophantique GPT-4O
OpenAI a commencé à mettre à jour le GPT-4O vers un nouveau modèle qu’il espérait être plus bien accueilli par les utilisateurs le 24 avril, terminé le mis à jour d’ici le 25 avril, puis, cinq jours plus tard, l’a renvoyé le 29 avril, après des jours de plaintes de montage des utilisateurs sur les médias sociaux – principalement sur X et Reddit.
Les plaintes variaient en intensité et en spécificiaires, mais toutes se sont généralement fusionnées autour du fait que GPT-4O semblait répondre aux requêtes des utilisateurs avec une flatterie excessive, une prise en charge pour des idées erronées, incorrectes et carrément nuisibles, et le «glaçage» ou l’élevage de l’utilisateur à un degré excessif lorsqu’il n’était pas réellement demandé, beaucoup moins garanti.
Dans des exemples de capture d’écran et publié par les utilisateurs, Chatgpt propulsé par ce modèle GPT-4O sycophantique et mis à jour avait loué et approuvé une idée d’entreprise pour la «merde sur un bâton» littéral, a applaudi un exemple de texte de l’isolement délirant schizophrène, et même prétendument soutenu des plans pour engager le terrorisme.
Les utilisateurs, dont les meilleurs chercheurs d’IA et même un ancien PDG par intérim d’OpenAI, ont déclaré qu’ils craignaient que le cheerleading sans vergogne d’un modèle d’IA pour ces types d’invites d’utilisateurs terribles ne soit plus que ennuyeux ou inapproprié – qu’il pourrait causer des dommages réels aux utilisateurs qui croyaient à tort l’IA et se sentaient enhonnés par son soutien à leurs pires idées et impulsions. Il a atteint le niveau d’un problème de sécurité de l’IA.
Openai a ensuite publié un article de blog Décrivant ce qui a mal tourné – «Nous nous sommes trop concentrés sur les commentaires à court terme et nous ne tenons pas pleinement compte de la façon dont les interactions des utilisateurs avec Chatgpt évoluent au fil du temps. Le responsable du comportement d’Openai, Joanne Jang, a également participé à un reddit «Demandez-moi n’importe quoi» ou au forum AMA répondant aux publications texte des utilisateurs et a révélé plus d’informations sur l’approche de l’entreprise en GPT-4O et comment elle s’est retrouvée avec un modèle excessivement sycophantique, y compris non «Bak[ing] Dans suffisamment de nuances, «sur la façon dont il incorporait les commentaires des utilisateurs tels que les actions« pouces vers le haut »réalisées par les utilisateurs en réponse aux sorties du modèle qu’ils aimaient.
Maintenant aujourd’hui, OpenAI a publié un article de blog Avec encore plus d’informations sur la façon dont la mise à jour sycophantique GPT-4O s’est produite – crédité non pas à un auteur particulier, mais à «Openai».
Le PDG et co-fondateur Sam Altman a publié un lien vers le billet de blog sur x, Dire: “Nous avons raté la marque avec la mise à jour GPT-4O de la semaine dernière. Que s’est-il passé, ce que nous avons appris et certaines choses que nous ferons différemment à l’avenir.”
Ce que le nouveau blog Openai révèle sur comment et pourquoi GPT-4O est devenu si sycophantique
Pour moi, un utilisateur quotidien de Chatgpt, y compris le modèle 4O, l’admission la plus frappante du nouvel article de blog d’Openai sur la mise à jour de la sycophance est la façon dont l’entreprise semble révéler qu’elle a fait Recevez des préoccupations concernant le modèle avant la libération d’un petit groupe de «testeurs experts», mais qu’il a apparemment dépassé ceux en faveur d’une réponse enthousiaste plus large d’un groupe plus large d’utilisateurs plus généraux.
Comme l’écrit l’entreprise (met de l’accent):
«Bien que nous ayons eu des discussions sur les risques liés à la sycophance dans GPT-4O pendant un certain temps, la sycophance n’a pas été explicitement signalée dans le cadre de nos tests pratiques internes, car certains de nos testeurs experts étaient plus préoccupés par le changement du ton et du style du modèle. Certains testeurs experts avaient indiqué que le comportement du modèle «se sentait légèrement»…
“Nous avons ensuite eu une décision à prendre: devrions-nous refuser le déploiement de cette mise à jour malgré des évaluations positives et des résultats des tests A / B, basés uniquement sur les drapeaux subjectifs des testeurs experts? En fin de compte, nous avons décidé de lancer le modèle en raison des signaux positifs des utilisateurs qui ont essayé le modèle.
“Malheureusement, c’était le mauvais appel. Nous créons ces modèles pour nos utilisateurs et bien que les commentaires des utilisateurs soient essentiels à nos décisions, il est finalement de notre responsabilité d’interpréter correctement ces commentaires. »
Cela me semble être une grosse erreur. Pourquoi même avoir des testeurs d’experts si vous ne posez pas leur expertise plus haut que les masses de la foule? J’ai interrogé Altman sur ce choix sur x Mais il n’a pas encore répondu.
Tous les «signaux de récompense» ne sont pas égaux
Le nouveau blog post-mortem d’Openai révèle également plus de détails sur la façon dont l’entreprise forme et met à jour les nouvelles versions des modèles existants, et comment la rétroaction humaine modifie les qualités du modèle, le caractère et la «personnalité». Comme l’écrit l’entreprise:
«Depuis le lancement de GPT – 4O à Chatgpt en mai dernier, nous avons publié cinq mises à jour majeures axé sur les changements de la personnalité et de l’utilité. Chaque mise à jour implique de nouvelles post-formation, et souvent de nombreux ajustements mineurs au processus de formation du modèle sont testés indépendamment puis combinés en un seul modèle mis à jour qui est ensuite évalué pour le lancement.
“Pour les modèles post-trains, nous prenons un modèle de base pré-formé, faisons un réglage fin supervisé sur un large ensemble de réponses idéales écrites par des humains ou des modèles existants, puis effectuons l’apprentissage du renforcement avec des signaux de récompense provenant de diverses sources.
“Pendant l’apprentissage du renforcement, nous présentons le modèle de langue avec une invite et lui demandons d’écrire des réponses. Nous évaluons ensuite sa réponse en fonction des signaux de récompense et mettons à jour le modèle linguistique pour le rendre plus susceptible de produire des réponses plus élevés et moins susceptibles de produire des réponses à faible évaluation.“
De toute évidence, les «signaux de récompense» utilisés par OpenAI pendant la post-formation ont un impact énorme sur le comportement du modèle qui en résulte, et comme l’entreprise a admis plus tôt lorsqu’elle a dépassé les réponses de «pouce» de la parole des utilisateurs de Chatgpt à ses sorties, ce signal peut ne pas être le meilleur à utiliser également avec les autres lors de la détermination de la détermination de la détermination de la détermination de la détermination des autres lors de la détermination de la détermination de la détermination de la détermination de la détermination de la détermination des autres lors de la détermination de la détermination de la détermination de la détermination de la détermination des autres lors de la détermination de la détermination des comment Le modèle apprend à communiquer et Quelles types des réponses qu’il devrait servir. Openai admet cette pure et simple dans le paragraphe suivant de son article, écrivant:
«Définir le bon ensemble de signaux de récompense est une question difficile, et nous prenons en compte beaucoup de choses: les réponses sont-elles correctes, sont-ils utiles, sont-ils conformes à notre Modèle de spécification, sont-ils sûrs, font-ils des utilisateurs comme eux, etc. Avoir des signaux de récompense meilleurs et plus complets produit de meilleurs modèles pour Chatgpt, nous expérimentons donc toujours de nouveaux signaux, mais chacun a ses bizarreries. »
En effet, Openai révèle également que le signal de récompense «Thumbs Up» était un nouveau utilisé aux côtés d’autres signaux de récompense dans cette mise à jour particulière.
«La mise à jour a introduit un signal de récompense supplémentaire basé sur les commentaires des utilisateurs – les données de la réduction et de la baisse de Thumbs de Chatgpt. Ce signal est souvent utile; un pouce vers le bas signifie généralement que quelque chose s’est mal passé.»
Pourtant, de manière critique, l’entreprise ne blâme pas les nouvelles données de «pouce» pour l’échec du modèle et les comportements de cheerleading ostentatoire. Au lieu de cela, le blog d’Openai dit que c’était combiné Avec une variété d’autres signaux de récompense nouveaux et plus anciens, a conduit aux problèmes: «… Nous avons eu des améliorations des candidats pour mieux intégrer les commentaires des utilisateurs, la mémoire et les données plus fraîches, entre autres. Notre évaluation précoce est que chacun de ces changements, qui avait semblé bénéfique individuellement, a peut-être joué un rôle dans le bas des échelles sur la sycophancie lorsqu’elle est combinée.»
Réagissant à ce billet de blog, Andrew Mayne, un ancien membre du personnel technique d’Openai travaillant maintenant chez l’IA Interdimensional, le cabinet de conseil en IA, a écrit sur x d’un autre exemple de la façon dont les changements subtils dans les incitations de récompense et les directives du modèle peuvent avoir un impact considérable sur les performances du modèle:
“Au début d’Openai, j’ai eu un désaccord avec un collègue (qui est maintenant fondateur d’un autre laboratoire) sur l’utilisation du mot «poli» dans un exemple rapide que j’ai écrit.
Ils ont soutenu que «poli» était politiquement incorrect et voulait l’échanger contre «utile».
J’ai souligné que se concentrer uniquement sur l’utilité peut rendre un modèle trop conforme – ainsi conforme, en fait, qu’il peut être dirigé vers le contenu sexuel en quelques tours.
Après avoir démontré ce risque avec un échange simple, l’invite a gardé «poli».
Ces modèles sont bizarres.“
Comment OpenAI prévoit d’améliorer ses processus de test de modèle à l’avenir
La société énumère six améliorations de processus pour éviter un comportement modèle indésirable et moins idéal à l’avenir, mais pour moi le plus important est le suivant:
«Nous allons ajuster notre processus d’examen de la sécurité pour considérer officiellement les problèmes de comportement, tels que les hallucinations, la tromperie, la fiabilité et la personnalité – en bloquant les préoccupations. Même si ces problèmes ne sont pas parfaitement quantifiables aujourd’hui, nous nous engageons à bloquer les lancements en fonction des mesures de procuration ou des signaux qualitatifs, même lorsque des métriques comme les tests A / B semblent bonnes.»
En d’autres termes – malgré l’importance des données, en particulier les données quantitatives, concerne les domaines de l’apprentissage automatique et de l’intelligence artificielle – OpenAI reconnaît que cela ne peut pas et ne devrait pas être le seul moyen par lequel les performances d’un modèle sont jugées.
Alors que de nombreux utilisateurs fournissant un «coup de pouce» pourraient signaler un type de comportement souhaitable à court terme, les implications à long terme sur la façon dont le modèle d’IA réagit et où ces comportements le prennent et ses utilisateurs pourraient finalement conduire à un endroit très sombre, pénible, destructeur et indésirable. Plus n’est pas toujours mieux – surtout lorsque vous contraignez le «plus» à quelques domaines de signaux.
Il ne suffit pas de dire que le modèle a passé tous les tests ou a reçu un certain nombre de réponses positives des utilisateurs – l’expertise des utilisateurs de puissance formés et leurs commentaires qualitatifs selon lesquels quelque chose “semblait éteint” sur le modèle, même s’ils ne pouvaient pas exprimer entièrement pourquoi, devrait prendre beaucoup plus de poids qu’Openai allouait auparavant.
Espérons que l’entreprise – et tout le domaine – apprend de cet incident et intègre les leçons à l’avenir.
Des plats plus larges et des considérations pour les décideurs d’entreprise
Parler peut-être plus théoriquement, pour moi, cela indique également pourquoi l’expertise est si importante – et en particulier, l’expertise dans les domaines au-delà et dehors de celui pour lequel vous optimisez (dans ce cas, l’apprentissage automatique et l’IA). C’est la diversité de l’expertise qui nous permet en tant qu’espèce d’atteindre de nouvelles avancées qui profitent à notre espèce. Un, disons STEM, ne devrait pas nécessairement être tenu au-dessus des autres dans les sciences humaines ou les arts.
Et enfin, je pense également qu’il révèle en son cœur un problème fondamental avec l’utilisation de la rétroaction humaine pour concevoir des produits et des services. Les utilisateurs individuels peuvent dire qu’ils aiment une IA plus sycophantique basée sur chaque interaction isolée, tout comme ils peuvent également dire qu’ils aiment la façon dont les goûts de restauration rapide et de soda, la commodité des contenants plastiques à usage unique, le divertissement et la connexion qu’ils dérivent des médias sociaux, la validation de la vision du monde et l’appartenance du tribaliste qu’ils ressentent lors de la lecture des médias politisés ou des ragots à tabloïd. Encore une fois, pris tous ensemble, le cumul De tous ces types de tendances et d’activités conduisent souvent à des résultats très indésirables pour les individus et la société – l’obésité et la mauvaise santé dans le cas de la restauration rapide, de la pollution et des perturbations endocriniennes dans le cas des déchets plastiques, de la dépression et de l’isolement de la sur-indulgence des médias sociaux, un public plus radical et moins informé du public du corps de la mauvaise qualité.
Les concepteurs de modèles d’IA et les décideurs techniques des entreprises feraient bien de garder cette idée plus large à l’esprit lors de la conception de mesures autour de n’importe quel objectif mesurable – car même lorsque vous pensez que vous utilisez des données à votre avantage, cela pourrait se retourner contre les manières à ce que vous ne vous attendiez pas ou que vous ne vous attendiez pas pleinement, laissant votre brouillage pour réparer les dégâts et le vomètre