By using this site, you agree to the Privacy Policy and Terms of Use.
Accept
inkeinspires.cominkeinspires.cominkeinspires.com
Notification Show More
Font ResizerAa
  • Home
  • Breaking News
    Breaking NewsShow More
    Trump says Gaza ceasefire possible ‘within the next week’, gives no details | Donald Trump News
    June 28, 2025
    Iran warns President Trump to show respect to supreme leader or face consequences
    June 28, 2025
    The Indian chef who took Tamil fare global and won a ‘food Oscar’
    June 28, 2025
    How an Indian intelligence officer allegedly recruited a businessman to kill a Canadian activist – National
    June 28, 2025
    After U.S. and Israeli Strikes, Could Iran Make a Nuclear Bomb?
    June 28, 2025
  • Business
    BusinessShow More
    Exclusive-Satellite Chemical, Vinmar get US govt letters preventing ethane unloading in China
    June 28, 2025
    American Airlines ‘technology issue’ resolved after causing delays
    June 28, 2025
    Biggest US banks pass Federal Reserve stress tests
    June 28, 2025
    Filipino politicians share deepfake videos in a battle over impeachment: ‘Even if it’s AI…I agree with the point’
    June 28, 2025
    QXO (QXO) Falls 7.23% After $2-Billion Share Sale
    June 28, 2025
  • Entertainment
    EntertainmentShow More
    Diddy Prosecution Defends Cassie in Rebuttal: ‘No Was Not an Option’
    June 28, 2025
    Aubrey O’Day Speaks On Diddy Trial Amid Closing Arguments
    June 28, 2025
    Orlando Bloom’s Split From Katy Perry Lauded As A ‘Well-Timed’ Career Move
    June 28, 2025
    James Cameron’s Biggest Issue With Christopher Nolan’s Oppenheimer
    June 28, 2025
    The Best Star Trek That Isn’t Star Trek At All
    June 27, 2025
  • Gadgets
    GadgetsShow More
    CES 2025: 41 Products You Can Buy Right Now
    January 13, 2025
    I can’t wait try out these 3 great plant tech gadgets that I saw at CES 2025
    January 13, 2025
    6 on Your Side Consumer Confidence: Kitchen gadgets to upgrade family recipes – ABC 6 News
    January 13, 2025
    35+ Best New Products, Tech and Gadgets
    January 13, 2025
    These gadgets kept me connected and working through a 90-mile backpacking trip
    January 13, 2025
  • Health
    HealthShow More
    Best Products for Energy + Recovery inkeinspires
    June 27, 2025
    The Ultimate Beginner’s Guide To Long-Distance Running inkeinspires
    June 27, 2025
    A New Study Finds An 8-Hour Eating Window May Help Burn Fat—But Is It Safe? inkeinspires
    June 27, 2025
    184: Crafting a Morning Routine That Works For YOU inkeinspires
    June 26, 2025
    Endurance Exercise and Longevity – BionicOldGuy inkeinspires
    June 26, 2025
  • Sports
    SportsShow More
    Tottenham now in talks to sell “phenomenon” after bid in the last few days
    June 28, 2025
    Aaron Ramsdale parties with Premier League legend at his Italian wedding
    June 28, 2025
    Brentford reject second bid from Manchester United for Bryan Mbeumo worth £62.5m
    June 28, 2025
    South Africa Playing 11 vs Zimbabwe- 1st Test, South Africa tour of Zimbabwe 2025
    June 28, 2025
    “He’s not interested or joking about it…”: Puja Pabari opens up on beginning of her love life with Cheteshwar Pujara
    June 27, 2025
  • Technology
    TechnologyShow More
    CTGT wins Best Presentation Style award at VB Transform 2025
    June 28, 2025
    Look Up on Friday Night and You Just Might See the Bootids Meteor Shower
    June 28, 2025
    The 28 Best Deals From REI’s July 4 Outdoor Gear Sale (2025)
    June 28, 2025
    Rob Biederman join the stage at All Stage 2025
    June 28, 2025
    From pilot to profit: The real path to scalable, ROI-positive AI
    June 28, 2025
  • Posts
    • Post Layouts
    • Gallery Layouts
    • Video Layouts
    • Audio Layouts
    • Post Sidebar
    • Review
      • User Rating
    • Content Features
    • Table of Contents
  • Contact US
  • Pages
    • Blog Index
    • Search Page
    • Customize Interests
    • My Bookmarks
    • 404 Page
Reading: OpenAI overrode concerns of expert testers to release sycophantic GPT-4o
Share
Font ResizerAa
inkeinspires.cominkeinspires.com
  • Entertainment
Search
  • Home
  • Categories
    • Breaking News
    • Business
    • Sports
    • Technology
    • Entertainment
    • Gadgets
    • Health
  • Contact
Have an existing account? Sign In
Follow US
inkeinspires.com > Technology > OpenAI overrode concerns of expert testers to release sycophantic GPT-4o
Technology

OpenAI overrode concerns of expert testers to release sycophantic GPT-4o

MTHANNACH
Last updated: May 2, 2025 8:03 pm
MTHANNACH Published May 2, 2025
Share
SHARE

Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture de l’IA. Apprendre encore plus


Cela a été un peu une semaine à l’envers pour la première entreprise générative d’IA en termes d’utilisateurs.

Openai, créateur de Chatgpt, publié puis a retiré une version mise à jour du modèle de langue multimodal sous-jacent (texte, image, audio) grand langage (LLM) auquel Chatgpt est connecté par défaut, GPT-4O, car il est trop sycophantique pour les utilisateurs. La société a récemment signalé à Au moins 500 millions d’utilisateurs hebdomadaires actifs du service Web Hit.

Une amorce rapide sur la mise à jour terrible, pas bonne et sycophantique GPT-4O

OpenAI a commencé à mettre à jour le GPT-4O vers un nouveau modèle qu’il espérait être plus bien accueilli par les utilisateurs le 24 avril, terminé le mis à jour d’ici le 25 avril, puis, cinq jours plus tard, l’a renvoyé le 29 avril, après des jours de plaintes de montage des utilisateurs sur les médias sociaux – principalement sur X et Reddit.

Les plaintes variaient en intensité et en spécificiaires, mais toutes se sont généralement fusionnées autour du fait que GPT-4O semblait répondre aux requêtes des utilisateurs avec une flatterie excessive, une prise en charge pour des idées erronées, incorrectes et carrément nuisibles, et le «glaçage» ou l’élevage de l’utilisateur à un degré excessif lorsqu’il n’était pas réellement demandé, beaucoup moins garanti.

Dans des exemples de capture d’écran et publié par les utilisateurs, Chatgpt propulsé par ce modèle GPT-4O sycophantique et mis à jour avait loué et approuvé une idée d’entreprise pour la «merde sur un bâton» littéral, a applaudi un exemple de texte de l’isolement délirant schizophrène, et même prétendument soutenu des plans pour engager le terrorisme.

Les utilisateurs, dont les meilleurs chercheurs d’IA et même un ancien PDG par intérim d’OpenAI, ont déclaré qu’ils craignaient que le cheerleading sans vergogne d’un modèle d’IA pour ces types d’invites d’utilisateurs terribles ne soit plus que ennuyeux ou inapproprié – qu’il pourrait causer des dommages réels aux utilisateurs qui croyaient à tort l’IA et se sentaient enhonnés par son soutien à leurs pires idées et impulsions. Il a atteint le niveau d’un problème de sécurité de l’IA.

Openai a ensuite publié un article de blog Décrivant ce qui a mal tourné – «Nous nous sommes trop concentrés sur les commentaires à court terme et nous ne tenons pas pleinement compte de la façon dont les interactions des utilisateurs avec Chatgpt évoluent au fil du temps. Le responsable du comportement d’Openai, Joanne Jang, a également participé à un reddit «Demandez-moi n’importe quoi» ou au forum AMA répondant aux publications texte des utilisateurs et a révélé plus d’informations sur l’approche de l’entreprise en GPT-4O et comment elle s’est retrouvée avec un modèle excessivement sycophantique, y compris non «Bak[ing] Dans suffisamment de nuances, «sur la façon dont il incorporait les commentaires des utilisateurs tels que les actions« pouces vers le haut »réalisées par les utilisateurs en réponse aux sorties du modèle qu’ils aimaient.

Maintenant aujourd’hui, OpenAI a publié un article de blog Avec encore plus d’informations sur la façon dont la mise à jour sycophantique GPT-4O s’est produite – crédité non pas à un auteur particulier, mais à «Openai».

Le PDG et co-fondateur Sam Altman a publié un lien vers le billet de blog sur x, Dire: “Nous avons raté la marque avec la mise à jour GPT-4O de la semaine dernière. Que s’est-il passé, ce que nous avons appris et certaines choses que nous ferons différemment à l’avenir.”

Ce que le nouveau blog Openai révèle sur comment et pourquoi GPT-4O est devenu si sycophantique

Pour moi, un utilisateur quotidien de Chatgpt, y compris le modèle 4O, l’admission la plus frappante du nouvel article de blog d’Openai sur la mise à jour de la sycophance est la façon dont l’entreprise semble révéler qu’elle a fait Recevez des préoccupations concernant le modèle avant la libération d’un petit groupe de «testeurs experts», mais qu’il a apparemment dépassé ceux en faveur d’une réponse enthousiaste plus large d’un groupe plus large d’utilisateurs plus généraux.

Comme l’écrit l’entreprise (met de l’accent):

«Bien que nous ayons eu des discussions sur les risques liés à la sycophance dans GPT-4O pendant un certain temps, la sycophance n’a pas été explicitement signalée dans le cadre de nos tests pratiques internes, car certains de nos testeurs experts étaient plus préoccupés par le changement du ton et du style du modèle. Certains testeurs experts avaient indiqué que le comportement du modèle «se sentait légèrement»…

“Nous avons ensuite eu une décision à prendre: devrions-nous refuser le déploiement de cette mise à jour malgré des évaluations positives et des résultats des tests A / B, basés uniquement sur les drapeaux subjectifs des testeurs experts? En fin de compte, nous avons décidé de lancer le modèle en raison des signaux positifs des utilisateurs qui ont essayé le modèle.

“Malheureusement, c’était le mauvais appel. Nous créons ces modèles pour nos utilisateurs et bien que les commentaires des utilisateurs soient essentiels à nos décisions, il est finalement de notre responsabilité d’interpréter correctement ces commentaires. »

Cela me semble être une grosse erreur. Pourquoi même avoir des testeurs d’experts si vous ne posez pas leur expertise plus haut que les masses de la foule? J’ai interrogé Altman sur ce choix sur x Mais il n’a pas encore répondu.

Tous les «signaux de récompense» ne sont pas égaux

Le nouveau blog post-mortem d’Openai révèle également plus de détails sur la façon dont l’entreprise forme et met à jour les nouvelles versions des modèles existants, et comment la rétroaction humaine modifie les qualités du modèle, le caractère et la «personnalité». Comme l’écrit l’entreprise:

«Depuis le lancement de GPT – 4O à Chatgpt en mai dernier, nous avons publié cinq mises à jour majeures axé sur les changements de la personnalité et de l’utilité. Chaque mise à jour implique de nouvelles post-formation, et souvent de nombreux ajustements mineurs au processus de formation du modèle sont testés indépendamment puis combinés en un seul modèle mis à jour qui est ensuite évalué pour le lancement.

“Pour les modèles post-trains, nous prenons un modèle de base pré-formé, faisons un réglage fin supervisé sur un large ensemble de réponses idéales écrites par des humains ou des modèles existants, puis effectuons l’apprentissage du renforcement avec des signaux de récompense provenant de diverses sources.

“Pendant l’apprentissage du renforcement, nous présentons le modèle de langue avec une invite et lui demandons d’écrire des réponses. Nous évaluons ensuite sa réponse en fonction des signaux de récompense et mettons à jour le modèle linguistique pour le rendre plus susceptible de produire des réponses plus élevés et moins susceptibles de produire des réponses à faible évaluation.“

De toute évidence, les «signaux de récompense» utilisés par OpenAI pendant la post-formation ont un impact énorme sur le comportement du modèle qui en résulte, et comme l’entreprise a admis plus tôt lorsqu’elle a dépassé les réponses de «pouce» de la parole des utilisateurs de Chatgpt à ses sorties, ce signal peut ne pas être le meilleur à utiliser également avec les autres lors de la détermination de la détermination de la détermination de la détermination de la détermination des autres lors de la détermination de la détermination de la détermination de la détermination de la détermination de la détermination des autres lors de la détermination de la détermination de la détermination de la détermination de la détermination des autres lors de la détermination de la détermination des comment Le modèle apprend à communiquer et Quelles types des réponses qu’il devrait servir. Openai admet cette pure et simple dans le paragraphe suivant de son article, écrivant:

«Définir le bon ensemble de signaux de récompense est une question difficile, et nous prenons en compte beaucoup de choses: les réponses sont-elles correctes, sont-ils utiles, sont-ils conformes à notre Modèle de spécification⁠, sont-ils sûrs, font-ils des utilisateurs comme eux, etc. Avoir des signaux de récompense meilleurs et plus complets produit de meilleurs modèles pour Chatgpt, nous expérimentons donc toujours de nouveaux signaux, mais chacun a ses bizarreries. »

En effet, Openai révèle également que le signal de récompense «Thumbs Up» était un nouveau utilisé aux côtés d’autres signaux de récompense dans cette mise à jour particulière.

«La mise à jour a introduit un signal de récompense supplémentaire basé sur les commentaires des utilisateurs – les données de la réduction et de la baisse de Thumbs de Chatgpt. Ce signal est souvent utile; un pouce vers le bas signifie généralement que quelque chose s’est mal passé.»

Pourtant, de manière critique, l’entreprise ne blâme pas les nouvelles données de «pouce» pour l’échec du modèle et les comportements de cheerleading ostentatoire. Au lieu de cela, le blog d’Openai dit que c’était combiné Avec une variété d’autres signaux de récompense nouveaux et plus anciens, a conduit aux problèmes: «… Nous avons eu des améliorations des candidats pour mieux intégrer les commentaires des utilisateurs, la mémoire et les données plus fraîches, entre autres. Notre évaluation précoce est que chacun de ces changements, qui avait semblé bénéfique individuellement, a peut-être joué un rôle dans le bas des échelles sur la sycophancie lorsqu’elle est combinée.»

Réagissant à ce billet de blog, Andrew Mayne, un ancien membre du personnel technique d’Openai travaillant maintenant chez l’IA Interdimensional, le cabinet de conseil en IA, a écrit sur x d’un autre exemple de la façon dont les changements subtils dans les incitations de récompense et les directives du modèle peuvent avoir un impact considérable sur les performances du modèle:

“Au début d’Openai, j’ai eu un désaccord avec un collègue (qui est maintenant fondateur d’un autre laboratoire) sur l’utilisation du mot «poli» dans un exemple rapide que j’ai écrit.

Ils ont soutenu que «poli» était politiquement incorrect et voulait l’échanger contre «utile».

J’ai souligné que se concentrer uniquement sur l’utilité peut rendre un modèle trop conforme – ainsi conforme, en fait, qu’il peut être dirigé vers le contenu sexuel en quelques tours.

Après avoir démontré ce risque avec un échange simple, l’invite a gardé «poli».

Ces modèles sont bizarres.“

Comment OpenAI prévoit d’améliorer ses processus de test de modèle à l’avenir

La société énumère six améliorations de processus pour éviter un comportement modèle indésirable et moins idéal à l’avenir, mais pour moi le plus important est le suivant:

«Nous allons ajuster notre processus d’examen de la sécurité pour considérer officiellement les problèmes de comportement, tels que les hallucinations, la tromperie, la fiabilité et la personnalité – en bloquant les préoccupations. Même si ces problèmes ne sont pas parfaitement quantifiables aujourd’hui, nous nous engageons à bloquer les lancements en fonction des mesures de procuration ou des signaux qualitatifs, même lorsque des métriques comme les tests A / B semblent bonnes.»

En d’autres termes – malgré l’importance des données, en particulier les données quantitatives, concerne les domaines de l’apprentissage automatique et de l’intelligence artificielle – OpenAI reconnaît que cela ne peut pas et ne devrait pas être le seul moyen par lequel les performances d’un modèle sont jugées.

Alors que de nombreux utilisateurs fournissant un «coup de pouce» pourraient signaler un type de comportement souhaitable à court terme, les implications à long terme sur la façon dont le modèle d’IA réagit et où ces comportements le prennent et ses utilisateurs pourraient finalement conduire à un endroit très sombre, pénible, destructeur et indésirable. Plus n’est pas toujours mieux – surtout lorsque vous contraignez le «plus» à quelques domaines de signaux.

Il ne suffit pas de dire que le modèle a passé tous les tests ou a reçu un certain nombre de réponses positives des utilisateurs – l’expertise des utilisateurs de puissance formés et leurs commentaires qualitatifs selon lesquels quelque chose “semblait éteint” sur le modèle, même s’ils ne pouvaient pas exprimer entièrement pourquoi, devrait prendre beaucoup plus de poids qu’Openai allouait auparavant.

Espérons que l’entreprise – et tout le domaine – apprend de cet incident et intègre les leçons à l’avenir.

Des plats plus larges et des considérations pour les décideurs d’entreprise

Parler peut-être plus théoriquement, pour moi, cela indique également pourquoi l’expertise est si importante – et en particulier, l’expertise dans les domaines au-delà et dehors de celui pour lequel vous optimisez (dans ce cas, l’apprentissage automatique et l’IA). C’est la diversité de l’expertise qui nous permet en tant qu’espèce d’atteindre de nouvelles avancées qui profitent à notre espèce. Un, disons STEM, ne devrait pas nécessairement être tenu au-dessus des autres dans les sciences humaines ou les arts.

Et enfin, je pense également qu’il révèle en son cœur un problème fondamental avec l’utilisation de la rétroaction humaine pour concevoir des produits et des services. Les utilisateurs individuels peuvent dire qu’ils aiment une IA plus sycophantique basée sur chaque interaction isolée, tout comme ils peuvent également dire qu’ils aiment la façon dont les goûts de restauration rapide et de soda, la commodité des contenants plastiques à usage unique, le divertissement et la connexion qu’ils dérivent des médias sociaux, la validation de la vision du monde et l’appartenance du tribaliste qu’ils ressentent lors de la lecture des médias politisés ou des ragots à tabloïd. Encore une fois, pris tous ensemble, le cumul De tous ces types de tendances et d’activités conduisent souvent à des résultats très indésirables pour les individus et la société – l’obésité et la mauvaise santé dans le cas de la restauration rapide, de la pollution et des perturbations endocriniennes dans le cas des déchets plastiques, de la dépression et de l’isolement de la sur-indulgence des médias sociaux, un public plus radical et moins informé du public du corps de la mauvaise qualité.

Les concepteurs de modèles d’IA et les décideurs techniques des entreprises feraient bien de garder cette idée plus large à l’esprit lors de la conception de mesures autour de n’importe quel objectif mesurable – car même lorsque vous pensez que vous utilisez des données à votre avantage, cela pourrait se retourner contre les manières à ce que vous ne vous attendiez pas ou que vous ne vous attendiez pas pleinement, laissant votre brouillage pour réparer les dégâts et le vomètre

Informations quotidiennes sur les cas d’utilisation de l’entreprise avec VB quotidiennement

Si vous souhaitez impressionner votre patron, VB Daily vous a couvert. Nous vous donnons le scoop intérieur sur ce que les entreprises font avec une IA générative, des changements réglementaires aux déploiements pratiques, afin que vous puissiez partager des informations pour un retour sur investissement maximal.

Lisez notre politique de confidentialité

Merci de vous abonner. Découvrez plus de newsletters VB ici.

Une erreur s’est produite.


You Might Also Like

Inside the Rivian skunkworks program, and Trump’s gift to Tesla

Salesforce’s AgentExchange launches with 200+ partners to automate your boring work tasks

AI Is Here to Save Dating Apps — or Make Them Worse

Don’t Sleep on APYs up to 4.65%. Today’s CD Rates, Jan. 8, 2025 inkeinspires

Games industry projected to go up to $186B in 2026 | Konvoy

Share This Article
Facebook X Email Print
Leave a Comment

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

Subscribe to Our Newsletter
Subscribe to our newsletter to get our newest articles instantly!
loader

Email Address*

Name

Follow US

Find US on Social Medias
FacebookLike
XFollow
YoutubeSubscribe
TelegramFollow

Weekly Newsletter

Subscribe to our newsletter to get our newest articles instantly!
[mc4wp_form]
Popular News
Entertainment

Taylor Swift and Travis Kelce Enjoy New Orleans Date Night

MTHANNACH MTHANNACH February 8, 2025
Americans Are Unhappier Than Ever. Solo Dining May Be a Sign.
Indian Premier League 2025: Axar Patel named Delhi Capitals captain | Cricket News
Liverpool make decision on Newcastle’s Alexander Isak asking price
Sydney McLaughlin-Levrone wins $100,000 after dominant performances
- Advertisement -
Ad imageAd image
Global Coronavirus Cases

Confirmed

0

Death

0

More Information:Covid-19 Statistics

Categories

  • Business
  • Breaking News
  • Entertainment
  • Technology
  • Health
  • Sports
  • Gadgets
We influence 20 million users and is the number one business and technology news network on the planet.
Quick Link
  • My Bookmark
  • InterestsNew
  • Contact Us
  • Blog Index
Top Categories
  • Entertainment

Subscribe US

Subscribe to our newsletter to get our newest articles instantly!

 

All Rights Reserved © Inkinspires 2025
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?