Mastodon Skip to content
  • Home
  • Aktuell
  • Tags
  • Über dieses Forum
Einklappen
Grafik mit zwei überlappenden Sprechblasen, eine grün und eine lila.
Abspeckgeflüster – Forum für Menschen mit Gewicht(ung)

Kostenlos. Werbefrei. Menschlich. Dein Abnehmforum.

  1. Home
  2. Uncategorized
  3. Sehr schöner ChatGPT Takedown an einem sehr simplen aber extrem lustigen Beispiel https://mindmatters.ai/2025/08/chatgpt-5-tries-out-rotated-tic-tac-toe-you-be-the-judge/

Sehr schöner ChatGPT Takedown an einem sehr simplen aber extrem lustigen Beispiel https://mindmatters.ai/2025/08/chatgpt-5-tries-out-rotated-tic-tac-toe-you-be-the-judge/

Geplant Angeheftet Gesperrt Verschoben Uncategorized
36 Beiträge 5 Kommentatoren 0 Aufrufe
  • Älteste zuerst
  • Neuste zuerst
  • Meiste Stimmen
Antworten
  • In einem neuen Thema antworten
Anmelden zum Antworten
Dieses Thema wurde gelöscht. Nur Nutzer mit entsprechenden Rechten können es sehen.
  • 343max@mastodon.social3 343max@mastodon.social

    @rstockm Aber ich habe dir doch eben einen Screenshot geschickt wie das aktuelle ChatGPT genau darauf reinfällt.

    Für mich ist es exakt andersrum wie du beschreibst. Seit Jahren:

    10 du und andere AI believer: “ja, noch vor ein paar Wochen war das Modell noch strunzdumm, aber heute können sie exakt dieses eine Beispiel lösen, darum sind sie perfekt”
    20 jemand findet ein neues Beispiel wie ein "Flagship-Model" haarstäubend dumme weise auf die Fresse fällt… (1/2)

    343max@mastodon.social3 This user is from outside of this forum
    343max@mastodon.social3 This user is from outside of this forum
    343max@mastodon.social
    schrieb zuletzt editiert von
    #7

    30 die AI Firmen bringen neue Modelle raus die auf exakt diesen Fall nicht mehr reinfallen
    40 goto 10

    le sigh

    Wir haben exakt die selbe Diskussion schon diverse Male geführt. Was bringt dich auf die Idee das ChatGPT 5.2.4 Code Red Edition dieses mal aber wirklich all die Versprechen einlöst, die all die anderen Versionen nicht einlösen konnten? (2/2)

    rstockm@chaos.socialR 1 Antwort Letzte Antwort
    0
    • 343max@mastodon.social3 343max@mastodon.social

      30 die AI Firmen bringen neue Modelle raus die auf exakt diesen Fall nicht mehr reinfallen
      40 goto 10

      le sigh

      Wir haben exakt die selbe Diskussion schon diverse Male geführt. Was bringt dich auf die Idee das ChatGPT 5.2.4 Code Red Edition dieses mal aber wirklich all die Versprechen einlöst, die all die anderen Versionen nicht einlösen konnten? (2/2)

      rstockm@chaos.socialR This user is from outside of this forum
      rstockm@chaos.socialR This user is from outside of this forum
      rstockm@chaos.social
      schrieb zuletzt editiert von
      #8

      @343max Ich rede nicht von ChatGPT sondern generell von den rechts unten Modellen, auch der anderen Hersteller. Bei deinen Screenshot kann ich nicht sehen, welches das ist. Das mit Abstand beste Besispiel das du bisher hattest war das Zahlenraten-Spiel, weil es so hübsch die Schwäche von LLM (will alles könne) mit den Limitierungen (unfähig, eigene Grenzen zu erkennen) exploited hat. 1/2

      rstockm@chaos.socialR 1 Antwort Letzte Antwort
      0
      • rstockm@chaos.socialR rstockm@chaos.social

        @343max Ich rede nicht von ChatGPT sondern generell von den rechts unten Modellen, auch der anderen Hersteller. Bei deinen Screenshot kann ich nicht sehen, welches das ist. Das mit Abstand beste Besispiel das du bisher hattest war das Zahlenraten-Spiel, weil es so hübsch die Schwäche von LLM (will alles könne) mit den Limitierungen (unfähig, eigene Grenzen zu erkennen) exploited hat. 1/2

        rstockm@chaos.socialR This user is from outside of this forum
        rstockm@chaos.socialR This user is from outside of this forum
        rstockm@chaos.social
        schrieb zuletzt editiert von
        #9

        @343max Aber auch dort habe ich in 20 Minuten einen Weg gefunden (dank KI) um dieses Spiel auf beliebigen LLMs zu 100% perfect „ready to ship“ laufen zu lassen.
        Und darum geht es mir: mir gehen wirklich die Szenarien aus, wo LLMs mit etwas Tuning, RAG Modellen etc. _nicht_ zu "ready to ship" zu bringen sind. Da ist mir dann AGI ziemlich egal.
        Gemini 3 Pro kann meine Handschrift lesen, und zwar perfekt. das schaffen 99% der Menschen um mich herum nicht - was für eine Basis für Automatisierung!

        343max@mastodon.social3 1 Antwort Letzte Antwort
        0
        • rstockm@chaos.socialR rstockm@chaos.social

          @343max Aber auch dort habe ich in 20 Minuten einen Weg gefunden (dank KI) um dieses Spiel auf beliebigen LLMs zu 100% perfect „ready to ship“ laufen zu lassen.
          Und darum geht es mir: mir gehen wirklich die Szenarien aus, wo LLMs mit etwas Tuning, RAG Modellen etc. _nicht_ zu "ready to ship" zu bringen sind. Da ist mir dann AGI ziemlich egal.
          Gemini 3 Pro kann meine Handschrift lesen, und zwar perfekt. das schaffen 99% der Menschen um mich herum nicht - was für eine Basis für Automatisierung!

          343max@mastodon.social3 This user is from outside of this forum
          343max@mastodon.social3 This user is from outside of this forum
          343max@mastodon.social
          schrieb zuletzt editiert von
          #10

          @rstockm Das Beispiel mit dem Zahlenratespiel gilt exakt so noch heute. Das eine LLM so ein Zahlenratespiel in Software gießen kann war nicht die Aufgabe, das ist trivial für eine LLM weil es dafür Millionen Codebeispiele gibt. “Ja, es kann das nicht aber dafür kann es was anderes” ist keine Lösung des Originalproblems.

          rstockm@chaos.socialR 1 Antwort Letzte Antwort
          0
          • 343max@mastodon.social3 343max@mastodon.social

            @rstockm Das Beispiel mit dem Zahlenratespiel gilt exakt so noch heute. Das eine LLM so ein Zahlenratespiel in Software gießen kann war nicht die Aufgabe, das ist trivial für eine LLM weil es dafür Millionen Codebeispiele gibt. “Ja, es kann das nicht aber dafür kann es was anderes” ist keine Lösung des Originalproblems.

            rstockm@chaos.socialR This user is from outside of this forum
            rstockm@chaos.socialR This user is from outside of this forum
            rstockm@chaos.social
            schrieb zuletzt editiert von
            #11

            @343max Oh das war ohne Software, nur über einen Prompt.

            rstockm@chaos.socialR 1 Antwort Letzte Antwort
            0
            • rstockm@chaos.socialR rstockm@chaos.social

              @343max Oh das war ohne Software, nur über einen Prompt.

              rstockm@chaos.socialR This user is from outside of this forum
              rstockm@chaos.socialR This user is from outside of this forum
              rstockm@chaos.social
              schrieb zuletzt editiert von
              #12

              @343max Bitte schön:

              343max@mastodon.social3 1 Antwort Letzte Antwort
              0
              • rstockm@chaos.socialR rstockm@chaos.social

                @343max Bitte schön:

                343max@mastodon.social3 This user is from outside of this forum
                343max@mastodon.social3 This user is from outside of this forum
                343max@mastodon.social
                schrieb zuletzt editiert von
                #13

                @rstockm Exakt. Du lässt die AI ein anderes Problem lösen als das was ich ihr gegeben hatte. Was ist damit bewiesen außer das es andere Probleme möglicherweise lösen kann. (Ich bezweifle übrigens nach wie vor, dass dein Beispiel besser funktioniert als meins, du hast es einfach nur viel komplexer gemacht, was es mühseliger macht die Schwächen zu finden. Abgesehen davon, dass es ein komplett anderer Prompt ist)

                rstockm@chaos.socialR 1 Antwort Letzte Antwort
                0
                • 343max@mastodon.social3 343max@mastodon.social

                  @rstockm Exakt. Du lässt die AI ein anderes Problem lösen als das was ich ihr gegeben hatte. Was ist damit bewiesen außer das es andere Probleme möglicherweise lösen kann. (Ich bezweifle übrigens nach wie vor, dass dein Beispiel besser funktioniert als meins, du hast es einfach nur viel komplexer gemacht, was es mühseliger macht die Schwächen zu finden. Abgesehen davon, dass es ein komplett anderer Prompt ist)

                  rstockm@chaos.socialR This user is from outside of this forum
                  rstockm@chaos.socialR This user is from outside of this forum
                  rstockm@chaos.social
                  schrieb zuletzt editiert von
                  #14

                  @343max Das ist mir als Produktmanager aber doch völlig egal. Es ist "ready to ship“, das zählt. Und es kann ja ausprobiert werden - funktioniert wunderbar und 100% zuverlässig.

                  343max@mastodon.social3 1 Antwort Letzte Antwort
                  0
                  • rstockm@chaos.socialR rstockm@chaos.social

                    @343max Das ist mir als Produktmanager aber doch völlig egal. Es ist "ready to ship“, das zählt. Und es kann ja ausprobiert werden - funktioniert wunderbar und 100% zuverlässig.

                    343max@mastodon.social3 This user is from outside of this forum
                    343max@mastodon.social3 This user is from outside of this forum
                    343max@mastodon.social
                    schrieb zuletzt editiert von
                    #15

                    @rstockm Aber MIR ist es nicht egal. MIR ist es schon wichtig, dass eine AI ein sehr einfaches Problem das jeder Mensch problemlos lösen kann von dem die AI behauptet es lösen zu können dann auch lösen kann. Ich habe dieses Beispiel gewählt, weil es sehr anschaulich macht, wie die AI es einfach per Design nicht kann.

                    343max@mastodon.social3 1 Antwort Letzte Antwort
                    0
                    • 343max@mastodon.social3 343max@mastodon.social

                      @rstockm Aber MIR ist es nicht egal. MIR ist es schon wichtig, dass eine AI ein sehr einfaches Problem das jeder Mensch problemlos lösen kann von dem die AI behauptet es lösen zu können dann auch lösen kann. Ich habe dieses Beispiel gewählt, weil es sehr anschaulich macht, wie die AI es einfach per Design nicht kann.

                      343max@mastodon.social3 This user is from outside of this forum
                      343max@mastodon.social3 This user is from outside of this forum
                      343max@mastodon.social
                      schrieb zuletzt editiert von
                      #16

                      @rstockm Du sagt “aber es kann ein komplett anderes Problem lösen und das reicht mir”. Okay. Aber stimmst du mir zu, dass es das eigentliche von mir beschriebene Problem nach wie vor nicht lösen kann?

                      rstockm@chaos.socialR 1 Antwort Letzte Antwort
                      0
                      • 343max@mastodon.social3 343max@mastodon.social

                        @rstockm Du sagt “aber es kann ein komplett anderes Problem lösen und das reicht mir”. Okay. Aber stimmst du mir zu, dass es das eigentliche von mir beschriebene Problem nach wie vor nicht lösen kann?

                        rstockm@chaos.socialR This user is from outside of this forum
                        rstockm@chaos.socialR This user is from outside of this forum
                        rstockm@chaos.social
                        schrieb zuletzt editiert von
                        #17

                        @343max Ich glaube in der Sache sind wir gar nicht weit auseinander, wir haben nur sehr unterschiedliche Perspektiven auf die Grundfrage. These:
                        1)
                        Ralf: zentral ist, dass ein Problem verlässlich mit LLM gelöst werden kann. Egal wie der Weg ist.
                        Max: zentral ist: dass auch der komplette Weg vom LLM perfekt gegangen wird ohne Begleitung
                        2)
                        Ralf: nutzt ausschließlich die besten für Geld verfügbaren Modelle, ignoriert den Rest
                        Max: nutzt was gerade da ist, auch die freien Versionen

                        lbenedix@chaos.socialL 1 Antwort Letzte Antwort
                        0
                        • rstockm@chaos.socialR rstockm@chaos.social

                          @343max Ich glaube in der Sache sind wir gar nicht weit auseinander, wir haben nur sehr unterschiedliche Perspektiven auf die Grundfrage. These:
                          1)
                          Ralf: zentral ist, dass ein Problem verlässlich mit LLM gelöst werden kann. Egal wie der Weg ist.
                          Max: zentral ist: dass auch der komplette Weg vom LLM perfekt gegangen wird ohne Begleitung
                          2)
                          Ralf: nutzt ausschließlich die besten für Geld verfügbaren Modelle, ignoriert den Rest
                          Max: nutzt was gerade da ist, auch die freien Versionen

                          lbenedix@chaos.socialL This user is from outside of this forum
                          lbenedix@chaos.socialL This user is from outside of this forum
                          lbenedix@chaos.social
                          schrieb zuletzt editiert von
                          #18

                          @rstockm @343max Wollt ihr euch nicht mal zu einem Podcast zusammensetzen?

                          343max@mastodon.social3 1 Antwort Letzte Antwort
                          0
                          • 343max@mastodon.social3 343max@mastodon.social

                            @lbenedix @rstockm Das ist auch müßig, weil Ralf dem eigentlichen Thema immer wieder ausweicht. Hier: ChatGPT 5.0 produziert plausibel klingenden Quatsch und fällt dabei wunderschön auf die Fresse. Damit setzt er sich nicht auseinander sondern produziert nur einen Strohmann nach dem anderen. (1/2)

                            343max@mastodon.social3 This user is from outside of this forum
                            343max@mastodon.social3 This user is from outside of this forum
                            343max@mastodon.social
                            schrieb zuletzt editiert von
                            #19

                            Die prinzipiellen Schwächen dieser Systeme ignoriert er oder erzählt mir das wenn ich nur wohlhabender wäre und 200€/Monat Abos hätte alles total toll wäre (kann ich halt nicht überprüfen und scheint mir auch nicht glaubhaft) (2/2)

                            lbenedix@chaos.socialL 1 Antwort Letzte Antwort
                            0
                            • lbenedix@chaos.socialL lbenedix@chaos.social

                              @rstockm @343max Wollt ihr euch nicht mal zu einem Podcast zusammensetzen?

                              343max@mastodon.social3 This user is from outside of this forum
                              343max@mastodon.social3 This user is from outside of this forum
                              343max@mastodon.social
                              schrieb zuletzt editiert von
                              #20

                              @lbenedix @rstockm Das ist auch müßig, weil Ralf dem eigentlichen Thema immer wieder ausweicht. Hier: ChatGPT 5.0 produziert plausibel klingenden Quatsch und fällt dabei wunderschön auf die Fresse. Damit setzt er sich nicht auseinander sondern produziert nur einen Strohmann nach dem anderen. (1/2)

                              343max@mastodon.social3 1 Antwort Letzte Antwort
                              0
                              • 343max@mastodon.social3 343max@mastodon.social

                                Die prinzipiellen Schwächen dieser Systeme ignoriert er oder erzählt mir das wenn ich nur wohlhabender wäre und 200€/Monat Abos hätte alles total toll wäre (kann ich halt nicht überprüfen und scheint mir auch nicht glaubhaft) (2/2)

                                lbenedix@chaos.socialL This user is from outside of this forum
                                lbenedix@chaos.socialL This user is from outside of this forum
                                lbenedix@chaos.social
                                schrieb zuletzt editiert von
                                #21

                                @343max Das Schöne ist ja, dass es Forschung gibt und die ist bisher ziemlich eindeutig. Man fühlt sich als Softwareentwickler mit LLM-"Unterstützung " deutlich produktiver als man tatsächlich ist.

                                https://metr.org/

                                rstockm@chaos.socialR 1 Antwort Letzte Antwort
                                0
                                • lbenedix@chaos.socialL lbenedix@chaos.social

                                  @343max Das Schöne ist ja, dass es Forschung gibt und die ist bisher ziemlich eindeutig. Man fühlt sich als Softwareentwickler mit LLM-"Unterstützung " deutlich produktiver als man tatsächlich ist.

                                  https://metr.org/

                                  rstockm@chaos.socialR This user is from outside of this forum
                                  rstockm@chaos.socialR This user is from outside of this forum
                                  rstockm@chaos.social
                                  schrieb zuletzt editiert von
                                  #22

                                  @lbenedix @343max Sehr schöne Seite, danke dafür. Direkt eine Studie darüber aber so:

                                  lbenedix@chaos.socialL 1 Antwort Letzte Antwort
                                  0
                                  • rstockm@chaos.socialR rstockm@chaos.social

                                    @lbenedix @343max Sehr schöne Seite, danke dafür. Direkt eine Studie darüber aber so:

                                    lbenedix@chaos.socialL This user is from outside of this forum
                                    lbenedix@chaos.socialL This user is from outside of this forum
                                    lbenedix@chaos.social
                                    schrieb zuletzt editiert von
                                    #23

                                    @rstockm @343max Vorhersagen darüber, was in 10 Jahren ist, sind in der AI Welt bestimmt zuverlässig.

                                    rstockm@chaos.socialR 1 Antwort Letzte Antwort
                                    0
                                    • lbenedix@chaos.socialL lbenedix@chaos.social

                                      @rstockm @343max Vorhersagen darüber, was in 10 Jahren ist, sind in der AI Welt bestimmt zuverlässig.

                                      rstockm@chaos.socialR This user is from outside of this forum
                                      rstockm@chaos.socialR This user is from outside of this forum
                                      rstockm@chaos.social
                                      schrieb zuletzt editiert von
                                      #24

                                      @lbenedix @343max Genau darum extra poliert diese Studie ja den Trend der letzten zehn Jahre. Aber klar, aus einem uns leider noch nicht bekannten Grund ist genau jetzt der Zeitpunkt erreicht, wo dieses exponentielle Wachstum schlagartig stoppen wird.

                                      lbenedix@chaos.socialL 1 Antwort Letzte Antwort
                                      0
                                      • rstockm@chaos.socialR rstockm@chaos.social

                                        @lbenedix @343max Genau darum extra poliert diese Studie ja den Trend der letzten zehn Jahre. Aber klar, aus einem uns leider noch nicht bekannten Grund ist genau jetzt der Zeitpunkt erreicht, wo dieses exponentielle Wachstum schlagartig stoppen wird.

                                        lbenedix@chaos.socialL This user is from outside of this forum
                                        lbenedix@chaos.socialL This user is from outside of this forum
                                        lbenedix@chaos.social
                                        schrieb zuletzt editiert von
                                        #25

                                        @rstockm @343max 2020 ist nicht ganz 10 Jahre her. Und ja, ich habe das Gefühl, dass es in den letzten 1-2 Jahren eher eine Stagnation gibt

                                        rstockm@chaos.socialR 1 Antwort Letzte Antwort
                                        0
                                        • lbenedix@chaos.socialL lbenedix@chaos.social

                                          @rstockm @343max 2020 ist nicht ganz 10 Jahre her. Und ja, ich habe das Gefühl, dass es in den letzten 1-2 Jahren eher eine Stagnation gibt

                                          rstockm@chaos.socialR This user is from outside of this forum
                                          rstockm@chaos.socialR This user is from outside of this forum
                                          rstockm@chaos.social
                                          schrieb zuletzt editiert von
                                          #26

                                          @lbenedix @343max Also zumindest um den nächsten Datenpunkt mache ich mir keine Sorgen – Claude Sonet 4.5 ist dramatisch besser als hier das letzte 3.7

                                          lbenedix@chaos.socialL 1 Antwort Letzte Antwort
                                          0
                                          Antworten
                                          • In einem neuen Thema antworten
                                          Anmelden zum Antworten
                                          • Älteste zuerst
                                          • Neuste zuerst
                                          • Meiste Stimmen



                                          Copyright (c) 2025 abSpecktrum (@abspecklog@fedimonster.de)

                                          Erstellt mit Schlaflosigkeit, Kaffee, Brokkoli & ♥

                                          Impressum | Datenschutzerklärung | Nutzungsbedingungen

                                          • Anmelden

                                          • Du hast noch kein Konto? Registrieren

                                          • Anmelden oder registrieren, um zu suchen
                                          • Erster Beitrag
                                            Letzter Beitrag
                                          0
                                          • Home
                                          • Aktuell
                                          • Tags
                                          • Über dieses Forum