Sehr schöner ChatGPT Takedown an einem sehr simplen aber extrem lustigen Beispiel https://mindmatters.ai/2025/08/chatgpt-5-tries-out-rotated-tic-tac-toe-you-be-the-judge/

343max@mastodon.social

@rstockm Aber MIR ist es nicht egal. MIR ist es schon wichtig, dass eine AI ein sehr einfaches Problem das jeder Mensch problemlos lösen kann von dem die AI behauptet es lösen zu können dann auch lösen kann. Ich habe dieses Beispiel gewählt, weil es sehr anschaulich macht, wie die AI es einfach per Design nicht kann.

343max@mastodon.social

@rstockm Du sagt “aber es kann ein komplett anderes Problem lösen und das reicht mir”. Okay. Aber stimmst du mir zu, dass es das eigentliche von mir beschriebene Problem nach wie vor nicht lösen kann?

rstockm@chaos.social

@343max Ich glaube in der Sache sind wir gar nicht weit auseinander, wir haben nur sehr unterschiedliche Perspektiven auf die Grundfrage. These:
1)
Ralf: zentral ist, dass ein Problem verlässlich mit LLM gelöst werden kann. Egal wie der Weg ist.
Max: zentral ist: dass auch der komplette Weg vom LLM perfekt gegangen wird ohne Begleitung
2)
Ralf: nutzt ausschließlich die besten für Geld verfügbaren Modelle, ignoriert den Rest
Max: nutzt was gerade da ist, auch die freien Versionen

lbenedix@chaos.social

@rstockm @343max Wollt ihr euch nicht mal zu einem Podcast zusammensetzen?

343max@mastodon.social

Die prinzipiellen Schwächen dieser Systeme ignoriert er oder erzählt mir das wenn ich nur wohlhabender wäre und 200€/Monat Abos hätte alles total toll wäre (kann ich halt nicht überprüfen und scheint mir auch nicht glaubhaft) (2/2)

343max@mastodon.social

@lbenedix @rstockm Das ist auch müßig, weil Ralf dem eigentlichen Thema immer wieder ausweicht. Hier: ChatGPT 5.0 produziert plausibel klingenden Quatsch und fällt dabei wunderschön auf die Fresse. Damit setzt er sich nicht auseinander sondern produziert nur einen Strohmann nach dem anderen. (1/2)

lbenedix@chaos.social

@343max Das Schöne ist ja, dass es Forschung gibt und die ist bisher ziemlich eindeutig. Man fühlt sich als Softwareentwickler mit LLM-"Unterstützung " deutlich produktiver als man tatsächlich ist.

https://metr.org/

rstockm@chaos.social

@lbenedix @343max Sehr schöne Seite, danke dafür. Direkt eine Studie darüber aber so:

lbenedix@chaos.social

@rstockm @343max Vorhersagen darüber, was in 10 Jahren ist, sind in der AI Welt bestimmt zuverlässig.

rstockm@chaos.social

@lbenedix @343max Genau darum extra poliert diese Studie ja den Trend der letzten zehn Jahre. Aber klar, aus einem uns leider noch nicht bekannten Grund ist genau jetzt der Zeitpunkt erreicht, wo dieses exponentielle Wachstum schlagartig stoppen wird.

lbenedix@chaos.social

@rstockm @343max 2020 ist nicht ganz 10 Jahre her. Und ja, ich habe das Gefühl, dass es in den letzten 1-2 Jahren eher eine Stagnation gibt

rstockm@chaos.social

@lbenedix @343max Also zumindest um den nächsten Datenpunkt mache ich mir keine Sorgen – Claude Sonet 4.5 ist dramatisch besser als hier das letzte 3.7

lbenedix@chaos.social

@rstockm @343max Bisher hat mich noch kein LLM für die Softwareentwicklung überzeugt. Ja, die kotzen schnell einen Prototypen raus, aber sobald die echte Welt damit in Verbindung kommt, explodiert alles.

Für kleine Nischenprobleme kann es vielleicht was taugen, aber da sind spezielle Lösungen sicher besser als LLMs.

rstockm@chaos.social

@lbenedix @343max Tja, so unterschiedlich sind die Einschätzung. Ich habe in 2025 sechs Projekte publiziert, keines von denen hätte ich ohne LLM auch nur begonnen.

lbenedix@chaos.social

@rstockm @343max Kommt sicher immer auf die Komplexität des Projektes an. Kannst du die Projekte verlinken?

rstockm@chaos.social

@lbenedix @343max Alles hier aus den letzten 2 Jahren dazu zwei nicht öffentliche die noch komplexer sind:

https://github.com/rstockm?tab=repositories

Es kommt halt auch darauf an ob man die LLMs beim Coden als Gegner sieht den man aufs Kreuz legen möchte oder als endlos geduldig motivierten Junior DEV den man ins eigene Projekt einarbeitet.

343max@mastodon.social

@rstockm @lbenedix Ein junior Dev den man ins eigene Projekt einarbeitet lernt dazu, eine LLM nicht. Wo ist denn in diesen ganzen Projekten mal ein gutes dabei, wo du ein größeres Feature geoneshottet hast? Hast du ein Beispiel für einen Prompt, der mir ein größeres Feature baut?

lbenedix@chaos.social

@343max @rstockm Bei der Beurteilung, ob ein LLM gute Arbeit macht, spielen viele psychologische Verzerrungen mit. Es fängt schon damit an, dass man selbst etwas tut, also einen Prompt formuliert und dann passiert etwas. Das ist natürlich toll.

Aber ja, es gibt glaub ich kein erfolgreiches Open Source Projekt, bei dem der überwiegende Anteil der Contributions von LLMs kommt. Oder?

rstockm@chaos.social

@lbenedix @343max Schön, dass ihr euch einig seid, dass meine Apps alle unterkomplex sind. Was ich sagen kann:
1) ich habe keine Zeile davon selbst geschrieben
2) keines der Projekte hätte ich angefangen ohne LLMs (ich kann kein JavaScript)
3) die Oneshot Quote ist mit den Monaten kontinuierlich gestiegen, bei Testabend fast alles bis auf mobil CSS
4) Einigen der Tools würde ich doch gesellschaftlichen Nutzen zuschreiben wie Mastowall, Mastotags oder Fedipol.

jaddy@friend.enby-box.de

@rstockm Geht mir genauso. Ich brauchte zB Backup-Apps für ein phpBB Forum und meine Friendica-Instanz. Ersteres hab ich vor Jahren schon mal selbst gemacht. War ein Mega-Gefummel und ich hab nichts sinnvolles dabei gelernt.

Mit Claude ging das nicht nur schneller, sondern ich habe auch reichlich gelernt, wie Dinge mit Python gehen können, ohne mich erst durch hunderte Packages zu wühlen, oder in CSS, wo ich so überhaupt keine Ahnung habe. (Die Backup-Apps können static web sites mit den Inhalten erzeugen)

Ich habe aber reichlich Erfahrung in Specs schreiben, Leute anleiten und deren Zeugs testen und debuggen. Job-mässig bin ich eher in C/C++ für Produktionssteuerungen unterwegs. Von embedded bis SAP-Anschluss.

Ich mag die Geschwindigkeit, wenn ich mit Coding LLMs werkel. Es lassen sich Dinge ausprobieren, wo ich Stunden für's (um)schreiben gebraucht hätte. Ich kann viel schneller Packages und Libs finden und anwenden (lassen) in Bereichen, wo ich mich bisher nicht auskenne. Beim Friendica-Backup zB die Authentification, die vier web-APIs, usw. Ich die meiste Zeit auf der funktionalen Ebene, nicht mit einzelnen Fizzeligkeiten beschäftigt. Claude kann inzwischen auch ziemlich gute Doku und Kommentare schreiben, so dass ich mich auch in Code unbekannter Sprachen schnell zurecht finden kann, wenn ich mal genauer schauen möchte.

Abspeckgeflüster – Forum für Menschen mit Gewicht(ung)

Sehr schöner ChatGPT Takedown an einem sehr simplen aber extrem lustigen Beispiel https://mindmatters.ai/2025/08/chatgpt-5-tries-out-rotated-tic-tac-toe-you-be-the-judge/