In den Kommentaren lass ich gestern sinngemäß: wen wundert es, alle wissen, dass #LLMs ständig Fehler machen.
-
@expertenkommision_cyberunfall @Chaotica @Lamal
Erlaube mir eine Polemik zu früher Stunde zu replizieren, die hier kürzlich ein junges Familienmitglied vorbrachte:
„Ihr immer mit eurem bequemen Tesla-Haß; wie oft fragt ihr euch eigentlich, wieviel KdF-Wagen in so einem supadupa p.c. ID.3 steckt?“
Vielleicht anders gesagt: wieviel Kaiserreich steckt eigentlich jetzt noch (de lege lata) in unserem Staat.
Na, dann frag lieber nicht wieviel von den Menschenversuchen der Nazis in Medizin stecken.
Was aus dem Kaiserreich in unserem Staat steckt? Vieles was durch solidarische, linksgelesene Strukturen im Kaiserreich erkämpft wurde, aber auch vieles, was Konservative konservieren wollten.
Die Bundesrepublik war eine Befreiung, keine Revolution. -
@AwetTesfaiesus @odrotbohm @marcuwekling
Wenn 50% falsch sind bei > 3Monaten bearbeitungszeit, wäre dann nicht ein System mit 50% Fehleranfälligkeit und 1 Minute Bearbeitung das bessere System? z.B. Münzwurf oder Würfel?
Woher nimmst du die Annahme, dass das LLM nur 20% Fehleranfällig wäre? Es hat doch lediglich die bisherigen Daten als Grundlage. Und falls 50% falsch sind, dann sind ja auch (im Schnitt) 50% der Revisionen falsch. Es gibt also keine besseren Daten.@AwetTesfaiesus @odrotbohm @marcuwekling
Ausserdem gibt es da das Problem mit alpha und beta- Fehlern ( false-negative und false-positive).
Da es sehr wenige Klagen gegen positive Bescheide geben wird, wissen wir über die false-positives gar nichts, bzw. Sind der Annahme, dass da kaum Fehler gemacht werden. Eine “vernünftige” KI oder Mitarbeiter*in würde schnell auf den Trichter kommen, dass alle positiv-Bescheide “richtig” sind. -
@AwetTesfaiesus @odrotbohm @marcuwekling
Wenn 50% falsch sind bei > 3Monaten bearbeitungszeit, wäre dann nicht ein System mit 50% Fehleranfälligkeit und 1 Minute Bearbeitung das bessere System? z.B. Münzwurf oder Würfel?
Woher nimmst du die Annahme, dass das LLM nur 20% Fehleranfällig wäre? Es hat doch lediglich die bisherigen Daten als Grundlage. Und falls 50% falsch sind, dann sind ja auch (im Schnitt) 50% der Revisionen falsch. Es gibt also keine besseren Daten.@AwetTesfaiesus @odrotbohm @marcuwekling
Ausserdem gibt es da das Problem mit alpha und beta- Fehlern ( false-negative und false-positive).
Da es sehr wenige Klagen gegen positive Bescheide geben wird, wissen wir über die false-positives gar nichts, bzw. Sind der Annahme, dass da kaum Fehler gemacht werden. Eine “vernünftige” KI oder Mitarbeiter*in würde schnell auf den Trichter kommen, dass alle positiv-Bescheide “richtig” sind. -
@AwetTesfaiesus Das ist interessant. Man weiß ja, dass ausgerechnet die Anthropomorphisierung - neben der vermuteten "Intelligenz" eines so teuren Systems - zur übermäßigen Vertrauensseligkeit ggü KI beiträgt. Einer der zentralen Aspekte dabei ist das eloquente und konfidente "Auftreten", welches man in KI-Ausgaben sieht. Demgegenüber bringt jede:r menschliche Gesprächspartner:in mit der eigenen Menschlichkeit/Positionalität/Unvollkommenheit immer schon Anlass zum Zweifel mit in die Interaktion.
Ich bin also noch nicht überzeugt, dass wir KI ggü tatsächlich kritischer als Menschen ggü sind. Ich glaube, Laien neigen zu Vertrauen in konfidentes, eloquentes Auftreten - wie es in den Textsorten begegnet, die Du nennst - gleichermaßen.
Spannend finde ich die (KI-unabhängigen) Fragen, ob es erstens eine empirisch höhere Wahrscheinlichkeit der tatsächlichen Unwahrheit eloquenter Aussagen und zweitens eine mit der Ausbildung zur Jurist:in eingeübte Immunität ggü Eloquenz und Konfidenz gibt.
Ich weiß ja gar nicht, ob es diesen Vertrauensvorschuss gegenüber KI wirklich so gibt.
Was sind eigentlich die Konturen des Unterschieds zu Vertrauensankern, wie:
-Wappen
-Roben
-Gerichtssäle
-UrteilsstilAlle Jurist:innen lernen doch den Satz „Es ist so und kann nicht anders sein“ im Hinterkopf zu haben, wenn man Urteilsstil schreibt.
-
@Gormfull @odrotbohm @marcuwekling trainierst du mit den Bescheiden oder mit den Urteilen, die sie aufheben?
@AwetTesfaiesus @odrotbohm @marcuwekling
Offene Frage. Bestenfalls mit dem Wissen, ob die Entscheidung “richtig” war. Das dürfte der Bescheid sein, wenn es keine Revision gab, oder das Revisionsurteil, wenn es eines gab.
Und hier liegt das Problem: Durch die KI wird lediglich der Filter automatisiert, mit dem ich die Leute ablehne, die keine Verbindungen und Mittel haben. Also wahrscheinlich die Bedürftigeren. -
@Gormfull @odrotbohm @marcuwekling trainierst du mit den Bescheiden oder mit den Urteilen, die sie aufheben?
@AwetTesfaiesus @odrotbohm @marcuwekling
Offene Frage. Bestenfalls mit dem Wissen, ob die Entscheidung “richtig” war. Das dürfte der Bescheid sein, wenn es keine Revision gab, oder das Revisionsurteil, wenn es eines gab.
Und hier liegt das Problem: Durch die KI wird lediglich der Filter automatisiert, mit dem ich die Leute ablehne, die keine Verbindungen und Mittel haben. Also wahrscheinlich die Bedürftigeren. -
@Reinald @odrotbohm @marcuwekling age old dream
@AwetTesfaiesus @odrotbohm @marcuwekling I know. Trotzdem sind wir der Vision möglicherweise näher denn jehmals, die Textproduktionsautomaten aka LLMs sind da schon ziemlich gut geworden. Man darf natürlich keine offen trainiertes Modell mit all dem Mist aus dem Internet darauf ansetzen. Und mancher Amtsleiter wird seinen gesetzeswidrigen Anordnungen nachtrauern. Für die 95% der Fälle mit klaren Vorraussetzungen sollten auch die Ergebnisse klar sein.
-
@AwetTesfaiesus Das ist interessant. Man weiß ja, dass ausgerechnet die Anthropomorphisierung - neben der vermuteten "Intelligenz" eines so teuren Systems - zur übermäßigen Vertrauensseligkeit ggü KI beiträgt. Einer der zentralen Aspekte dabei ist das eloquente und konfidente "Auftreten", welches man in KI-Ausgaben sieht. Demgegenüber bringt jede:r menschliche Gesprächspartner:in mit der eigenen Menschlichkeit/Positionalität/Unvollkommenheit immer schon Anlass zum Zweifel mit in die Interaktion.
Ich bin also noch nicht überzeugt, dass wir KI ggü tatsächlich kritischer als Menschen ggü sind. Ich glaube, Laien neigen zu Vertrauen in konfidentes, eloquentes Auftreten - wie es in den Textsorten begegnet, die Du nennst - gleichermaßen.
Spannend finde ich die (KI-unabhängigen) Fragen, ob es erstens eine empirisch höhere Wahrscheinlichkeit der tatsächlichen Unwahrheit eloquenter Aussagen und zweitens eine mit der Ausbildung zur Jurist:in eingeübte Immunität ggü Eloquenz und Konfidenz gibt.
@anwagnerdreas 1x1 der Zeugenaussage:
"Frau Richterin, ich bin mir ganz sicher, dass sie das war. Da habe ich keinen Zweifel. Das weiß ich deshalb noch so genau, weil zur gleichen Zeit..."In meiner Ausbildung hieß es "lügt wie gedruckt" kommt nicht von ungefähr.
-
@AwetTesfaiesus @odrotbohm @marcuwekling
Offene Frage. Bestenfalls mit dem Wissen, ob die Entscheidung “richtig” war. Das dürfte der Bescheid sein, wenn es keine Revision gab, oder das Revisionsurteil, wenn es eines gab.
Und hier liegt das Problem: Durch die KI wird lediglich der Filter automatisiert, mit dem ich die Leute ablehne, die keine Verbindungen und Mittel haben. Also wahrscheinlich die Bedürftigeren.@Gormfull @odrotbohm @marcuwekling Da bin ich mir halt nicht sicher.
-
Konkret: Ich könnte mir vorstellen, dass in dieser (!) konkreten Herangehensweisen an KI viel Coping steckt. Lügen wir uns hier kollektiv in die eigene (intellektuelle) Tasche?
Oder pfeifen wir hier sogar schon verzweifelt im Walde?
Liege ich komplett falsch?
@AwetTesfaiesus die Frage, ob wir insgesamt genug hinterfragen, was von (echten oder vermeintlichen) Autoritäten kommt, ist erstens wichtig und zweitens klar mit "nein" zu beantworten.
So weit, so uninteressant.
Was macht man damit? Deine Frage, wie hier gestellt und beschrieben, wirkt auf mich wie "whataboutism", als solle gesagt werden, "das mit der KI kann so bleiben, weil wir Menschen ja auch sehr fehlbar sind". Stattdessen könnte man sagen, "wir Menschen machen schon so viel falsch, absichtlich oder nicht, da wird eine weitere unglaublich fehleranfällige 'Autorität' sicherlich keine positive Wirkung haben".
(Es gibt keine "neutrale" Fragestellung, es gibt keine "neutrale" Position. Bestenfalls eine instrumentierbare, häufiger eine absichtlich oder versehentlich suggestive.)
Alles das geht aber an der wichtigen Realität vorbei: es ist tatsächlich völlig egal, ob Sprachmodelle uns richtige Antworten geben, ob sie unsere E-Mails und Artikel schöner schreiben oder akkurat zusammenfassen, ob sie funktionierenden Code schreiben oder diesen korrekt pflegen, ob sie uns für Glückwunsch oder Trauer die "richtigen Worte" geben. Es ist egal.
Der Energieverbrauch (von der Chip-Produktion bis zum Betrieb), das ungefragte und unbezahlte Aufsaugen und Verwerten der Kreativen Leistung und Arbeit der (online-)Menschheit, die versteckte, unterbezahlte, zermürbende Arbeit für Tagging/Labelling und Tuning, das Abschieben jeder Verantwortung für das Produkt auf die Nutzer... Es gibt keine ethisch akzeptable Nutzung. Es gibt kein Kalkül, kein vertretbares Modell, kein humanes Weltbild nach dem sich die Kosten überhaupt einem Nutzen gegenüberstellen ließen, geschweige denn irgendwie akzeptabel sein könnten.
Leuchtzifferblätter, die mit Radium bemalt sind, sind im Dunkeln gut lesbar, und sehen auch hübsch aus. Aber egal, wie schön sie sind, egal, wie viele Sammler es gibt, egal, was für schöne Umsätze damit gemacht werden, egal, ob für die Käufer die Strahlung am Arm akzeptabel oder gefahrlos ist - die Belastung der Umwelt und der Menschen durch die Produktion (und am Ende die Entsorgung) war es nie Wert, konnte es nie Wert sein. "Der Nachtwächter kann die Uhr ablesen, ohne seine Augen umzugewöhnen" mag auch noch so nützlich sein, "Arbeiterinnen bekommen vermehrt Krebs" kann nicht aufgewogen werden. Nicht "wird nicht aufgewogen von den paar Nachtwächtern", sondern es ist nicht möglich.
-
Ich weiß ja gar nicht, ob es diesen Vertrauensvorschuss gegenüber KI wirklich so gibt.
Was sind eigentlich die Konturen des Unterschieds zu Vertrauensankern, wie:
-Wappen
-Roben
-Gerichtssäle
-UrteilsstilAlle Jurist:innen lernen doch den Satz „Es ist so und kann nicht anders sein“ im Hinterkopf zu haben, wenn man Urteilsstil schreibt.
@AwetTesfaiesus @anwagnerdreas Ein interessanter Vergleich von Vertrauenskulturen!
Ich denke, wenn wir die Aussagen von Menschen kritisch reflektieren (was Journalisten, Juristen u.a. beruflich tun sollten), nutzen wir unser Bild von deren "Positionalität" zur Frage nach ihrer möglichen Interessiertheit in der Sache.
KI hebelt dies aber aus, sie hat das nicht, sie wirkt fälschlich neutral.
Gerichte haben instit.Interessen, etwa Fälle erledigen, oder nicht von höheren Gerichten korrigiert werden. -
Ich weiß ja gar nicht, ob es diesen Vertrauensvorschuss gegenüber KI wirklich so gibt.
Was sind eigentlich die Konturen des Unterschieds zu Vertrauensankern, wie:
-Wappen
-Roben
-Gerichtssäle
-UrteilsstilAlle Jurist:innen lernen doch den Satz „Es ist so und kann nicht anders sein“ im Hinterkopf zu haben, wenn man Urteilsstil schreibt.
Tatsächlich habe ich vielleicht den Mund etwas voll genommen: Ich weiß von Untersuchungen über die vertrauenerweckende Wirkung von Eloquenz und konfidentem Auftreten (und Geschlechterrollen usw.), Merkmalen also, die den Chatsystemen effektiv antrainiert werden (und sei es weil die Humans in the Loop im RLHF das gut finden). Diese Studien stammen allerdings zumeist noch aus der Zeit *vor* den erfolgreichen Chatsystemen, sie untersuchen es also nicht anhand solcher Systeme...
Ich weiß noch von keinen Studien, die die "deference" gegenüber einem identischen Auftreten hinsichtlich dessen vergleichen, ob es von einem Computer oder einer natürlichen Person (mit variierenden Rollen und Attributen), oder vielleicht auch einem journalistischen Medium entgegen tritt. Müsste man mal machen...
Oder weiß jemand was in der Richtung?
-
@AwetTesfaiesus die Frage, ob wir insgesamt genug hinterfragen, was von (echten oder vermeintlichen) Autoritäten kommt, ist erstens wichtig und zweitens klar mit "nein" zu beantworten.
So weit, so uninteressant.
Was macht man damit? Deine Frage, wie hier gestellt und beschrieben, wirkt auf mich wie "whataboutism", als solle gesagt werden, "das mit der KI kann so bleiben, weil wir Menschen ja auch sehr fehlbar sind". Stattdessen könnte man sagen, "wir Menschen machen schon so viel falsch, absichtlich oder nicht, da wird eine weitere unglaublich fehleranfällige 'Autorität' sicherlich keine positive Wirkung haben".
(Es gibt keine "neutrale" Fragestellung, es gibt keine "neutrale" Position. Bestenfalls eine instrumentierbare, häufiger eine absichtlich oder versehentlich suggestive.)
Alles das geht aber an der wichtigen Realität vorbei: es ist tatsächlich völlig egal, ob Sprachmodelle uns richtige Antworten geben, ob sie unsere E-Mails und Artikel schöner schreiben oder akkurat zusammenfassen, ob sie funktionierenden Code schreiben oder diesen korrekt pflegen, ob sie uns für Glückwunsch oder Trauer die "richtigen Worte" geben. Es ist egal.
Der Energieverbrauch (von der Chip-Produktion bis zum Betrieb), das ungefragte und unbezahlte Aufsaugen und Verwerten der Kreativen Leistung und Arbeit der (online-)Menschheit, die versteckte, unterbezahlte, zermürbende Arbeit für Tagging/Labelling und Tuning, das Abschieben jeder Verantwortung für das Produkt auf die Nutzer... Es gibt keine ethisch akzeptable Nutzung. Es gibt kein Kalkül, kein vertretbares Modell, kein humanes Weltbild nach dem sich die Kosten überhaupt einem Nutzen gegenüberstellen ließen, geschweige denn irgendwie akzeptabel sein könnten.
Leuchtzifferblätter, die mit Radium bemalt sind, sind im Dunkeln gut lesbar, und sehen auch hübsch aus. Aber egal, wie schön sie sind, egal, wie viele Sammler es gibt, egal, was für schöne Umsätze damit gemacht werden, egal, ob für die Käufer die Strahlung am Arm akzeptabel oder gefahrlos ist - die Belastung der Umwelt und der Menschen durch die Produktion (und am Ende die Entsorgung) war es nie Wert, konnte es nie Wert sein. "Der Nachtwächter kann die Uhr ablesen, ohne seine Augen umzugewöhnen" mag auch noch so nützlich sein, "Arbeiterinnen bekommen vermehrt Krebs" kann nicht aufgewogen werden. Nicht "wird nicht aufgewogen von den paar Nachtwächtern", sondern es ist nicht möglich.
@gabe
“…even the Abbot is concerned about the arrival of steam-engines when it isn’t yet steam-engine time.”
– Terry Pratchett (Raising Steam, aus dem Kopf zitiert) -
@Gormfull @odrotbohm @marcuwekling Da bin ich mir halt nicht sicher.
@AwetTesfaiesus @odrotbohm @marcuwekling
Sicher bin ich mir offensichtlich auch nicht, sonst hätte ich ja nicht meiner “all-positive” Aussage selbst widersprochen
Ein systematischer Fehler, den die KI wahrscheinlich nicht machen würde ist vor dem Mittagessen negativere Bescheide auszustellen, als kurz nach dem Frühstück.
Beschrieben in diesem auch sonst lesenswerten Buch über fehlerhafte menschliche Heuristiken. -
@anwagnerdreas 1x1 der Zeugenaussage:
"Frau Richterin, ich bin mir ganz sicher, dass sie das war. Da habe ich keinen Zweifel. Das weiß ich deshalb noch so genau, weil zur gleichen Zeit..."In meiner Ausbildung hieß es "lügt wie gedruckt" kommt nicht von ungefähr.
@AwetTesfaiesus das ist mal eine vorteilhafte déformation professionelle.
Oder nicht? -
@AwetTesfaiesus das ist mal eine vorteilhafte déformation professionelle.
Oder nicht?Weiiiiiiiss ich nicht! Weiiiiiiiiss ich nicht!
Sollten nur Volljuristen LLMs benutzen dürfen? Vielleicht! Würde die Welt dadurch besser? Ich habe erhebliche Zweifel!
-
@Gormfull @odrotbohm @marcuwekling Da bin ich mir halt nicht sicher.
@AwetTesfaiesus @odrotbohm @marcuwekling
Was eine richtige Entscheidung ist, ist ja irgendwie auch Verhandlungssache. Und da ist es dann schwer in ein LLM reinzuschauen. Es wird dir einen Text generieren, warum es eine Entscheidung getroffen hat, aber dieser Text wird nicht der Begründung entsprechen, warum es die Entscheidung getroffen hat. Die wäre nämlich schlicht, weil sie in einem 100000 dimensionalen Vektorraum “nahe lag”.
-
@AwetTesfaiesus @odrotbohm @marcuwekling
Was eine richtige Entscheidung ist, ist ja irgendwie auch Verhandlungssache. Und da ist es dann schwer in ein LLM reinzuschauen. Es wird dir einen Text generieren, warum es eine Entscheidung getroffen hat, aber dieser Text wird nicht der Begründung entsprechen, warum es die Entscheidung getroffen hat. Die wäre nämlich schlicht, weil sie in einem 100000 dimensionalen Vektorraum “nahe lag”.
@Gormfull @odrotbohm @marcuwekling ich erinnere mich dunkel an eine (für meine profession wenig vorteilhafte) Dissertation, die (nach meiner Erinnerung) die Rechtspraxis kaum anders darstellte. Ich denke es könnte Somek, Rechtliches Wissen, gewesen sein :
https://www.suhrkamp.de/buch/alexander-somek-rechtliches-wissen-t-9783518294024
-
@AwetTesfaiesus @odrotbohm @marcuwekling
Sicher bin ich mir offensichtlich auch nicht, sonst hätte ich ja nicht meiner “all-positive” Aussage selbst widersprochen
Ein systematischer Fehler, den die KI wahrscheinlich nicht machen würde ist vor dem Mittagessen negativere Bescheide auszustellen, als kurz nach dem Frühstück.
Beschrieben in diesem auch sonst lesenswerten Buch über fehlerhafte menschliche Heuristiken. -
E energisch_@troet.cafe shared this topic
-
Konkret: Ich könnte mir vorstellen, dass in dieser (!) konkreten Herangehensweisen an KI viel Coping steckt. Lügen wir uns hier kollektiv in die eigene (intellektuelle) Tasche?
Oder pfeifen wir hier sogar schon verzweifelt im Walde?
Liege ich komplett falsch?
@AwetTesfaiesus Klar, Menschen machen Fehler. Aber Fehler werden durch Menschen wieder abgefedert, korrigiert, berichtigt. Bei LLMs scheint das nicht der Fall, im Gegenteil! Der Zwang zu Ergebnissen führt dazu, dass immer mehr Fehler generiert werden (auch aus der Quelle menschlicher Fehler). Das potenziert die Fehlerquote.