In den Kommentaren lass ich gestern sinngemäß: wen wundert es, alle wissen, dass #LLMs ständig Fehler machen.
-
@AwetTesfaiesus @Chaotica @Lamal
Das ist aber eher ein Problem verursacht von unserer Bildungskatastrophe
@expertenkommision_cyberunfall
Meh. Bildungskatastrophe hin oder her: Es ist illusorisch, die Mathematik, die da et large am Werken ist, sinnvoll zu vermitteln.
Auch Spezialisten können bestenfalls in Einzelfällen nachvollziehen, wie welche Antwort zu welchem Zeitpunkt zustande kam. Natürlich ist das alles deterministische Mathematik. Aber mit so vielen Variablen, dass es im Regelfall nicht deterministisch überprüft werden kann.
-
"ausschließen" ist ein absoluter Begriff.
Aber: wenn Deine Fehlerquote bei den Leistungsbescheiden bei 50% liegt (und die Bearbeitungszeit bei > 3 Monaten), dann scheint es mir berechtigt zu fragen:
Wäre eine Fehlerquote on 20% bei einer Bearbeitungsdauer von 30 Minuten nicht das bessere System?
@AwetTesfaiesus @odrotbohm @marcuwekling
Wenn 50% falsch sind bei > 3Monaten bearbeitungszeit, wäre dann nicht ein System mit 50% Fehleranfälligkeit und 1 Minute Bearbeitung das bessere System? z.B. Münzwurf oder Würfel?
Woher nimmst du die Annahme, dass das LLM nur 20% Fehleranfällig wäre? Es hat doch lediglich die bisherigen Daten als Grundlage. Und falls 50% falsch sind, dann sind ja auch (im Schnitt) 50% der Revisionen falsch. Es gibt also keine besseren Daten. -
"ausschließen" ist ein absoluter Begriff.
Aber: wenn Deine Fehlerquote bei den Leistungsbescheiden bei 50% liegt (und die Bearbeitungszeit bei > 3 Monaten), dann scheint es mir berechtigt zu fragen:
Wäre eine Fehlerquote on 20% bei einer Bearbeitungsdauer von 30 Minuten nicht das bessere System?
@AwetTesfaiesus @odrotbohm @marcuwekling
Wenn 50% falsch sind bei > 3Monaten bearbeitungszeit, wäre dann nicht ein System mit 50% Fehleranfälligkeit und 1 Minute Bearbeitung das bessere System? z.B. Münzwurf oder Würfel?
Woher nimmst du die Annahme, dass das LLM nur 20% Fehleranfällig wäre? Es hat doch lediglich die bisherigen Daten als Grundlage. Und falls 50% falsch sind, dann sind ja auch (im Schnitt) 50% der Revisionen falsch. Es gibt also keine besseren Daten. -
@expertenkommision_cyberunfall
Meh. Bildungskatastrophe hin oder her: Es ist illusorisch, die Mathematik, die da et large am Werken ist, sinnvoll zu vermitteln.
Auch Spezialisten können bestenfalls in Einzelfällen nachvollziehen, wie welche Antwort zu welchem Zeitpunkt zustande kam. Natürlich ist das alles deterministische Mathematik. Aber mit so vielen Variablen, dass es im Regelfall nicht deterministisch überprüft werden kann.
Ich bezog mich auf Elektrizität. Die Mathematik wird erst hart, wenn es um Elektronik oder Nachrichtentechnik geht.
Also zumindest empfand ich das so. -
@AwetTesfaiesus @Chaotica @Lamal
Vielleicht hilft es, die Strukturen und Organisationen/Personen "dahinter" zu betrachten.
KI/AI wird von Personen und Orgas gehypt und überwiegend betrieben, die klare faschistische Strukturen aufzeigen.
Es ist mehr als gut belegt, dass KI/AI durch das notwendige Training nicht nur die. in den Trainingsdaten vorhandenen Vorurteile erlernt, sondern sogar verfestigt und das Training nur durch Ausbeutung gelingt.@expertenkommision_cyberunfall @Chaotica @Lamal
Erlaube mir eine Polemik zu früher Stunde zu replizieren, die hier kürzlich ein junges Familienmitglied vorbrachte:
„Ihr immer mit eurem bequemen Tesla-Haß; wie oft fragt ihr euch eigentlich, wieviel KdF-Wagen in so einem supadupa p.c. ID.3 steckt?“
Vielleicht anders gesagt: wieviel Kaiserreich steckt eigentlich jetzt noch (de lege lata) in unserem Staat.
-
@Saupreiss das fasst weite Teile des Jurastudiums in Deutschland auch ganz gut zusammen
Früher
wäre recht wenig Werbung für blaue Tabletten in deinem Briefkasten gelandet: Der Ertrag hätte die hohen Kosten nicht aufgefangen. Mit der E-Mail kam es bekanntlich anders; Kosten der Abwehr derartiger Produktinformation übersteigt regelmäßig jene ordnungsgemäßer Lieferungen.Ähnlich verhält sich das mit dem Lernen. Natürlich ist ein Schlüter keine sakrosankte Bibel. Aber er bildet einen gewissen Konsens ab. Man kann viele Schlüters mit wenig Aufwand machen…
-
@AwetTesfaiesus
Ich finde die Analogie zur Alphabetisierung recht hilfreich.
Meine Bank zB kann mir - selbst auf Nachfrage in der technischen Abteilung - nicht präzise erklären, wie mein Kreditscore zustande kommt. „Der Computer“ spuckt halt eine Zahl aus und die wird dann geglaubt.
Da ist kein wesentlicher Unterschied mehr zu „Priester liest aus Buch vor und man muss das einfach glauben.“
@Lamal@Chaotica
GIGO - Garbage In, Garbage OutAber es hilft nix, selbst wenn Du zweifelsfrei beweisen kannst dass der Computer Müll produziert hat wird daran festgehalten.
-
@AwetTesfaiesus @odrotbohm @marcuwekling
Wenn 50% falsch sind bei > 3Monaten bearbeitungszeit, wäre dann nicht ein System mit 50% Fehleranfälligkeit und 1 Minute Bearbeitung das bessere System? z.B. Münzwurf oder Würfel?
Woher nimmst du die Annahme, dass das LLM nur 20% Fehleranfällig wäre? Es hat doch lediglich die bisherigen Daten als Grundlage. Und falls 50% falsch sind, dann sind ja auch (im Schnitt) 50% der Revisionen falsch. Es gibt also keine besseren Daten.@Gormfull @odrotbohm @marcuwekling trainierst du mit den Bescheiden oder mit den Urteilen, die sie aufheben?
-
"ausschließen" ist ein absoluter Begriff.
Aber: wenn Deine Fehlerquote bei den Leistungsbescheiden bei 50% liegt (und die Bearbeitungszeit bei > 3 Monaten), dann scheint es mir berechtigt zu fragen:
Wäre eine Fehlerquote on 20% bei einer Bearbeitungsdauer von 30 Minuten nicht das bessere System?
@AwetTesfaiesus @odrotbohm @marcuwekling zumal: man könnte ja durchaus ein LLM auf Gesetzestexten trainieren. Dass dann "einfach" gesetzeskonforme Bescheide erlässt. Statt unzulässig Entscheidungen zu treffen, die dann per Gericht bereinigt werden müssen.
-
@AwetTesfaiesus @odrotbohm @marcuwekling zumal: man könnte ja durchaus ein LLM auf Gesetzestexten trainieren. Dass dann "einfach" gesetzeskonforme Bescheide erlässt. Statt unzulässig Entscheidungen zu treffen, die dann per Gericht bereinigt werden müssen.
@Reinald @odrotbohm @marcuwekling age old dream
-
In den Kommentaren lass ich gestern sinngemäß: wen wundert es, alle wissen, dass #LLMs ständig Fehler machen. @marcuwekling sagte am Montag bei der Lesung Ähnliches.
Dazu:
1️⃣In der juristischen Ausbildung lernst du, dass 50-70% der Verwaltungsakt falsch sind. Default: falsch!
2️⃣Dazu: in meiner Schulzeit waren Atlanten/Karten immer falsch (DDR drin, teils Saarland draußen, Jugoslawien komplett). Ich habe nicht gehört, dass über Schulen ähnlich gesprochen wird, wie über LLMs. #ki@AwetTesfaiesus Das ist interessant. Man weiß ja, dass ausgerechnet die Anthropomorphisierung - neben der vermuteten "Intelligenz" eines so teuren Systems - zur übermäßigen Vertrauensseligkeit ggü KI beiträgt. Einer der zentralen Aspekte dabei ist das eloquente und konfidente "Auftreten", welches man in KI-Ausgaben sieht. Demgegenüber bringt jede:r menschliche Gesprächspartner:in mit der eigenen Menschlichkeit/Positionalität/Unvollkommenheit immer schon Anlass zum Zweifel mit in die Interaktion.
Ich bin also noch nicht überzeugt, dass wir KI ggü tatsächlich kritischer als Menschen ggü sind. Ich glaube, Laien neigen zu Vertrauen in konfidentes, eloquentes Auftreten - wie es in den Textsorten begegnet, die Du nennst - gleichermaßen.
Spannend finde ich die (KI-unabhängigen) Fragen, ob es erstens eine empirisch höhere Wahrscheinlichkeit der tatsächlichen Unwahrheit eloquenter Aussagen und zweitens eine mit der Ausbildung zur Jurist:in eingeübte Immunität ggü Eloquenz und Konfidenz gibt.
-
@expertenkommision_cyberunfall @Chaotica @Lamal
Erlaube mir eine Polemik zu früher Stunde zu replizieren, die hier kürzlich ein junges Familienmitglied vorbrachte:
„Ihr immer mit eurem bequemen Tesla-Haß; wie oft fragt ihr euch eigentlich, wieviel KdF-Wagen in so einem supadupa p.c. ID.3 steckt?“
Vielleicht anders gesagt: wieviel Kaiserreich steckt eigentlich jetzt noch (de lege lata) in unserem Staat.
Na, dann frag lieber nicht wieviel von den Menschenversuchen der Nazis in Medizin stecken.
Was aus dem Kaiserreich in unserem Staat steckt? Vieles was durch solidarische, linksgelesene Strukturen im Kaiserreich erkämpft wurde, aber auch vieles, was Konservative konservieren wollten.
Die Bundesrepublik war eine Befreiung, keine Revolution. -
@AwetTesfaiesus @odrotbohm @marcuwekling
Wenn 50% falsch sind bei > 3Monaten bearbeitungszeit, wäre dann nicht ein System mit 50% Fehleranfälligkeit und 1 Minute Bearbeitung das bessere System? z.B. Münzwurf oder Würfel?
Woher nimmst du die Annahme, dass das LLM nur 20% Fehleranfällig wäre? Es hat doch lediglich die bisherigen Daten als Grundlage. Und falls 50% falsch sind, dann sind ja auch (im Schnitt) 50% der Revisionen falsch. Es gibt also keine besseren Daten.@AwetTesfaiesus @odrotbohm @marcuwekling
Ausserdem gibt es da das Problem mit alpha und beta- Fehlern ( false-negative und false-positive).
Da es sehr wenige Klagen gegen positive Bescheide geben wird, wissen wir über die false-positives gar nichts, bzw. Sind der Annahme, dass da kaum Fehler gemacht werden. Eine “vernünftige” KI oder Mitarbeiter*in würde schnell auf den Trichter kommen, dass alle positiv-Bescheide “richtig” sind. -
@AwetTesfaiesus @odrotbohm @marcuwekling
Wenn 50% falsch sind bei > 3Monaten bearbeitungszeit, wäre dann nicht ein System mit 50% Fehleranfälligkeit und 1 Minute Bearbeitung das bessere System? z.B. Münzwurf oder Würfel?
Woher nimmst du die Annahme, dass das LLM nur 20% Fehleranfällig wäre? Es hat doch lediglich die bisherigen Daten als Grundlage. Und falls 50% falsch sind, dann sind ja auch (im Schnitt) 50% der Revisionen falsch. Es gibt also keine besseren Daten.@AwetTesfaiesus @odrotbohm @marcuwekling
Ausserdem gibt es da das Problem mit alpha und beta- Fehlern ( false-negative und false-positive).
Da es sehr wenige Klagen gegen positive Bescheide geben wird, wissen wir über die false-positives gar nichts, bzw. Sind der Annahme, dass da kaum Fehler gemacht werden. Eine “vernünftige” KI oder Mitarbeiter*in würde schnell auf den Trichter kommen, dass alle positiv-Bescheide “richtig” sind. -
@AwetTesfaiesus Das ist interessant. Man weiß ja, dass ausgerechnet die Anthropomorphisierung - neben der vermuteten "Intelligenz" eines so teuren Systems - zur übermäßigen Vertrauensseligkeit ggü KI beiträgt. Einer der zentralen Aspekte dabei ist das eloquente und konfidente "Auftreten", welches man in KI-Ausgaben sieht. Demgegenüber bringt jede:r menschliche Gesprächspartner:in mit der eigenen Menschlichkeit/Positionalität/Unvollkommenheit immer schon Anlass zum Zweifel mit in die Interaktion.
Ich bin also noch nicht überzeugt, dass wir KI ggü tatsächlich kritischer als Menschen ggü sind. Ich glaube, Laien neigen zu Vertrauen in konfidentes, eloquentes Auftreten - wie es in den Textsorten begegnet, die Du nennst - gleichermaßen.
Spannend finde ich die (KI-unabhängigen) Fragen, ob es erstens eine empirisch höhere Wahrscheinlichkeit der tatsächlichen Unwahrheit eloquenter Aussagen und zweitens eine mit der Ausbildung zur Jurist:in eingeübte Immunität ggü Eloquenz und Konfidenz gibt.
Ich weiß ja gar nicht, ob es diesen Vertrauensvorschuss gegenüber KI wirklich so gibt.
Was sind eigentlich die Konturen des Unterschieds zu Vertrauensankern, wie:
-Wappen
-Roben
-Gerichtssäle
-UrteilsstilAlle Jurist:innen lernen doch den Satz „Es ist so und kann nicht anders sein“ im Hinterkopf zu haben, wenn man Urteilsstil schreibt.
-
@Gormfull @odrotbohm @marcuwekling trainierst du mit den Bescheiden oder mit den Urteilen, die sie aufheben?
@AwetTesfaiesus @odrotbohm @marcuwekling
Offene Frage. Bestenfalls mit dem Wissen, ob die Entscheidung “richtig” war. Das dürfte der Bescheid sein, wenn es keine Revision gab, oder das Revisionsurteil, wenn es eines gab.
Und hier liegt das Problem: Durch die KI wird lediglich der Filter automatisiert, mit dem ich die Leute ablehne, die keine Verbindungen und Mittel haben. Also wahrscheinlich die Bedürftigeren. -
@Gormfull @odrotbohm @marcuwekling trainierst du mit den Bescheiden oder mit den Urteilen, die sie aufheben?
@AwetTesfaiesus @odrotbohm @marcuwekling
Offene Frage. Bestenfalls mit dem Wissen, ob die Entscheidung “richtig” war. Das dürfte der Bescheid sein, wenn es keine Revision gab, oder das Revisionsurteil, wenn es eines gab.
Und hier liegt das Problem: Durch die KI wird lediglich der Filter automatisiert, mit dem ich die Leute ablehne, die keine Verbindungen und Mittel haben. Also wahrscheinlich die Bedürftigeren. -
@Reinald @odrotbohm @marcuwekling age old dream
@AwetTesfaiesus @odrotbohm @marcuwekling I know. Trotzdem sind wir der Vision möglicherweise näher denn jehmals, die Textproduktionsautomaten aka LLMs sind da schon ziemlich gut geworden. Man darf natürlich keine offen trainiertes Modell mit all dem Mist aus dem Internet darauf ansetzen. Und mancher Amtsleiter wird seinen gesetzeswidrigen Anordnungen nachtrauern. Für die 95% der Fälle mit klaren Vorraussetzungen sollten auch die Ergebnisse klar sein.
-
@AwetTesfaiesus Das ist interessant. Man weiß ja, dass ausgerechnet die Anthropomorphisierung - neben der vermuteten "Intelligenz" eines so teuren Systems - zur übermäßigen Vertrauensseligkeit ggü KI beiträgt. Einer der zentralen Aspekte dabei ist das eloquente und konfidente "Auftreten", welches man in KI-Ausgaben sieht. Demgegenüber bringt jede:r menschliche Gesprächspartner:in mit der eigenen Menschlichkeit/Positionalität/Unvollkommenheit immer schon Anlass zum Zweifel mit in die Interaktion.
Ich bin also noch nicht überzeugt, dass wir KI ggü tatsächlich kritischer als Menschen ggü sind. Ich glaube, Laien neigen zu Vertrauen in konfidentes, eloquentes Auftreten - wie es in den Textsorten begegnet, die Du nennst - gleichermaßen.
Spannend finde ich die (KI-unabhängigen) Fragen, ob es erstens eine empirisch höhere Wahrscheinlichkeit der tatsächlichen Unwahrheit eloquenter Aussagen und zweitens eine mit der Ausbildung zur Jurist:in eingeübte Immunität ggü Eloquenz und Konfidenz gibt.
@anwagnerdreas 1x1 der Zeugenaussage:
"Frau Richterin, ich bin mir ganz sicher, dass sie das war. Da habe ich keinen Zweifel. Das weiß ich deshalb noch so genau, weil zur gleichen Zeit..."In meiner Ausbildung hieß es "lügt wie gedruckt" kommt nicht von ungefähr.
-
@AwetTesfaiesus @odrotbohm @marcuwekling
Offene Frage. Bestenfalls mit dem Wissen, ob die Entscheidung “richtig” war. Das dürfte der Bescheid sein, wenn es keine Revision gab, oder das Revisionsurteil, wenn es eines gab.
Und hier liegt das Problem: Durch die KI wird lediglich der Filter automatisiert, mit dem ich die Leute ablehne, die keine Verbindungen und Mittel haben. Also wahrscheinlich die Bedürftigeren.@Gormfull @odrotbohm @marcuwekling Da bin ich mir halt nicht sicher.