ich wette, dass sich der großteil des ai-inference-computes in den rechenzentren heute auf vor allem video-generierung konzentriert.
-
@mspro Es ist halt etwas kontraintuitiv, weil Bilder mehr Speicher brauchen als Text, schlechter komprimierbar sind usw., aber Sprache ist unglaublich komplex im Vergleich zu Bildern, weswegen die früheren Versuche der KI-Forschung, Sprache durch symbolische KI, also nicht Maschinenlernen und virtuelle neuronale Netze, sondern von Menschen programmierte Systeme, welche Grammatik, Syntax und Semantik explizit und menschenlesbar codieren, anfangs zwar sehr erfolgreich waren, dann aber jahrzehntelang ohne nennenswerte Fortschritte auf der Stelle traten.
In den letzten rund 20 Jahren gab es dann massive Fortschritte beim Maschinenlernen, und das zum Großteil nicht, weil es da neue Erkenntnisse gegeben hätte (das stammt hauptsächlich noch aus der Zeit zwischen den späten 60ern und Mitte der 80er), sondern weil die Computerhardware endlich leistungsfähig genug geworden war, und weil mit dem Internet riesige Mengen an Trainingsdaten verfügbar wurden. Allerdings kommen wir inzwischen mit unseren bisherigen noch recht naiven ML-Modellen an die Grenzen des Machbaren. Um geringfügig bessere Ergebnisse zu erzielen, benötigen wir exponentiell mehr Rechenaufwand.
Die naive Idee, LLMs als Steuerzentrale für alles einzusetzen, als "Agenten", ist natürlich kompletter Mumpitz. Das Sprachzentrum ist ja auch nicht die Steuerzentrale der menschlichen Intelligenz; ein Großteil unserer Intelligenz läuft komplett im Unbewußten ab. Was wir als unsere innere Stimme wahrnehmen, ist nicht unser Denken, sondern nur die Spitze des Eisbergs, derjenige Teil, der ins Bewußtsein vordringt, und den unser innerer Ich-Erzähler für sich zusammenfaßt. Leute, die glauben, daß das Ich-Bewußtsein der Chef im Hirn ist, sind auf dem völlig falschen Dampfer; das ist eine evolutionär sehr junge Struktur, die eher so ein angeflanschtes Extra ist, viele andere Wirbeltiere kommen gut ohne aus und können trotzdem sehr intelligent sein.
Das generelle Problem der vorherrschenden Strömungen in der KI-Forschung und -Entwicklung ist, daß sie quasi von oben anfangen: Sie wollen direkt die Höchstleistungen des menschlichen Geistes nachzubauen und ignorieren den alten Affen, der dessen Fundament darstellt, sie ignorieren die frühen Säugetiere und vorausgegangenen Synapsiden, die das Fundament für den Affen darstellen, sie ignorieren, daß unsere Intelligenz sich über Hunderte von Millionen von Jahren entwickelt hat, um als Lebewesen als Teil eines Ökosystems zu leben. Anstatt direkt die obersten Funktionen nachzubauen, die abstrakte logische Probleme lösen, sollte man sich erst einmal auf die Fundamente konzentrieren. Die Leute sind gefangen in der Science-Fiction-Version des alten alchimistischen Mythos vom Homunculus, vom künstlichen Menschen aus dem Labor.
@mspro Das klassiche SF-Tropos von der KI, die durch ein paradoxes Logikrätsel zum Absturz gebracht wird, stammt natürlich aus den 60ern, als symbolische KI das Feld beherrschte. Ein LLM juckt sowas natürlich überhaupt nicht. Heutzutage sind es Prompt Injections als typische Angriffsvektoren, aber die funktionieren natürlich nur, weil LLMs die Schwachstelle in ihrer Konstruktion haben, nicht zwischen Daten und Befehlen unterscheiden zu können und alles als Prompt zu interpretieren.
Wirkliche Intelligenz ist nicht möglich ohne Triebe, Instinkte und Emotionen, und die wiederum benötigen irgendeine Art von Körperlichkeit und aktive Auseinandersetzung mit einer sich dynamisch entwickelnden Umwelt. Nun könnte natürlich ein KI-Agent auch eine Art Körper in einer virtuellen Umgebung haben, und es sieht auch schon so aus, als würden 4D-Weltmodelle LLMs als Speerspitze der KI-Forschung ablösen; momentan werden sie hauptsächlich für Videogeneratoren und Computerspiele entwickelt. Ein 4D-Weltmodell "denkt" in texturierten beleuchteten 3D-Szenen und sagt deren zukünftige Entwicklung voraus, wobei es bei Verfügbarkeit auch die bisherige Entwicklung miteinbezieht. Wenn man so einem Weltmodell ein 2D-Bild zeigt, generiert es eine seinen Trainingsdaten nach plausibel erscheinende 3D-Szene daraus und animiert die Objekte darin entsprechend; zeigt man ihm ein Video, generiert es eine animierte dreidimensionale (also insgesamt vierdimensionale, Zeit als 4. Dimension), welche die Bewegungen im Video plausibel fortzusetzen versucht. Das ist natürlich wiederum um Größenordnungen komplexer als ein LLM, das die Fortsetzung von Text vorhersagt, welches seinerseits um Größenordnungen komplexer ist als ein diffusionsbasiertes Modell für Bilder oder Audio oder was auch immer. Diffusionsmodelle sind einfach nur dazu gemacht, Muster im Rauschen zu finden; ursprünglich wurden sie entwickelt, um verrauschte Bild- und später auch Audiodaten zu entrauschen, bis mal jemand geguckt hat, was passiert, wenn man pures Rauschen nimmt und dem Modell sagt, was es darin sehen soll. -
Jaa, lasst uns noch rosa Listen machen, Behindertenausweise digitalisieren und das Bargeld abschaffen!
-
@DasGehtGleichWieder @finally wo ist das raus?
-
ist das angekommen? sie bauen die matrix. die aus dem film. aber real, nur etwas anders. oder hattet ihr euch das eh gedacht und denkt: haha, kommt der seemann auch endlich drauf?
@mspro matrix nicht, aber gelegentlich wirkt es für mich wie die billigvulgäre Variante einiger der literarischen und cineastischen dystopien...
Bloß verhält sich trump(+Entourage) zu den Diktatoren dieser Werke wie Kinder die Sandkuchen backen zu guten Konditoren.
Nur das sie die exekutive auf ihrer Seite haben oder sich eine hilfsexekutive bauen die dich zur Not zwingt den Sandkuchen zu fressen. Und für gaaaanz tooolll zu befinden.

-
@DasGehtGleichWieder @finally wo ist das raus?
-
@mspro matrix nicht, aber gelegentlich wirkt es für mich wie die billigvulgäre Variante einiger der literarischen und cineastischen dystopien...
Bloß verhält sich trump(+Entourage) zu den Diktatoren dieser Werke wie Kinder die Sandkuchen backen zu guten Konditoren.
Nur das sie die exekutive auf ihrer Seite haben oder sich eine hilfsexekutive bauen die dich zur Not zwingt den Sandkuchen zu fressen. Und für gaaaanz tooolll zu befinden.

Im Grunde sind alle Dystopien gleich. Und wir verstehen sie nicht als Warnungen, sondern lassen sie durch unsere Neugierde, Kreativität, Genialität (nur ganz wenige von uns!) und gleichzeitig auch Dummheit (davon gibt's sehr viele) zur Realität werden, überall da, wo die physikalischen Gesetze es erlauben.
Und nur eine raffsüchtige Minderheit profitiert.
-
E energisch_@troet.cafe shared this topic