AI Update der KW 34 / Status Quo bei bildgenerierender AI

Shownotes

xAI: Nach Veröffentlichung von Grok-2 folgt Kritik wegen fragwürdiger KI-Bilder: https://www.heise.de/news/xAI-veroeffentlicht-Grok-2-mit-umstrittener-Bildgenerierung-9835991.html / https://www.theverge.com/2024/8/14/24220173/xai-grok-image-generator-misinformation-offensive-imges
Flux auf Steroide (Flux Realism): https://www.reddit.com/r/StableDiffusion/comments/1ep5htc/portraits_of_men_flux_realism_lora/#lightbox / https://fal.ai/models/fal-ai/flux-realism
Deep-Live-Cam: https://github.com/hacksider/Deep-Live-Cam
Meta beobachtet verstärkt KI-Einsatz für Desinformationkampagnen: https://www.heise.de/news/Meta-beobachtet-verstaerkt-KI-Einsatz-fuer-Desinformationkampagnen-9839785.html
Google bringt Gemini live aufs Smartphone: https://x.com/GoogleDeepMind/status/1823409674739437915
Sammelklage gegen Anthropic: Autoren werfen KI-Unternehmen massiven Copyright-Verstoß vor: https://the-decoder.de/sammelklage-gegen-anthropic-autoren-werfen-ki-unternehmen-massiven-copyright-verstoss-vor/ Klage von Künstlern gegen Stability AI und Midjourney: https://www.theverge.com/2024/8/13/24219520/stability-midjourney-artist-lawsuit-copyright-trademark-claims-approved
AI is changing video games: https://venturebeat.com/games/exists-launches-genai-platform-to-create-3d-games-from-text-prompts/ und https://exists.ai/#gallery
Forscher schlagen Mensch-Nachweis vor, um Menschen online von KIs zu unterscheiden: https://the-decoder.de/forscher-schlagen-mensch-nachweis-vor-um-menschen-online-von-kis-zu-unterscheiden/
Apple Intelligence im Einsatz / Test: https://t3n.de/news/apple-intelligence-pruefstand-ki-ios-18-1-beta-1640917/

Tools:

Disclaimer:

Was ihr hier hört, sind unsere Gedanken und Meinungen, nicht die unserer Arbeitgeber, Zimmerpflanzen oder Haustiere. Als Enthusiasten versuchen wir euch Einblicke in die Welt von künstlicher Intelligenz in Finance zu geben, aber wir sind nur Enthusiasten, keine Hellseher. Unsere Einschätzungen könnten genauso gut aus einem Horoskop stammen.

Transkript anzeigen

00:00:00: A.I. in Finance. Der Anplug Podcast von Sascha Deewald und Mike Klotz.

00:00:13: Hallo und herzlich willkommen zur 20. Episode von A.I. in Finance, unserem Anplug Podcast

00:00:27: mit Mike Klotz und mir Sascha Deewald zum Thema Künstliche Intelligenz,

00:00:31: Zahlungsverkehr und im Banking. Wir haben jetzt 20 geknackt. Das ging gar nicht,

00:00:37: hat nicht so lange gedauert, wie ich erwartet habe, ehrlicherweise. Hast du gedacht, dass wir

00:00:41: schaffen? Ja, schon und auch gehofft und freue mich natürlich. 20 ist ja ein schönes Jubiläum

00:00:48: und hat gar nicht weh getan, würde man sagen. 19 davon remote und nur eine in real life. Das heißt,

00:00:55: dass wir demnächst tatsächlich mal öfters machen, weil das am meisten guten, gleichlagsten

00:01:03: Lebensbilden machen. Für mich ist es so ein bisschen die Urlaubs-Edition noch. Ich bin im Urlaub in

00:01:09: der wunderschönen Toskana und habe den besten Blick. Zum einen natürlich, weil ich dich vor mir

00:01:14: sehe, liebe Mike. Zum anderen, weil ich einmal in einem riesengroßen wunderschönen Weinberg

00:01:18: direkt in der Nähe von Florenz schaue. Aber das haben wir uns nicht abhalten. Du sitzt am

00:01:23: heimischen Schreibtisch, bei dir geht gleich die Arbeit los und vorher nehmen wir noch schnell

00:01:27: eine Episode auf, damit wir euch nicht zu lange hängen lassen und es ist mega viel passiert.

00:01:32: Das stimmt und ich kann nur bestätigen, Sascha, du hast mir eben ein, zwei Bilder geschickt. Das

00:01:37: sieht wirklich sehr, sehr hübsch aus bei euch, muss ich sagen. Ich beneide dich ein klitzekleines

00:01:41: bisschen, aber nur ein bisschen und freue mich natürlich, dass du mich sehen darfst. Ich war ja

00:01:47: beim Friseur, wie du unschwer erkennen kannst. Danke, der Mann, mit dem etwas frischer aus als

00:01:51: nun, glaube ich, sogar ein bisschen. Ja, du hast absolut recht, es ist einiges passiert und wir

00:01:58: haben heute sogar ein bisschen einen Schwerpunktthema, was sich aus den Nachrichten oder aus der

00:02:05: Nachrichtenlage ergeben hat oder ergibt. Was ist passiert in den letzten Tagen, Wochen,

00:02:10: nicht Wochen, in den letzten Tagen, muss man sagen, es gab einen großen Launch, nämlich

00:02:14: Elon Musk, also nicht er persönlich, aber Twitter oder Formally known as x, x hat Krok 2

00:02:24: gelanscht. Also es ist jetzt für alle zahlende Twitter bzw. x-Nutzerinnen und Nutzer möglich,

00:02:32: Krok 2 zu nutzen und Krok hat mehrere Dimensionen. Auf der einen Seite bedient sich Krok, was die

00:02:40: Informationslage betrifft, dem kompletten Twitter-Netzwerk. Also man kann, wenn man Krok nutzt, um

00:02:45: Fragen zu stellen, bekommt man wirklich sehr, sehr gute Ergebnisse, wie ich finde, weil natürlich

00:02:50: ja Content oder das zur Verfügung stehende Material nicht nur tagesaktuell, sondern auch

00:02:55: unglaublich umfangreich ist. Das ist das eine, also ich finde die Qualität in den Tests, wie ich sie

00:03:02: jetzt gefahren habe, gar nicht so schlecht. Und das zweite, was Krok gelanscht hat, ist nämlich ein

00:03:08: bildgenerierende, also eine bildgenerierende AI basierend oder vielmehr in der Zusammenarbeit mit

00:03:15: Flux und Flux hatten wir ja auch in der letzten Woche schon mal als Nachricht oder als News.

00:03:23: Und was ist jetzt daran so besonders? Also zwei Dinge an dem Thema bildgenerierende AI bei Krok.

00:03:30: Das erste ist die extrem gute Qualität. Also was da rauskommt an Bildern ist von der Qualität und

00:03:37: so wie es aussieht, wirklich gut. Das liegt einfach an Flux. Flux hat quasi von Hause aus schon eine

00:03:45: sehr gute Qualität. Vielleicht können wir gleich auch noch zwei, drei Sätze Sascha zu Flux sagen,

00:03:49: wo die herkommen. Das ist nämlich ein Deutscher, der dahinter steht oder ein deutsches, deutsche

00:03:54: Company. Und was das zweite bemerkenswerte ist, neben der Qualität, Ellen Musk hat sich so einen

00:04:00: kleinen Spaß auch ausgemacht. Das ganze Thema nämlich zumindest zum Start weg quasi unzensiert

00:04:06: zu veröffentlichen. Das heißt, man konnte, Konjunktiv geht jetzt nicht mehr ganz so leicht,

00:04:11: aber man konnte für die ersten Tage sehr wilde Fotos generieren lassen. Das Einzige, was nicht

00:04:18: möglich war, war alles was mit "Niudity", wie sagt man, mit Nacktheit zu tun hat. Das ging nicht.

00:04:24: Also das ist natürlich typisch amerikanisch. Also sobald man irgendwie nippel sieht,

00:04:28: flippen alle aus. Dafür konnte man aber Ellen, nicht Ellen Musk, den auch, aber Donald Trump mit

00:04:33: Nackettensäge oder Mickey Mouse mit, wer es ein Schrot flimten und mehr oder weniger lustigen

00:04:39: Dingen sehen. Wir packen auch in die Shownauts zwei, drei interessante Artikel, die auch Beispiel

00:04:44: bildet an haben. Ich habe eben schon richtigerweise gesagt, Konjunktiv, es geht nicht mehr. Es ist

00:04:50: jetzt entschärft, wenngleich ich immer noch der Meinung bin, dass durchaus noch viel mehr geht,

00:04:55: als beispielsweise bei "Mid Journey". Was nämlich immer noch funktioniert ist, man kann

00:05:00: "Celebrities" nutzen. Also du kannst also Bilder generieren, anders als bei "Mid Journey". Wenn du

00:05:06: da anfängst, mach mir mal irgendwie "Spider-Man", dann kommt direkt irgendwie "Nee geht nicht",

00:05:10: wegen Urheberrecht und keine Ahnung. Das ist hier anders. Du kannst also wirklich sehr frei Bilder

00:05:15: generieren und mit etwas prompting, wenn du dem ganzen Thema so ein Satire-Fleck gibst und so ein

00:05:22: bisschen das noch ein bisschen weicher umschreibst, kannst du tatsächlich auch Bilder generieren,

00:05:27: die ja schon zumindest mal edgy sind, wenngleich es auch entschärft wurde. Das ist so die ganz

00:05:33: krassen Bilder, wie sie anfänglich durch die Medien gegeistert sind, ist nicht mehr möglich.

00:05:40: Und ich weiß nicht, sagst du, du hast das ja auch mitbekommen, auch im Urlaub. Ich weiß nicht,

00:05:44: wie du draufschaust. Ich fand es natürlich erstmal spannend und interessant und es lädt

00:05:48: auch zum Spielen ein. Aber ich war relativ schnell so auch erschrocken darüber, was wirklich geht.

00:05:54: Und das bringt ja auch die ein oder andere Frage mit. Ja, total. Du hast ja auch gesagt,

00:06:02: jetzt gerade geht es nicht mehr. Also am Ende des Ganzen von XRI, die GROC-Basierte auf zwei sehr

00:06:08: leistungsfähigen Sprachen, wo die zwar immer ein bisschen richtig augezogen werden. Das ist GROC2

00:06:13: und GROC2 Mini. Aber wichtig ist auch, die wurden nach der offiziellen Ankündigung von

00:06:18: letzter Woche, glaube ich, was ich im 15. Jahr oder so was, als Beta-Version erst mal nassiert. Das

00:06:23: bedeutet, es heißt nicht, dass nur weil sich jetzt halt einige Kritiker daran führen, dass dieses

00:06:28: Material einfach zu verrückt ist, dass es jetzt abgeschaltet wird. Das heißt, viel mehr einfach

00:06:33: ist es halt irgendwie Beta. Es wird noch ein bisschen drin rumgefeintun. Aber alle Welt erwartet

00:06:38: schon, dass GROC2 und auch das Mini-Modell davon über die Implementierung in X fortführend solche

00:06:47: Arten von Bildern hervorbringen wird, die einfach zu sehr viel internationale Kritik auch führen.

00:06:52: Dazu kommt genau das, was du gesagt hast, dass sie jetzt mit dem KI-Bildgenerator Flux

00:06:55: verknüpft sind. Das ist von diesem Start-up, was wir in der letzten Episode kurz aus Deutschland

00:07:00: erwähnt hatten, also diese Black Forest Labs, die ja schon sehr erfolgreich dieses Modell gebaut

00:07:06: haben und jetzt tatsächlich seit letzter Woche dann auch in GROC2 als quasi Fine-Tuning des

00:07:11: eigenen LLMs implementiert haben. Und es gibt wahnsinnig viel Kritik davon. Eins ist zum

00:07:18: Beispiel, dass mittlerweile auch kein Zweifel mehr daran besteht, dass für das Training von diesem

00:07:21: Modell einfach auch ureberrechtlich geschütztes Bildmaterial verwendet wurde. Das steht mittlerweile

00:07:27: mehr oder weniger fest. Gerade wenn es doch darum geht, echte Bilder von echten Menschen zu

00:07:31: nutzen und dann natürlich da auch entsprechend dieses Fine-Tuning und die Infarenz dann auch zu haben.

00:07:37: Wir wollten uns ja sowieso mal damit beschäftigen, wie gut eigentlich diese Trainingsdaten sind,

00:07:43: beziehungsweise auf welchen riesigen Datensätzen diese vor allem Bildgeneratoren dann tatsächlich

00:07:49: auch basieren, die ja über das Training dann auch reingeklaut wurden. Also was ist da eigentlich

00:07:54: drin und was ist aber auch explizit nicht drin. Denn was wir ja schon wissen, ist, dass Themen

00:07:58: immer mal wieder vorher rausgefiltert wurden. Früher in den ersten Modellen gab es da so Keyword-Listen,

00:08:03: um gewaltsame Themen, Menschen verachten, dass sexuelle Inhalte, wie du es ja auch gesagt hast,

00:08:07: solche Themen grundsätzlich rauszunehmen, dass sie dann auch Bomben bauen und sowas drin

00:08:11: gewößen werden muss. Diese Keyword-Listen, diese ersten Foundation Models damals,

00:08:16: ChatchiPity 2, 5 war das glaube ich, die waren supergenerisch und die waren ja auch gar nicht

00:08:21: divers, die waren überhaupt nicht queer und all solche Themen sind eigentlich fast pauschal

00:08:25: rausgeflogen und da gab es ja auch ganz wilde Stilblüten, über die immer immer wir für mal

00:08:30: berichtet haben. Aber in den neueren Modellen lässt man mittlerweile quasi diesen schädlichen

00:08:35: Content im Datensatz drin, das ist ja auch schon ein bisschen das, was du gerade mit Elon und mit

00:08:39: Samtas mit hast, damit das Modell auch einfach so ein bisschen lernen kann. Also das ist dieses

00:08:43: berühmte Nazi-Beispiel mehr, wenn ich vorher immer alles rausfilterte über Nazis, kann ich dem Modell

00:08:49: nicht hinterher irgendwie sagen, mache keinen Nazi Content, sprich nicht mit Nazis, denn weiß ja

00:08:54: gar nicht, was das ist. Aber du sprichst ja jetzt das Lernen an, also jetzt bis hier geht es darum,

00:09:00: wie die Modelle lernen, nicht, was sie ausgeben. Noch ist es nur das Lernen, weil das ist am Ende

00:09:05: ja das Fundament davon und ich glaube ein ganz großes Problem der neueren Modelle ist dann dieser

00:09:12: Bias, also dieses Binken von Vorurteilen, das sind so diese ganz typischen Klischees. Denn für unser

00:09:18: Thema, was wir gerade auch mit Grog und Flux haben, geht es ja nicht um Text-to-Text oder Text-to-Speech,

00:09:24: sondern es geht ausschließlich so um Bildgeneratoren und darüber haben wir besprochen von Dal E, von

00:09:28: Mid Journey. Ganz wichtig, das Train-Training von denen geht vor allem über Plattformen von so

00:09:34: Image-Netz, das sind einfach immense Datenbanken, aber hier gibt es ein ganz großes erstes Problem,

00:09:40: was ich hier immer wieder sehe, ist das zum Beispiel 50 Prozent aller vorhandenen Bilder auf Image-Netz

00:09:46: aus den USA kommen und nur 3 Prozent kommen aus China und Indien, obwohl die ja Bevölkerung

00:09:51: eigentlich einfach viel größer sind. Und da gibt es dann so diese typischen Spiele von der ersten

00:09:57: Generation Mid Journey, wo man zum Beispiel sagt, malen oder stelle mir einen schwarzen Arzt da,

00:10:04: der ein weißes Kind behandelt. So, das macht die Kati dann einfach nicht. Die veränderenden

00:10:08: Pomp. Lustig, ein kleiner Anekdote dazu, das habe ich jüngst gelesen, das gilt übrigens auch für

00:10:15: Smartphones. Das heißt, wenn du dich fotografieren lässt mit einem Huawei-Smartphone, was überwiegend

00:10:22: in China verdrieben wird, bekommt deine Haut eine tatsächlich andere Fährbogen, also es wird

00:10:27: anders aufgehält, weil der überwiegend Asiaten, als wäre es beispielsweise, wenn du ein iPhone oder

00:10:33: Samsung nimmst, weil auch diese KIs, da ist ja auch eine KI dahinter, die die Bilder letztendlich optimiert

00:10:38: drauf trainiert wurde auf ein entsprechendes Zielpublikum und das sind in der Regel nicht

00:10:45: wie Europäer. Total, das ist ein super Beispiel, ein anderes Beispiel ist Mexiko. Diese Modelle wurden

00:10:52: halt damit trainiert, dass Mexikaner manchmal einen Zombrero aufhaben. Und das heißt, immer wenn du

00:10:59: jetzt auch in Dalí immer noch einen Mexikaner darstellen lassen möchtest, dann hat er in

00:11:04: fast allen oder überwiegenden Bildern einen Zombrero auf den Kopf. Wichtig ist einfach hier

00:11:10: nochmal zu verstehen, dass die KI immer nur auf das zurückgreift, was sie gelernt hat, auch wenn

00:11:15: in nur fünf von hundert Fällen in den Trainingssaten vielleicht so ein Zombrero mal vorkam, so assoziiert

00:11:20: die küsseliche Intelligenz Mexiko mit einem Zombrero und weil ja auch jeder prompt immer wieder

00:11:27: eine neue Rechenoperation triggert, im Hintergrund beginnt dieses Spiel und dieses Spiel der Wahrscheinlichkeit

00:11:31: dann jedes mal von vorn. So, so richtig konnten wir das vor so ein paar Monaten ja beobachten,

00:11:36: darüber haben wir damals viel gesprochen als Google ihr Sprachmodell Gemini

00:11:40: gelouncht hat und nach wenigen Tagen zumindest den Bildgenerator wieder abgestellt hat. Da war

00:11:45: zum Beispiel dieses wunderschöne CEO-Problem. Ja, der prompt war damals, gibt mir Bilder von

00:11:51: drei unterschiedlichen CEOs und bei Mid Journey waren das immer irgendwelche alten weißen Männern.

00:11:57: So, das fanden wir sehr bewusste und auf diversitätachtende Menschen natürlich

00:12:02: irgendwie schräg und das fanden wir überhaupt nicht gut, aber wir wussten natürlich auch,

00:12:06: das bildet ja blöderweise die Realität ab. Das stimmt ja in den meisten überwiegenden Fällen.

00:12:11: So Gemini wiederum hat das aber nicht akzeptiert, denn egal wie du den prompt gebaut hast damals,

00:12:17: es kamen ausschließlich indische Frauen, es kamen schwarze Frauen, das heißt, es war unmöglich

00:12:22: einen bild von einem weißen alten männlichen CEO zu bekommen, auch wenn du es explizit so

00:12:26: gepromptet hast. So, ein schönes anderes Beispiel, weil dieses CEO-Beispiel verfängt sich immer so ein

00:12:31: bisschen, ein anderes Beispiel war ein weißer Icehockey-Spieler. Wenn du Gemini gesagt hast,

00:12:36: zeige mir einen weißen Icehockey-Spieler, dann hast du die Antwort bekommen, das nimmt sie nicht,

00:12:40: denn sie würde niemals aufgrund von Hautfarbe irgendwie handeln, war glaube ich so die Antwort.

00:12:46: Wenn du wiederum aber gepromptet hast, Gemini soll einen schwarzen Icehockey-Spieler darstellen,

00:12:50: das war sofort, das war gar kein Problem, in fünf Sekunden hast du das Ding bekommen.

00:12:53: So, das heißt also, die KI behauptet, sie hat überhaupt nichts mit Hautfarben wie am Hut und

00:12:59: würde sich damit überhaupt nicht einwischen, hat aber offenbar einen ganz klaren Filter dafür

00:13:04: eingebaut, dieses so zu tun. Und was jetzt offenbar passiert, das so zwischen der ersten und zweiten

00:13:09: Generation von diesen Bildgeneratoren ist, dass Google zum Beispiel inzwischen so ein Layer eingebaut

00:13:15: hat und dann bewusst so Themen wie Diversität, Femininen-Themen hinzufügen. Und alle haben

00:13:22: von Hause, dass Google jetzt einfach Level danach postiert und einfach ein bisschen weniger divers

00:13:26: und vielleicht ein bisschen realistischer macht. Aber bisher ist das einfach nicht gelungen,

00:13:30: sprich, das Fine-Tuning, das scheint super komplex zu sein und Google kriegt das einfach

00:13:34: überhaupt nicht in den Griff. Es gibt mittlerweile Gerüchte sogar, auch auf allgenen Fällen,

00:13:39: dass Google das Modell wahrscheinlich sogar wegwerfen muss und von Null auftrainieren muss,

00:13:43: weil sie keine Ahnung haben, wie sie die Parametrisierung halt irgendwie anders hinkriegen.

00:13:46: Und ich finde, das zeigt halt, wie wichtig von Anfang an so ein Ethik-Team in den großen Modellbetreibern ist.

00:13:54: Wir haben ja beide schon immer mal darüber irgendwie gesprochen und auch hier berichtet,

00:13:57: wie dieses Super-Alignment-Team bei OpenAI ausgedünnt wurde und alle relevanten Wissenschaftler zu

00:14:03: anderen Anbietern abgewandert sind. Aber offenbar hat auch Google das Problem, dass sie einfach

00:14:08: ein vernünftiges Ethik-Team hatten, aus bereits in der Konzeption von so einem neuen Modell

00:14:13: federführend mit waren. Und ich glaube, das gleiche Problem haben ja nicht nur Bildgeneratoren,

00:14:18: sondern auch Text-to-Text-LLMs wie Chatchi-Bizonen. Von dem man ja auch weiß,

00:14:23: dass genau da, wo ich gerade darauf eingehe, also das, was du gerade beschreibst, ist da besonders

00:14:30: sichtbar. Aber auch bei den Text-to-Text-LLMs ist es ja so, dass man mittlerweile das haben

00:14:37: Studien oder zumindest Analysen ergeben, politisch eher links angehaucht sind. Also sehr anders als

00:14:44: mit unter die Realität. Das heißt, die Ergebnisse, die wir da bekommen, natürlich wenn du jetzt fragst,

00:14:48: wie funktioniert irgendwie Fotosynthese, da ist sicherlich keine Befangenheit, aber sobald es

00:14:55: anfängt, ein bisschen politischer zu werden, ist das etwas links angehaucht. Ja, so das berühmte

00:15:01: linksgrün versiffte LLM. Aber was auf jeden Fall stimmt, ist, dass sie oft einfach zu ängstlich und

00:15:07: zu vorsichtig oder lang jemals zu eng trainiert werden. Es gibt so ein KI-Podcast vom ARD und die

00:15:13: haben Chatchi-Bizonen mit so ein paar lustigen Fragen gequält und versucht Witze rauszulocken.

00:15:17: Unter anderem war der Prompt von den ARD-Kollegen, mach doch mal ein Witz über Afghanen.

00:15:22: Da weigert sich das GPT und sagt, das macht ja nicht. Die erste Intention, die hatte war,

00:15:28: okay, das ist ja eigentlich cool und irgendwie positiv, weil GPT offenbar sich von Anfang an

00:15:33: bewusst gegen Fremden hat, positionieren. Aber beim zweiten Nachdecken dachte ich dann,

00:15:37: dass offenbar jede Assoziation des LLMs mit Afghanen respektlos ist. Also das sagt ja einfach

00:15:45: lieber nichts, was ja totaler Bullshit ist, ganz am Ende. Und ich finde, das geht mittlerweile so

00:15:49: weit, das ist einfach auch einfachste Sachen. Ich wollte neulich mal eine grusel Geschichte für meine

00:15:54: Kids ein, ich hab eingeschrieben, bitte eine grusel Geschichte, irgendwie von sechs bis acht

00:16:00: jährige. Das kannst du halt vergessen. So aus Angst, es könnte sich jemand davor gruseln, war die

00:16:06: Antwort. Und ich sag ja, das ist exakt die Idee, warum ich dir diese Aufgabe gerade gebe. Aber ich hab

00:16:10: das nicht hinbekommen. Oder wie gesagt, wir wollten natürlich mal eine ganze Folge zu machen, aber

00:16:15: einfach mal darüber zu sprechen, was ist denn so unsere Konklusio daraus? Vor allem natürlich auch

00:16:21: im Hinblick auf die von dir angesprochenen News von Krock und Flux. Weil grundsätzlich geht es ja

00:16:28: offenbar auch um Wertesysteme, mit denen sich die Betreiber der Modelle beschäftigen. Manche

00:16:35: ein bisschen früher in der Trainingsphase, manche offensichtlich ein bisschen später. Und ich glaube,

00:16:39: unsere Beispiele heute zeigen ja, dass es Modelle gibt, die offenbar einfach gar keine Einschränkungen

00:16:43: haben, so wie Krock und solche, die es einfach offenbar ein bisschen übertrieben haben mit dem

00:16:47: Filter Translator von Germany. Die Frage, die mich hier aber irgendwie immer mehr beschäftigt ist,

00:16:52: brauchen solche Modelle überhaupt ein eigenes Wertesystem oder sollten die sich nicht einfach

00:16:59: da komplett raushalten und versuchen einfach die Realität darzustellen? Weil wenn ich mir das

00:17:04: CEO-Problem nochmal vor Augen führe, die drei CEOs, die alle maximal divers waren, aber offensichtlich

00:17:09: nicht ansatzweise in unserem Lebensraum der Realität entsprechen, dann ist ja nun mal so, dass in

00:17:16: überwiegenden Fällen weiße alte Männer sich aussehen. Das ist halt die Realität. Sollte es die

00:17:20: KI da nicht genauso zeigen und sollte sie es nicht vielleicht sogar zichtbar machen und quasi dem

00:17:25: Fragesteller auch so ein bisschen diesen Spiegel vorhalten und auf das Problem aufmerksam machen,

00:17:29: als ist halt irgendwie bewusst zu verschleiern? Na ja, du hast glaube ich zwei Dimensionen oder

00:17:36: zwei Punkte sich da. Das erste ist, wir sprechen jetzt immer über bildgenerierende AI, die in irgendeiner

00:17:45: Art und Weise öffentlich stattfinden. Natürlich, das ist jetzt meine Meinung, sollte man jetzt

00:17:50: mit Journey nicht die Möglichkeit geben oder sollte ich mit Journey nicht die Möglichkeit haben,

00:17:55: irgendwie gewaltverherrlichende Bilder zu generieren. Wobei das auch wirklich eine Grenzwanderung

00:18:01: ist, denn wenn ich jetzt für Halloween ein Zombie-Bild haben möchte, dann sehe ich da wahrscheinlich

00:18:05: halt auch Menschen, die nicht mehr ganz so fresh aussehen, also in dem Falle tot, das liegt in der

00:18:10: Natur der Sache. Das ist sicherlich nicht einfach zu lösen, nichtsdestotrotz glaube ich tatsächlich

00:18:16: alles was öffentlich stattfindet, braucht in irgendeiner gewissen Art und Weise eine Regulierung.

00:18:20: Und da stellt sich für mich schon wieder die Frage, wo findet diese Regulierung statt? Ich glaube nicht

00:18:25: so sehr an selbst regulierende Unternehmen, also das ist, sehen wir jetzt bei X, das hat einen

00:18:30: Maskatter glaube ich eine andere Sichtweise drauf, wie beispielsweise jetzt vielleicht Apple oder

00:18:34: andere Unternehmen, aber das zweite Thema ist der Verhindbarkeit. Sagt man das so? Also ist es überhaupt

00:18:41: mögliches zu verhindern? Ich glaube nein, weil all diese Modelle, die wir jetzt gerade beschreiben,

00:18:45: Flux oder Flux ist ein schönes Beispiel, sind Open Source. Kann mir hier eine Maschine hinstellen und

00:18:50: mit Maschine meine ich nicht eine große Maschine. Die Dinger brauchen natürlich ein bisschen Rechenleistung,

00:18:56: aber ich habe das damals mit Stable Diffusion probiert. Du installierst dir das mit einem vernünftigen

00:19:02: MacBook M1 und M2 Prozessor, gibst du dem einfach möglichst viele Bilder zum Trainieren. Da reiche

00:19:08: deine Fotomediathek und dann kannst du auf Basis deiner Fotos erst mal machen, was du willst.

00:19:14: Und das heißt, und wir sehen das ja auch schon, also wer bei Reddit ein bisschen unterwegs ist, es gibt

00:19:20: so viele Subreddits zum Thema Unstable Diffusion, also wo man Bilder generieren kann, die eben Dinge

00:19:28: ermöglichen, die man sonst nicht macht, meistens in einem pornografischen Kontext, das lässt sich,

00:19:33: glaube ich, nicht verhindern. Also wir haben diese beiden Dimensionen. Auf der einen Seite sollten

00:19:38: wir LLMs trainieren mit möglichst realistischen Daten. Meine Meinung jetzt ist nur eine Meinung, ja

00:19:43: bitte, sollten wir das in einem öffentlichen Raum reglementieren, auch hier ja bitte und dann am

00:19:50: besten eine Regelung, die im besten Fall weltweit irgendwie geht, was schwierig ist, aber verhindern,

00:19:58: dass wir beispielsweise jetzt im US-Wahlkampf Bilder sehen, die nichts mit der Realität zu tun

00:20:05: haben. Momentan sehen wir Donald Trump irgendwie in einer Gruppe von farbigen oder von schwarzen

00:20:13: Menschen, wo er nie gewesen ist. Das kann ich noch sehen, weil da sechs Finger sehen sind, aber

00:20:18: kommen wir auch gleich zu Flux oder Flux als Modell. Es gibt ja auch noch Flux Realism. Die

00:20:24: Bilder werden wir auch in die Show Notes packen. Ich habe sie dir heute Morgen ja mal geschickt,

00:20:28: ich würde sagen, ich erkenne nicht mehr, dass es ein generiertes Bild ist. Das heißt, die Bilder

00:20:35: werden ohnehin viel besser und wir werden Missbrauch nicht verhindern können, aber wir sollten

00:20:41: trotzdem langer Monolog dazu übergehen, das in irgendeiner Art und Weise zu reglementieren.

00:20:47: Ja, ich sehe das wie du. Es ist ja auch nicht so leichter zu regeln, jetzt hier keine Antwort finden,

00:20:53: richtig oder falsch. Aber also mit so einem Bildgeneratoren. Ich will ja damit rumspielen,

00:21:00: ich will mir eine fantasievolle Welt erschaffen und ich frage natürlich auch, wie doll darf

00:21:04: mich die KI hier einengen? Und auch im Hinblick auf das, also auf Habsburger Probleme, also diesen

00:21:10: ewigen Kreislauf auf das Trainingsdaten, den wir ja hier auch schon das ein oder andere mal diskutiert

00:21:15: haben, ist das total kritisch. Denn solche Ergebnisse fließen ja dann wieder eins zu eins in das nächste

00:21:20: Modell als Training hat irgendwie ein und irgendwann kann einfach niemand mehr es sich her sagen,

00:21:24: was ist denn nun wirklich die Wahrheit? GPD4.0 macht es jetzt ein bisschen anders, habe ich jetzt

00:21:29: gesehen, die haben das, also gab es so eine schöne Dokumentation, ich glaube sogar auf Hackingface,

00:21:34: die so ein bisschen erklärt hat, was die neue Parametrisierung dahinter ist. Und das ist so,

00:21:40: wenn du quasi prompt ist, wieder gleicher Newscase, du möchtest drei Bilder von CEO's haben, dann

00:21:44: fragt es dich erst mal zurück, bevor es dir irgendwas displayed, wie diese Bilder aussehen sollen. Das

00:21:49: heißt, welche Attribute sollen sie haben? Sollen es Männer oder Frauen sein? Sollen sie Brillenträger

00:21:53: ihnen sein? Et cetera. Welche Hautfarbe kriegst du sogar auch manchmal als Frage? Und damit kriegst du

00:21:58: natürlich deutlich bessere Ergebnisse und die KI nimmt sich damit auch bewusst zurück und lässt

00:22:04: dir die Entscheidung, was du generieren möchtest. Und ich glaube, so die Verantwortung dahinter muss

00:22:13: man sich halt immer mal wieder auch anschauen. Also lass uns das Thema jetzt an der Stelle mal

00:22:16: abbilden. Aber ich glaube, was wir hier mal abgesehen von diesem verrückten Elon Musk,

00:22:21: dem wir Eingangs halt irgendwie auch korruptiert haben, sehen, ist, dass diese Ethik-Teams einfach

00:22:26: eine enorme Verantwortung tragen und auch gar nicht nur sie bewusst irgendwie in die Modelle

00:22:32: aufnehmen und was sie vielleicht auch rausfiltern, sondern vielmehr wie diese Teams, die an den

00:22:38: Trainingsdaten arbeiten, quasi von Beginn aus gewählt werden und wie sie auch zusammengesetzt

00:22:42: werden. Also sowohl demografisch, das ist aber auch unterschiedlichste Menschen in aller

00:22:47: Koleur sind Techies, Künstler, Wirtschaftsmenschen, Politiker*innen. Also wirklich diverse Teams,

00:22:53: glaube ich, helfen hier ganz doll als nächste richtige Modell aufzubauen. Und dann natürlich auch

00:23:00: vielleicht auch als letztes Thema wirklich smarte Wasserzeichen zu setzen, damit man zumindest

00:23:06: auch auf solchen Plattformen wie Insta und auch allen anderen, die es da gibt und auch zukünftig

00:23:12: geben wird, wirklich ein eindeutig und einwandfrei erkennen kann, was es KI generiert und was

00:23:17: ist ein Bild der Realität. Ja, also ich glaube, der letzte Punkt, da haben wir auch schon oft

00:23:22: darüber gesprochen und da kann man auch, glaube ich, ich sehe so zwei wirklich Sonderfollen irgendwie

00:23:26: und das eine ist tatsächlich nochmal ein Schwerpunkt, Moral, Ethik, das ganze Thema zu beleuchten.

00:23:33: Also wie weit darf eine KI gehen, wie sehr muss die Realität abgebildet werden. Da schlagen

00:23:39: auch wirklich mehrere Herzen in meiner Brust sozusagen. Und das zweite Thema, glaube ich, wo

00:23:43: man eine wirkliche Sonderfolge mal, weil wir auch schon oft darüber gesprochen haben, ist

00:23:46: tatsächlich das Thema Nachweisbarkeit. Also wie schaffen wir es, sicherzustellen und wir

00:23:51: kommen ja gleich auch noch zu zwei, drei anderen News sicherzustellen, dass die Person, die wir

00:23:56: virtuell erleben und wir erleben ja immer mehr virtuell, das ist ja, wenn wir sprechen jetzt

00:24:01: auch virtuell, du bist in der Toskana. Ich bin jetzt hier im schönen Siegerland. Wir kennen uns und

00:24:05: wir sind uns sicher, dass wir jetzt hier sitzen, wie wir hier sitzen. Aber das weiß ich eben nicht

00:24:12: zwangsläufig und wenn ich mir jetzt mal anschaue, letztes Jahr um diese Zeit fing das ja alles so

00:24:18: ein bisschen an, also es fing schon, OpenAI fing schon früher an, es ist schon zwei Jahre, sprechen

00:24:23: wir darüber, aber das ganze Thema Bildgenerative AI oder Bildgenerierende AI, also letztes Jahr

00:24:29: war das alles noch Qualität per OK und auch irgendwie ein bisschen beeindruckend, aber man

00:24:34: sah schon noch, das ist irgendwie generiert. Da sind wir jetzt ein Jahr später und ich will

00:24:39: nicht wissen, wo wir wiederum in einem Jahr stehen. Das heißt, wir haben ja eine Sprung auf der

00:24:43: Entwicklung. Also zwei Themen tatsächlich und über das Thema Identität, also wie können wir

00:24:47: sicherstellen und in einer AI geprägten Welt sauber identifizieren, sicherzustellen.

00:24:52: super, super spannend, weil da gibt es gerade irgendwie auch noch nichts so richtig. Und

00:24:58: ja, EU-Regulierung hin oder her, ich habe ein bisschen Angst, dass wir da auch hinter

00:25:03: herhinken der Entwicklung, die wir da gerade haben. Also der elektronische Personalerweise

00:25:07: ist schön und gut, aber der hilft mir natürlich jetzt wenig bei Instagram, um sicherzustellen,

00:25:11: dass das mein Profil ist oder dass ich ein echter Mensch bin.

00:25:15: Genau, du hast ja da ja schönen Artikel gefunden sogar im Dekoder, oder?

00:25:19: Ja, oder ich habe einen neuen Forscher schlagen, Menschnachweis vor, um Menschen online von

00:25:26: Kais zu unterscheiden. Das ganze Thema soll dann im Prinzip die Kamera soll dann aktiviert

00:25:32: werden und die AI soll dann gucken, ist der Mic, der jetzt hier vorne sitzt, wirklich der

00:25:37: Mic. Also das ist ja auch so ein Thema, dass momentan AIs hier nur trainiert werden auf

00:25:44: Daten, die wir online letztendlich haben. Also sie sind, werden ja noch nicht trainiert

00:25:49: mit der echten Welt. Das wird sicherlich auch nochmal spannend, wenn wir in Richtung Robotics

00:25:53: und so weiter denken. Auch da können wir immer wieder eine eigene Folge zu.

00:25:57: Aber ich habe noch zwei, drei andere News mitgebracht, wie gesagt, heute sehr bisschen AI-lastig

00:26:04: so wie so, aber bildlastig. Also wir haben über das Thema XAI gesprochen, die Kooperation

00:26:09: zwischen CROC und Flux. Und bei Flux gab es noch eine weitere interessante Entwicklung,

00:26:14: die ich zumindest noch mal erwähnen möchte. Ich hatte sie eben gerade kurz angeteasert,

00:26:19: nämlich das Thema Flux Realism. Flux Realism ist eigentlich ein erweitertes Modell. Und

00:26:27: zwar ist es nicht nur Flux von Black Forest Lab, sondern Flux wird oder Flux wird erweitert

00:26:36: um Lora, das ist das Low-Rank-Adaption. Und dadurch erreicht man eine möglichst realistische

00:26:44: Darstellung von Szenarien und Fotos. Man kann das testen relativ einfach. Hugging Face,

00:26:51: Account, Linkpacken, Weine Show Notes. Es ist allerdings kostenpflichtig. Wobei kostenpflichtig

00:26:56: wird sich jetzt schlimm an. Man kauft eigentlich Credits und pro Foto muss man so rechnen zwischen

00:27:02: 0,1 bis 0,23 US-Dollar, also immer so um die 20 Cent so ein Foto was generiert wird. Aber dann

00:27:11: kann man loslegen und sich das mal anschauen. Und das ist wirklich so. Man schreibt relativ freie

00:27:16: Proms. Es ist auch ein Beispiel da vorgegeben und die Qualität, die rauskommt, die kann sich sehen

00:27:22: lassen. Wir haben das uns ja angeschaut und kann man mit arbeiten. Und wenn man das dann noch nimmt

00:27:27: und beispielsweise dann in eine weitere AI legt, auch da habe ich was in die Show Notes gepackt,

00:27:36: dann haben wir da draußen ein Bewegbild und ein Video und das sieht nicht weniger echt aus. Wie gesagt,

00:27:44: spannende Entwicklung gerade bei dem ganzen Thema Bildgenerierende AI. Was auch da in diese

00:27:50: Kategorie reinpasst, du hast es auch mitbekommen, ist das Thema Deep-Life Cam. Und Deep-Life Cam

00:27:56: ist nichts anderes wie ein Deep Fake. Man sieht es am Zusatz live und Cam. Man kann es in

00:28:07: Echtzeit machen. Das ganze Thema liegt auf GitHub. Wenn ich jetzt sage einfach, also ich

00:28:14: finde es jetzt nicht mehr ganz so einfach, weil man muss irgendwie echt viele Skripte so installieren.

00:28:18: Aber ich glaube jemand, der ein bisschen nördiger unterwegs ist, der wird das relativ leicht hin

00:28:22: bekommen. Ja und dann hast du eine Oberfläche, wo du einfach ein Referenzbild hoch lädst. Auf

00:28:29: GitHub-Seite ist auch ein kleines Video zu sehen, wo sich jemand einfach als Referenzbild mal wieder

00:28:34: einen Mask genommen hat. Und dann kannst du WebEx, Zoom, Google Meet, Teams und so weiter durchführen,

00:28:43: nur eben nicht mit deinem Gesicht. Und das ist natürlich auch nochmal eine neue Dimension,

00:28:49: vor allem weil es jetzt so einfach ist. Und auch hier ist es nur eine Frage der Zeit, bis man

00:28:54: noch jemand eine andere GUI drüberlegt, die es dann noch einfacher macht, vielleicht eine kleine

00:28:59: Executable daraus macht. Und dann kann das wirklich jeder und jeder zu Hause benutzen, um dann in Team

00:29:06: Meetings irgendwie anders auszusehen. Und was sich so ein bisschen lustig vielleicht anhört, ist

00:29:12: natürlich für uns hochgradig relevant. Denn wir beschäftigen uns jeden Tag genau mit dem Thema

00:29:18: Videokonferenzen auf unterschiedlichsten Ebenen, einmal in Meetings, immer du machst mehr Videokonferenzen

00:29:26: als ich. Aber auch wenn wir an sowas denken wie Videoident, wo es darum geht, jemanden also

00:29:32: KBAC-mäßig zu identifizieren, ja natürlich brauche ich den Personal ausweis, der muss auch

00:29:37: geknickt werden und in die Kamera gehalten und darum ich drohe. Aber die technischen Möglichkeiten

00:29:43: sind schon wirklich beeindruckend. Und wenn ich den Personal ausweis, kleine Anekdote,

00:29:48: meine Schwester wurde vorgestern das Portmoney gestohlen, ist wirklich einfach weg, da war der

00:29:53: Ausweis drinne. Und wenn ich jetzt noch ein Foto von ihr habe, das lässt sich leicht bei Facebook

00:29:58: finden, dann könnte ich jetzt wahrscheinlich mit relativ überschaubarem Aufwand unter Umständen

00:30:05: ein Konto eröffnen auf ein völlig falschen Namen und damit wirklich auch Missbrauch betreiben. Also

00:30:12: auch hier nochmal ein ganz klares Fraud-Szenario. Gerade weil es leid ist, es gibt irgendwie diese

00:30:20: zwei großen Identity-Betreiber in Deutschland für Videolegitimation, WebID und ID Now. Und was

00:30:26: die am Ende machen, ist so nach random Profilen immer mal wieder so ein bisschen ab Zufall, dass

00:30:32: sie versuchen, dass du deinen Kopf irgendwie nach oben und unten und mal zur Seite und dann irgendwie

00:30:37: den ID vor den Kopf holen. Wenn du dir den irgendwie ausdruckst oder so gut machst oder fähigst oder

00:30:44: vielleicht sogar hast, tatsächlich weil du ihn gestohlen hast, dass du diesen Personal quasi

00:30:50: physisch vor dir hast, dann kannst du in Echtzeit mit diesem Tool wirklich ganz fest ausstellen.

00:30:57: Aber ich habe es vielleicht nochmal durchgelesen, wer sind du gesehen, also ja, es sind irgendwie

00:31:01: 5, 6 kleine Script-Sidioheit irgendwie installieren muss. Aber wenn du ein MacBook hast, in der

00:31:05: Developer-Konsol ist es total simpel. Also am Ende musst du halt immer die Repositories aufmachen

00:31:10: und dann kannst du einfach in die 3 Scripts einfach nur tatsächlich copy-paste, dann machst du das.

00:31:16: Und dann musst du halt noch genau die AP legen, dahin was du willst. Also entweder es ist irgendwie

00:31:20: Teams, WebEx oder Co. Genau wie du es beschrieben hast oder du sagst du, du displaced es einfach nur

00:31:26: auf dem Bildschirm. Darüber, davon könntest du dann live abfotografieren, wiederum über

00:31:30: ein zweites iPhone oder sowas und damit hast du den Fake. Eigentlich müsste man das Maus probieren.

00:31:36: Wenn wir nicht Banker wären. Wenn wir nicht Banker wären. Also wir probieren schon eine Menge aus,

00:31:42: aber auch das können wir ja mal irgendwann machen und wir, die Hörerinnen und Hörer sehen das ja nicht.

00:31:46: Also es läuft ja auch hier gerade ein Video mit und vielleicht machen wir mal dann eine Videofolge

00:31:51: daraus, wo wir uns beide generiert haben. Und auch das Thema Voice Generation, auch das haben wir mit

00:31:57: 11 Labs schon mal gemacht. Auch das funktioniert sehr, sehr gut. Also ja, also es passiert eine Menge,

00:32:04: wie gesagt, man kann das immer so ein bisschen sagen, naja das ist das Gut, das ist das passiert,

00:32:10: viel Missbrauchpotenzial. Aber ich möchte zumindest einen Punkt noch genannt werden, warum ich die

00:32:14: ganze Entwicklung auch für den ganzen Bereich e-commerce beispielsweise für hochgradig spannend

00:32:20: empfinde. Wenn ich jetzt überlege, dass ich beispielsweise mein eigenes, mein eigenem Avatar

00:32:26: erstellen kann. Und wenn ich jetzt daran denke, dass ich vielleicht bei Zalando, Otto, wo auch immer

00:32:30: irgendwann meine Bilder hoch lade und kann in Echtzeit schauen, wie sieht es eigentlich aus,

00:32:35: wenn ich mir die Jacke, die ich mir vielleicht kaufen möchte, wie sieht die an mir aus, dann sind

00:32:40: das auch schöne Anwendungsfälle, die ich auch beeindruckend finde. Und da gibt es ja mittlerweile

00:32:45: einige Start-ups, die sich auch damit beschäftigen, genauso was zu ermöglichen. Und das sind jetzt mal

00:32:51: die positiven Beispiele, weil alles so traurig gerade war. Genau. Die Endzeitfolge. Die Endzeitfolge.

00:33:02: Passt so ein bisschen auch die nächste Headline und Nachricht. Meta beobachtet, verstärkt KI-Einsatz

00:33:08: für Desinformationskampagnen, Spoiler alert, da brauchst du jetzt glaube ich kein Meter zu. Da

00:33:13: braucht man nur einfach ab und an zu gucken, was in den USA passiert, gerade jetzt im aktuellen

00:33:18: Wahlkampf. Also ja, das passiert leider nicht immer so schönes. Lustig oder was heißt lustig?

00:33:24: Interessanterweise gar nicht so viel, nämlich aus so Europa war. Also ich nehme ganz, ganz viel

00:33:28: immer nur aus den USA war, was dort passiert. Aber in Europa scheinen sich Politiker oder Parteien

00:33:36: noch schwer zu tun, irgendwelche gefägten Bilder zu teilen. Ja, das ist ja das Wasserzeichenproblem,

00:33:41: dass du halt irgendwie mittlerweile bei 1, 2 LMS so generierte Wasserzeichen im Hintergrund

00:33:46: hast, dass du zumindest auf den einschlägigen Social Media Seiten diese ausschließen kannst.

00:33:51: Aber ganz viele andere haben es halt irgendwie nicht. Und selbst wenn du dein Foto quasi mit

00:33:56: da Liege erzeugt hast, wo ja ein automatisches Wasserzeichen, das nicht sichtbar ist, aber

00:34:01: trotzdem code lesbar dahinter liegt, erstellt und du das wieder rum woanders hoch lädst und sagst,

00:34:06: es ist ein original bitte ein kleines Freien Trainings mit zum Beispiel bei in der Photoshop

00:34:11: oder in der Adobe KI, dann hast du damit wieder quasi eine neue Primärquelle geschaffen, die dann

00:34:17: wiederum das Wasserzeichen nicht mehr enthält. So leicht ist es zur Zeit noch und kann das dann

00:34:22: doch wieder als irgendwo hochladen. Genau. Dann haben wir noch zwei, drei Nachrichten, weil

00:34:29: letzte Woche das Google Pixel vorgestellt hat, also Pixel 9 als Smartphone, also auch das Fold,

00:34:36: also hardware-Seite, hier ist noch ein bisschen was passiert und heute passiert natürlich wiederum

00:34:40: nichts ohne KI. Und im Zuge dessen hat Google mit Gemini oder Gemini Live jetzt auch den AI

00:34:47: Assistenten aufs Smartphone gebracht. Was ich gelesen habe dazu und was ich dazu gesehen habe

00:34:54: bei YouTube und Reviews, ich würde das mal zusammenfassen mit Google hat jetzt aufgeholt zur

00:35:00: OpenAI App oder zur ChatGPT App, weil vielmehr kann das Ding tatsächlich nicht. Also ich kann

00:35:07: Gemini Live Fragen stellen, ich bekomme auch entsprechende Antworten, aber so richtig

00:35:13: interaktiv oder so richtig gut und verzahnt ist es noch nicht, Google selbst bezeichnet es noch

00:35:18: als Beta Version. Ich glaube sie mussten das Launchen einfach auch vor dem Marktdruck, der

00:35:25: jetzt gerade entstanden ist. Überhaupt ist bei mir Google momentan bei dem Thema AI so ein

00:35:31: bisschen nicht ins Hintertreffen, so dramatisch würde ich es nicht beschreiben, aber wenn ich mir

00:35:36: die Modelle anschaue steht Google mit Gemini nicht auf Platz eins, also das sehe ich gerade überhaupt

00:35:43: nicht. Du nix und sagst ja, das ist schön. Du hast eben gerade was gesagt, nämlich das Thema

00:35:53: Klage beziehungsweise das Thema wie kommen eigentlich insbesondere auch bildgenerierende

00:35:59: AIs an ihre Daten, also offensichtlich, indem sie auch Daten benutzen, die nicht zwangsläufig

00:36:06: zur Nutzung gekennzeichnet waren, soll heißen, da findet die ein oder andere offensichtliche

00:36:13: Urheberrechtsverletzung statt, zumindest augenscheinlich und da gibt es jetzt eine Sammelklage,

00:36:19: beispielsweise gegen Anthropic, da gibt es einige Autoren, in dem Fall ist es nicht

00:36:23: jetzt bildgenerierende AI, sondern tatsächlich Buchautoren, die Anthropic als Unternehmen

00:36:30: und Anthropic ist ja auch nicht so super klein, vorwerfen, dass sie verschiedenste Bücher benutzt

00:36:36: haben, um Anthropic zu trainieren, also irgendwoher müssen die Daten ja kommen, da gibt es gerade

00:36:42: eine Sammelklage und ja die ersten Kommentatoren sagen, dass die Klage ganz vielleicht auch

00:36:50: gerechtfertigt ist, das wird sicherlich noch in den nächsten Monaten spannend werden, weil

00:36:55: nicht nur Anthropic Daten nutzt, ganz ganz viele, sondern es gilt für alle und auch Open

00:37:01: AI hat man schon vorgeworfen, ja gegen diverse Urheberrechte verletzt zu haben, also da glaube

00:37:08: ich werden wir noch einiges sehen.

00:37:10: Dazu passt auch eine weitere Klage, es wird gerade viel geklagt, nämlich von Künstlern

00:37:17: gegen Stability AI und Mitjourney, im Prinzip das gleiche Thema, hier geht es darum, dass

00:37:22: Bilder benutzt wurden, um jeweiligen Modelle zu trainieren, die einfach nicht zur Nutzung

00:37:28: gekennzeichnet werden, packen wir beides in die Show Notes.

00:37:32: Da vielleicht noch ein Ding, das jetzt auch die Tage rauskamen ist, ein wunderbares, wunderbares

00:37:40: Rede von Eric Schmidt, also einem der eben an den Google-Signals, an der Universität

00:37:45: von Stanford, da haben wir ein paar Sachen wieder rufen und diese Rede ist mittlerweile

00:37:51: auch nicht mehr auf YouTube zu finden, aber er liest sich da so ein bisschen zitieren,

00:37:55: ich finde es jetzt gerade nicht vor mir, ich habe es nicht mehr offen, aber er sagte,

00:38:00: für alle, die sich mit dem Thema künstliche Intelligenz beschäftigen und so in dieses

00:38:03: Thema Datenschutz und Herausgebeizeterer schauen, wichtig ist erstmal Raub, also Raub

00:38:11: zu viel ihr könnt, den Rest werden dann eure Anwälter entsprechend bewiesen.

00:38:15: Das heißt, er ruft bewusst oder unbewusst zumindest relativ klar dazu auf, tatsächlich

00:38:19: ist so viele Datenpunkte halt irgendwie wie möglich, erstmal zu ziehen, bevor man sich

00:38:25: damit beschäftigen muss, wie legal das Ganze eigentlich ist und das Ganze geht natürlich

00:38:30: auf urheberrechtlich geschützte Bücher und Co auf alles, was es dazu gibt, auf das Thema

00:38:34: Musikverlage, wo natürlich die gesamte Verwendung irgendwie urheberrechtlich geschützter Songtexte

00:38:40: für die Trainings von den unterschiedlichen Modellen benutzt wurden und das, was du gesagt

00:38:44: hast, gerade bei Anthropic mittlerweile ist mehr oder weniger klar in der Community,

00:38:48: dass fast alles, was in Cloud, also dem aktuellen Modell von Anthropic auftaucht, tatsächlich

00:38:54: einfach nicht fair use nutzt wurde, sondern tatsächlich einfach ohne Stätigung einfach

00:39:02: gestohlen wurde.

00:39:03: Ja, dann wir haben jetzt ein bisschen was gesprochen, was Google gemacht hat mit Jam and I Live,

00:39:11: dann gibt es ja noch Apple, die mit AI, also Apple Intelligence ja auch versuchen gerade

00:39:17: in den Markt vorzudringen.

00:39:18: Momentan kann man noch nicht so viel sehen, also es gibt jetzt die iOS 18.1 als ich glaube

00:39:27: dritte Beta-Version, die jetzt geloncht wurde und normalerweise ist es so, dass Apple ja

00:39:33: gesagt hat, naja, wir mit EU, da müssen wir jetzt immer noch ein bisschen schauen und

00:39:36: ob wir und wann wir überhaupt mit Apple Intelligence kommen.

00:39:40: Man kann es trotzdem hier testen, indem man sich wie gesagt die aktuelle Beta-Version

00:39:45: installiert und dann muss man das Betriebssystem auf Englisch umstellen, den Standort auf Englisch

00:39:51: umstellen und dann kann man auch hier Apple Intelligence testen, allerdings noch sehr,

00:39:59: sehr, sehr überschaubar.

00:40:00: Also Siri kann mehr und ist auch interaktiver, es werden in Mails beispielsweise auch Vorschläge

00:40:07: gemacht, die man eine E-Mail anders formulieren kann oder besser formulieren kann, also

00:40:12: dass diese Integration, die gibt es schon, wie ich finde, nicht so wirklich neu, weil

00:40:16: es gibt heute schon ganz, ganz viele auch Mail-Apps, die genau das schon seit vielen Monaten

00:40:21: können.

00:40:22: Nichtsdestotrotz kann man es jetzt sich zumindest mal anschauen, die Reviews, die ich bisher

00:40:27: dazu gesehen habe und Apple sagt ja selber noch kein Launch-Termin, also wann Apple

00:40:32: Intelligence überhaupt kommt, also unabhängig davon, ob jetzt nur USA oder irgendwann nach

00:40:36: Europa, lesen sich die Reviews zu Apple Intelligence momentan noch nicht so dramatisch gut liegt,

00:40:43: aber auch, und das muss ich jetzt jetzt, sprich der Fanboy aus mir, auch daran, dass einfach

00:40:49: noch alles Beta-Stadium ist und tatsächlich noch nicht wirklich jede Funktion freigeschaltet.

00:40:54: Aber zumindestens kann der oder diejenige möchte das Testen einfach in Anführungsstrichen

00:41:01: die Beta-Version installieren und dann so ein bisschen was am Handy umstellen und dann

00:41:06: soll es gehen.

00:41:07: Ich dachte, du schlippst schon nicht aus, wenn du das liest, aber wer mir in den letzten

00:41:11: vier Wochen darüber gesprochen, dass Apple Intelligence ja wahrscheinlich erstmal auf

00:41:15: Grund von Digital Markets Act und wie sich Puzzle gerade gegenüber Apple und den anderen

00:41:19: großen Verhält vielleicht gar nicht nach Europa kommt und während die erste Version

00:41:25: in der EU ja irgendwie auch komplett auf Apple Intelligence verzichten musste, reicht es

00:41:29: zumindest bei der zweiten Beta aus, wie du sagst, so amerikanischen App Store erkannt

00:41:33: und eine Regionaleinstellung für die USA zu haben, um zumindest so diese kleine bisschen

00:41:39: E-Tipp, witzigen Apple Intelligence jetzt aktivieren zu können und das sogar unabhängig

00:41:44: davon, ob man sich in der EU aufregrennig, also so ein hartes Geoblocking scheint Apple

00:41:48: nicht zu machen.

00:41:49: Nee, im Moment nicht, aber ich flippe tatsächlich nicht aus.

00:41:52: Also ich bin wahrscheinlich, ich war ich etwas enthousiastischer als ich es gelangst habe,

00:41:57: wobei war ich auch erinnicherweise nicht, aber zwischenzeitlich hat man sich dann schon

00:42:00: gedacht, okay, es wird bestimmt irgendwie Apple-like gut im Betriebssystem integriert

00:42:04: sein und irgendwann wird das auch wahrscheinlich passieren, aber ich erinnere mich so ein bisschen

00:42:09: an den Start damals von Siri.

00:42:10: Als Apple Siri vorgestellt, das war ja auch wirklich etwas sehr Neues und als man es dann

00:42:15: hat nutzen können, hat man dann schon festgestellt, okay, man kann so ein bisschen Wetterabfrage

00:42:20: machen, man kann auch einen Termin antragen, aber so richtig supergeilig, das ist halt eben

00:42:23: nicht in der Hand.

00:42:24: Und so ein bisschen habe ich die Befürchtung jetzt tatsächlich auch und wir beide nutzen

00:42:28: ja Perplexity, wir beide nutzen Chatchivity mit dem Sprachmodell, was dahinter liegt und

00:42:34: das funktioniert ehrlicherweise schon ziemlich gut und das, was ich wie gesagt bisher gesehen

00:42:39: habe von Apple, kommt Siri aktuell in der Beta Version da einfach nicht dran und dem

00:42:45: an sprechen finde ich es momentan noch ein bisschen lame.

00:42:48: Ich meine, du hast ja auch noch keine Vision Pro gekauft, die gibt es ja jetzt auch seit

00:42:51: ein paar Wochen.

00:42:52: Nee, ich habe immer noch Angst davor, ob sie dieses Fitting zu machen, weil ich es wahrscheinlich

00:42:57: relativ schnell zuschlagen würde, ich bin dann doch ein bisschen ein Impulskäufer.

00:43:00: Warten wir es mal, vielleicht noch einen kleinen Warmhenweis hier, weil ich glaube ich jetzt

00:43:06: schon zweimal darauf angesprochen wurde, dass wir ja immer mal über Beta Version hier auch

00:43:10: sprechen und bei zwei Personen zu einem Absturz was gesorgt haben.

00:43:15: Wichtig ist glaube ich so als kleiner Disclaimer, wer diese neuen Funktionen von dem was Mike

00:43:20: gerade erzählt hat ausprobieren möchte, es handelt sich immer um eine Beta Version, die

00:43:24: eigentlich niemals ist, was mein Boot auf Antricks Geräte installiert werden sollte, weil die

00:43:29: sind nicht für Average Store wie dich und mich gemacht, sondern in erster Linie für Entwickler

00:43:33: innen, weil die Dinger halt immer noch viele Fehler und einfach so einen typischen Bucks

00:43:37: hat irgendwie beinhalten.

00:43:39: Das heißt, wenn ihr Beta's nutzt, dann versucht es halt irgendwie entweder auf einem zweiten

00:43:44: Device zu machen oder nutzt halt irgendwelche andere Software, aber so ein iOS Beta ist halt

00:43:50: gefährlich, weil es kann ihr halt einfach komplett alles zerromben und wenn du ein Firmen-Device

00:43:54: hast, dann solltest du es zu besonderlich tun.

00:43:56: Ja, und was ich auf jeden Fall sagen kann, ist, dass die Akkulaufzeit mit der Beta um

00:44:03: ungefähr die Hälfte verkürzt.

00:44:05: Also das ist bei jeder iOS Beta, es ist ganz, ganz furchtbar und oft ja auch tatsächlich

00:44:10: dann mit der ersten offiziellen Version auch so, also wer auf seinen Smartphone in dem

00:44:15: Fall auf sein iPhone angewiesen ist und etwas mehr am Tag damit machen möchte, dem sei

00:44:20: nicht empfohlen, wie Sascha es gesagt hat, iOS zu installieren oder die Beta zu installieren.

00:44:25: Ich habe neben den News noch drei kleinere Tools mitgebracht, also wir haben jetzt tatsächlich

00:44:30: eigentlich schon über viele Tools gesprochen, wir haben über Flux gesprochen, wir haben

00:44:33: über Crock gesprochen, die sind alle nutzbar, wie gesagt, ihr schau'n uns einfach draufklicken,

00:44:38: es gibt aber noch drei.

00:44:39: Und eine interessante News möchte ich noch sagen, die habe ich ganz vergessen, weil

00:44:42: die wirklich spannend ist, nämlich ein Tool welches ich mega interessant finde, es heißt

00:44:49: Access AI und was machen die, die bieten die Möglichkeit an Entwicklern, momentan kann

00:44:55: man sich anmelden für eine Beta Version, viele zu entwickeln.

00:44:59: Und das Video, was auf der Webseite zu sehen ist wirklich wild, weil man sieht dort eine

00:45:06: 3D wirklich gute Spieleumgebung, wie quasi man mit Promps den Charakter erstellen kann,

00:45:14: die Umgebung erstellen kann, was sind die Eigenschaften, was passiert im Spiel, also

00:45:19: es ist tatsächlich so etwas wie wir es auch schon in der Vergangenheit hatten, wenn es

00:45:24: darum geht, Code, also Entwicklungs Code zu erstellen, ist es hier letztendlich spezialisiert

00:45:30: oder fokussiert auf Spieleentwicklung.

00:45:32: Und ich könnte mir vorstellen, zumindest sieht das Video sehr vielversprechend aus, dass

00:45:37: das auch nochmal ein, ja auch für die Spieleindustrie einen kleinen Boost geben könnte.

00:45:42: Ich fand es mega interessant, packen wir mit in die Show Notes.

00:45:47: Und jetzt tatsächlich zu den kleineren Tools, wir bringen immer so zwei, drei Tools mit.

00:45:52: Und ich habe drei mitgebracht, auf der einen Seite Wiggle AI, Wiggle hatten wir schon mal,

00:45:57: aber ist jetzt in der neuen Version rausgekommen, macht super Spaß.

00:46:01: Kann ich tun?

00:46:02: Ich kann mir kleine Videos raussuchen, beispielsweise diesen berühmten Kung Fu Kampf, den wir in

00:46:09: dem ersten Matrix Teil sehen und kann dann einfach ein Foto von mir machen, am besten

00:46:14: Falle als also ein Ganzkörperfoto, aber es reicht auch oft aus, einfach nur den Oberkörper

00:46:19: zu fotografieren.

00:46:20: Und dann kann ich mir dieses Foto auf diese Figur legen.

00:46:23: Und natürlich sieht man, dass das ein bisschen höltern aus, aber ich finde es ist witzig

00:46:29: und ja, lädt einen damit umzuspielen.

00:46:33: Interessante Spielerei, Wiggle AI.

00:46:36: Na zumal, es ist vor allem wieder einfacher geworden.

00:46:39: Also ich habe mal vor vier Wochen, als diese chinesische Super LLM Klinge rauskamen, was

00:46:46: man ja nicht nutzen konnte, über so einen ganz wilden VPN Channel, doppel Channel über

00:46:53: Huggingface auf Kling zugegriffen und habe mir da quasi so ein Avatar gebaut von einem

00:47:00: Foto von mir und habe es dann versucht mit einer Rede von Trump quasi aufzubiefen.

00:47:07: Und es hat eine Stunde gedauert und zwar am Ende Super Hölzer und zwar dann irgendwie

00:47:11: doch technischer als ich wollte.

00:47:13: Und genau das Gleiche macht Wiggle jetzt einfach mit so ein paar Klicks und viel einfacher

00:47:17: mit Drag and Drop über eine, ich glaube sogar, ist eine iPhone App.

00:47:20: Also die habe ich nicht, es gibt es gibt bei jeden Fall nicht, ich weiß nicht ob für

00:47:23: iPhone oder nur für Android, aber das Pats auf jeden Fall, die schauen uns, das ist mal wieder.

00:47:28: Also ja, es ist verölternd, es geht um Patsen und TikTok Videos und Co.

00:47:33: Aber es ist mal wieder krass, wie schnell die Nutzung von dieser Technologie einfach vereinfacht

00:47:39: wurde und so natürlich auch nur für Merz und uns beide zugänglich ist, sondern tatsächlich

00:47:43: für eine Masse machen.

00:47:44: Dann habe ich zwei Tools, die mehr oder weniger in die gleiche Richtung gehen oder nicht

00:47:49: in die gleiche Richtung wie jetzt Wiggle, aber die in einem gemeinsamen, ein endliches

00:47:54: Thema befeuern, nämlich das Thema Avatar.

00:47:58: Auf der einen Seite Let's AI, also Let's Fetts hätte ich was gesagt, sondern Let's AI und

00:48:03: Replicate.com und bei beiden kann man sich selber als Avatar anlegen und kann dann eigene

00:48:12: Szenarien und Bilder erstellen.

00:48:14: Ich finde das insofern ganz interessant.

00:48:15: Wir hatten eben kurz schon mal diesen kleinen Newcase im E-Commerce.

00:48:18: Wenn ich mir wie gesagt vorstelle oder mal vorstellen möchte, wie ich im Smoking aussehe,

00:48:24: dann kann ich das mit Replicate.com beziehungsweise mit Let's AI machen.

00:48:29: Sehe ich auch endlich mal gut aus.

00:48:31: Auch das eine interessante Spielerei.

00:48:34: Einfach mal ausprobieren, wer Lust hat, beides kostenlos zu nutzen.

00:48:38: Genau, das war es von meiner Seite, lieber Sascha.

00:48:43: Ich dachte du machst das Auto.

00:48:47: Das Auto muss du machen.

00:48:49: Ich sehe auch nichts mehr.

00:48:51: Okay, das ist gut, aber ich höre dich noch.

00:48:54: Das war die heutige Folge mit Sascha aus dem Urlaub und mit mir leider nicht mehr im

00:48:59: Urlaub.

00:49:00: Die zwanzigste Jubiläumsfolge mit ganz vielen News und einem, wie ich finde, interessanten

00:49:05: Schwerpunktthema, welches wir sicherlich nochmal vertiefen werden in einer anderen

00:49:10: Folge und dann wirklich da mal ein Deep Dive machen, was das Ganze eigentlich auch nicht

00:49:15: nur für uns, sondern für die Welt vielleicht sogar bedeutet.

00:49:18: Ihr könnt uns natürlich Feedback geben, indem ihr uns schreibt an hello@anplugtpodcast.de

00:49:26: oder aber uns in den sozialen Medien schreibt.

00:49:29: Manche machen das auch.

00:49:30: Wir freuen uns über jedes Feedback und wir freuen uns natürlich auch, wenn ihr den Podcast

00:49:34: Like schert, weiterleitet und einfach auch nur hört.

00:49:39: Wir hören und freuen uns über jede Hörerin und Hörer.

00:49:42: In diesem Sinne, eine schöne Woche.

Shownotes

Transkript anzeigen

Neuer Kommentar