AI Update der KW 34 / Status Quo bei bildgenerierender AI
Shownotes
- xAI: Nach Veröffentlichung von Grok-2 folgt Kritik wegen fragwürdiger KI-Bilder: https://www.heise.de/news/xAI-veroeffentlicht-Grok-2-mit-umstrittener-Bildgenerierung-9835991.html / https://www.theverge.com/2024/8/14/24220173/xai-grok-image-generator-misinformation-offensive-imges
- Flux auf Steroide (Flux Realism): https://www.reddit.com/r/StableDiffusion/comments/1ep5htc/portraits_of_men_flux_realism_lora/#lightbox / https://fal.ai/models/fal-ai/flux-realism
- Deep-Live-Cam: https://github.com/hacksider/Deep-Live-Cam
- Meta beobachtet verstärkt KI-Einsatz für Desinformationkampagnen: https://www.heise.de/news/Meta-beobachtet-verstaerkt-KI-Einsatz-fuer-Desinformationkampagnen-9839785.html
- Google bringt Gemini live aufs Smartphone: https://x.com/GoogleDeepMind/status/1823409674739437915
- Sammelklage gegen Anthropic: Autoren werfen KI-Unternehmen massiven Copyright-Verstoß vor: https://the-decoder.de/sammelklage-gegen-anthropic-autoren-werfen-ki-unternehmen-massiven-copyright-verstoss-vor/ Klage von Künstlern gegen Stability AI und Midjourney: https://www.theverge.com/2024/8/13/24219520/stability-midjourney-artist-lawsuit-copyright-trademark-claims-approved
- AI is changing video games: https://venturebeat.com/games/exists-launches-genai-platform-to-create-3d-games-from-text-prompts/ und https://exists.ai/#gallery
- Forscher schlagen Mensch-Nachweis vor, um Menschen online von KIs zu unterscheiden: https://the-decoder.de/forscher-schlagen-mensch-nachweis-vor-um-menschen-online-von-kis-zu-unterscheiden/
- Apple Intelligence im Einsatz / Test: https://t3n.de/news/apple-intelligence-pruefstand-ki-ios-18-1-beta-1640917/
Tools:
- Viggle: https://viggle.ai/home
- LetzAI: http://letz.ai
- Replicate : https://replicate.com/
Disclaimer:
Was ihr hier hört, sind unsere Gedanken und Meinungen, nicht die unserer Arbeitgeber, Zimmerpflanzen oder Haustiere. Als Enthusiasten versuchen wir euch Einblicke in die Welt von künstlicher Intelligenz in Finance zu geben, aber wir sind nur Enthusiasten, keine Hellseher. Unsere Einschätzungen könnten genauso gut aus einem Horoskop stammen.
Transkript anzeigen
00:00:00: A.I. in Finance. Der Anplug Podcast von Sascha Deewald und Mike Klotz.
00:00:13: Hallo und herzlich willkommen zur 20. Episode von A.I. in Finance, unserem Anplug Podcast
00:00:27: mit Mike Klotz und mir Sascha Deewald zum Thema Künstliche Intelligenz,
00:00:31: Zahlungsverkehr und im Banking. Wir haben jetzt 20 geknackt. Das ging gar nicht,
00:00:37: hat nicht so lange gedauert, wie ich erwartet habe, ehrlicherweise. Hast du gedacht, dass wir
00:00:41: schaffen? Ja, schon und auch gehofft und freue mich natürlich. 20 ist ja ein schönes Jubiläum
00:00:48: und hat gar nicht weh getan, würde man sagen. 19 davon remote und nur eine in real life. Das heißt,
00:00:55: dass wir demnächst tatsächlich mal öfters machen, weil das am meisten guten, gleichlagsten
00:01:03: Lebensbilden machen. Für mich ist es so ein bisschen die Urlaubs-Edition noch. Ich bin im Urlaub in
00:01:09: der wunderschönen Toskana und habe den besten Blick. Zum einen natürlich, weil ich dich vor mir
00:01:14: sehe, liebe Mike. Zum anderen, weil ich einmal in einem riesengroßen wunderschönen Weinberg
00:01:18: direkt in der Nähe von Florenz schaue. Aber das haben wir uns nicht abhalten. Du sitzt am
00:01:23: heimischen Schreibtisch, bei dir geht gleich die Arbeit los und vorher nehmen wir noch schnell
00:01:27: eine Episode auf, damit wir euch nicht zu lange hängen lassen und es ist mega viel passiert.
00:01:32: Das stimmt und ich kann nur bestätigen, Sascha, du hast mir eben ein, zwei Bilder geschickt. Das
00:01:37: sieht wirklich sehr, sehr hübsch aus bei euch, muss ich sagen. Ich beneide dich ein klitzekleines
00:01:41: bisschen, aber nur ein bisschen und freue mich natürlich, dass du mich sehen darfst. Ich war ja
00:01:47: beim Friseur, wie du unschwer erkennen kannst. Danke, der Mann, mit dem etwas frischer aus als
00:01:51: nun, glaube ich, sogar ein bisschen. Ja, du hast absolut recht, es ist einiges passiert und wir
00:01:58: haben heute sogar ein bisschen einen Schwerpunktthema, was sich aus den Nachrichten oder aus der
00:02:05: Nachrichtenlage ergeben hat oder ergibt. Was ist passiert in den letzten Tagen, Wochen,
00:02:10: nicht Wochen, in den letzten Tagen, muss man sagen, es gab einen großen Launch, nämlich
00:02:14: Elon Musk, also nicht er persönlich, aber Twitter oder Formally known as x, x hat Krok 2
00:02:24: gelanscht. Also es ist jetzt für alle zahlende Twitter bzw. x-Nutzerinnen und Nutzer möglich,
00:02:32: Krok 2 zu nutzen und Krok hat mehrere Dimensionen. Auf der einen Seite bedient sich Krok, was die
00:02:40: Informationslage betrifft, dem kompletten Twitter-Netzwerk. Also man kann, wenn man Krok nutzt, um
00:02:45: Fragen zu stellen, bekommt man wirklich sehr, sehr gute Ergebnisse, wie ich finde, weil natürlich
00:02:50: ja Content oder das zur Verfügung stehende Material nicht nur tagesaktuell, sondern auch
00:02:55: unglaublich umfangreich ist. Das ist das eine, also ich finde die Qualität in den Tests, wie ich sie
00:03:02: jetzt gefahren habe, gar nicht so schlecht. Und das zweite, was Krok gelanscht hat, ist nämlich ein
00:03:08: bildgenerierende, also eine bildgenerierende AI basierend oder vielmehr in der Zusammenarbeit mit
00:03:15: Flux und Flux hatten wir ja auch in der letzten Woche schon mal als Nachricht oder als News.
00:03:23: Und was ist jetzt daran so besonders? Also zwei Dinge an dem Thema bildgenerierende AI bei Krok.
00:03:30: Das erste ist die extrem gute Qualität. Also was da rauskommt an Bildern ist von der Qualität und
00:03:37: so wie es aussieht, wirklich gut. Das liegt einfach an Flux. Flux hat quasi von Hause aus schon eine
00:03:45: sehr gute Qualität. Vielleicht können wir gleich auch noch zwei, drei Sätze Sascha zu Flux sagen,
00:03:49: wo die herkommen. Das ist nämlich ein Deutscher, der dahinter steht oder ein deutsches, deutsche
00:03:54: Company. Und was das zweite bemerkenswerte ist, neben der Qualität, Ellen Musk hat sich so einen
00:04:00: kleinen Spaß auch ausgemacht. Das ganze Thema nämlich zumindest zum Start weg quasi unzensiert
00:04:06: zu veröffentlichen. Das heißt, man konnte, Konjunktiv geht jetzt nicht mehr ganz so leicht,
00:04:11: aber man konnte für die ersten Tage sehr wilde Fotos generieren lassen. Das Einzige, was nicht
00:04:18: möglich war, war alles was mit "Niudity", wie sagt man, mit Nacktheit zu tun hat. Das ging nicht.
00:04:24: Also das ist natürlich typisch amerikanisch. Also sobald man irgendwie nippel sieht,
00:04:28: flippen alle aus. Dafür konnte man aber Ellen, nicht Ellen Musk, den auch, aber Donald Trump mit
00:04:33: Nackettensäge oder Mickey Mouse mit, wer es ein Schrot flimten und mehr oder weniger lustigen
00:04:39: Dingen sehen. Wir packen auch in die Shownauts zwei, drei interessante Artikel, die auch Beispiel
00:04:44: bildet an haben. Ich habe eben schon richtigerweise gesagt, Konjunktiv, es geht nicht mehr. Es ist
00:04:50: jetzt entschärft, wenngleich ich immer noch der Meinung bin, dass durchaus noch viel mehr geht,
00:04:55: als beispielsweise bei "Mid Journey". Was nämlich immer noch funktioniert ist, man kann
00:05:00: "Celebrities" nutzen. Also du kannst also Bilder generieren, anders als bei "Mid Journey". Wenn du
00:05:06: da anfängst, mach mir mal irgendwie "Spider-Man", dann kommt direkt irgendwie "Nee geht nicht",
00:05:10: wegen Urheberrecht und keine Ahnung. Das ist hier anders. Du kannst also wirklich sehr frei Bilder
00:05:15: generieren und mit etwas prompting, wenn du dem ganzen Thema so ein Satire-Fleck gibst und so ein
00:05:22: bisschen das noch ein bisschen weicher umschreibst, kannst du tatsächlich auch Bilder generieren,
00:05:27: die ja schon zumindest mal edgy sind, wenngleich es auch entschärft wurde. Das ist so die ganz
00:05:33: krassen Bilder, wie sie anfänglich durch die Medien gegeistert sind, ist nicht mehr möglich.
00:05:40: Und ich weiß nicht, sagst du, du hast das ja auch mitbekommen, auch im Urlaub. Ich weiß nicht,
00:05:44: wie du draufschaust. Ich fand es natürlich erstmal spannend und interessant und es lädt
00:05:48: auch zum Spielen ein. Aber ich war relativ schnell so auch erschrocken darüber, was wirklich geht.
00:05:54: Und das bringt ja auch die ein oder andere Frage mit. Ja, total. Du hast ja auch gesagt,
00:06:02: jetzt gerade geht es nicht mehr. Also am Ende des Ganzen von XRI, die GROC-Basierte auf zwei sehr
00:06:08: leistungsfähigen Sprachen, wo die zwar immer ein bisschen richtig augezogen werden. Das ist GROC2
00:06:13: und GROC2 Mini. Aber wichtig ist auch, die wurden nach der offiziellen Ankündigung von
00:06:18: letzter Woche, glaube ich, was ich im 15. Jahr oder so was, als Beta-Version erst mal nassiert. Das
00:06:23: bedeutet, es heißt nicht, dass nur weil sich jetzt halt einige Kritiker daran führen, dass dieses
00:06:28: Material einfach zu verrückt ist, dass es jetzt abgeschaltet wird. Das heißt, viel mehr einfach
00:06:33: ist es halt irgendwie Beta. Es wird noch ein bisschen drin rumgefeintun. Aber alle Welt erwartet
00:06:38: schon, dass GROC2 und auch das Mini-Modell davon über die Implementierung in X fortführend solche
00:06:47: Arten von Bildern hervorbringen wird, die einfach zu sehr viel internationale Kritik auch führen.
00:06:52: Dazu kommt genau das, was du gesagt hast, dass sie jetzt mit dem KI-Bildgenerator Flux
00:06:55: verknüpft sind. Das ist von diesem Start-up, was wir in der letzten Episode kurz aus Deutschland
00:07:00: erwähnt hatten, also diese Black Forest Labs, die ja schon sehr erfolgreich dieses Modell gebaut
00:07:06: haben und jetzt tatsächlich seit letzter Woche dann auch in GROC2 als quasi Fine-Tuning des
00:07:11: eigenen LLMs implementiert haben. Und es gibt wahnsinnig viel Kritik davon. Eins ist zum
00:07:18: Beispiel, dass mittlerweile auch kein Zweifel mehr daran besteht, dass für das Training von diesem
00:07:21: Modell einfach auch ureberrechtlich geschütztes Bildmaterial verwendet wurde. Das steht mittlerweile
00:07:27: mehr oder weniger fest. Gerade wenn es doch darum geht, echte Bilder von echten Menschen zu
00:07:31: nutzen und dann natürlich da auch entsprechend dieses Fine-Tuning und die Infarenz dann auch zu haben.
00:07:37: Wir wollten uns ja sowieso mal damit beschäftigen, wie gut eigentlich diese Trainingsdaten sind,
00:07:43: beziehungsweise auf welchen riesigen Datensätzen diese vor allem Bildgeneratoren dann tatsächlich
00:07:49: auch basieren, die ja über das Training dann auch reingeklaut wurden. Also was ist da eigentlich
00:07:54: drin und was ist aber auch explizit nicht drin. Denn was wir ja schon wissen, ist, dass Themen
00:07:58: immer mal wieder vorher rausgefiltert wurden. Früher in den ersten Modellen gab es da so Keyword-Listen,
00:08:03: um gewaltsame Themen, Menschen verachten, dass sexuelle Inhalte, wie du es ja auch gesagt hast,
00:08:07: solche Themen grundsätzlich rauszunehmen, dass sie dann auch Bomben bauen und sowas drin
00:08:11: gewößen werden muss. Diese Keyword-Listen, diese ersten Foundation Models damals,
00:08:16: ChatchiPity 2, 5 war das glaube ich, die waren supergenerisch und die waren ja auch gar nicht
00:08:21: divers, die waren überhaupt nicht queer und all solche Themen sind eigentlich fast pauschal
00:08:25: rausgeflogen und da gab es ja auch ganz wilde Stilblüten, über die immer immer wir für mal
00:08:30: berichtet haben. Aber in den neueren Modellen lässt man mittlerweile quasi diesen schädlichen
00:08:35: Content im Datensatz drin, das ist ja auch schon ein bisschen das, was du gerade mit Elon und mit
00:08:39: Samtas mit hast, damit das Modell auch einfach so ein bisschen lernen kann. Also das ist dieses
00:08:43: berühmte Nazi-Beispiel mehr, wenn ich vorher immer alles rausfilterte über Nazis, kann ich dem Modell
00:08:49: nicht hinterher irgendwie sagen, mache keinen Nazi Content, sprich nicht mit Nazis, denn weiß ja
00:08:54: gar nicht, was das ist. Aber du sprichst ja jetzt das Lernen an, also jetzt bis hier geht es darum,
00:09:00: wie die Modelle lernen, nicht, was sie ausgeben. Noch ist es nur das Lernen, weil das ist am Ende
00:09:05: ja das Fundament davon und ich glaube ein ganz großes Problem der neueren Modelle ist dann dieser
00:09:12: Bias, also dieses Binken von Vorurteilen, das sind so diese ganz typischen Klischees. Denn für unser
00:09:18: Thema, was wir gerade auch mit Grog und Flux haben, geht es ja nicht um Text-to-Text oder Text-to-Speech,
00:09:24: sondern es geht ausschließlich so um Bildgeneratoren und darüber haben wir besprochen von Dal E, von
00:09:28: Mid Journey. Ganz wichtig, das Train-Training von denen geht vor allem über Plattformen von so
00:09:34: Image-Netz, das sind einfach immense Datenbanken, aber hier gibt es ein ganz großes erstes Problem,
00:09:40: was ich hier immer wieder sehe, ist das zum Beispiel 50 Prozent aller vorhandenen Bilder auf Image-Netz
00:09:46: aus den USA kommen und nur 3 Prozent kommen aus China und Indien, obwohl die ja Bevölkerung
00:09:51: eigentlich einfach viel größer sind. Und da gibt es dann so diese typischen Spiele von der ersten
00:09:57: Generation Mid Journey, wo man zum Beispiel sagt, malen oder stelle mir einen schwarzen Arzt da,
00:10:04: der ein weißes Kind behandelt. So, das macht die Kati dann einfach nicht. Die veränderenden
00:10:08: Pomp. Lustig, ein kleiner Anekdote dazu, das habe ich jüngst gelesen, das gilt übrigens auch für
00:10:15: Smartphones. Das heißt, wenn du dich fotografieren lässt mit einem Huawei-Smartphone, was überwiegend
00:10:22: in China verdrieben wird, bekommt deine Haut eine tatsächlich andere Fährbogen, also es wird
00:10:27: anders aufgehält, weil der überwiegend Asiaten, als wäre es beispielsweise, wenn du ein iPhone oder
00:10:33: Samsung nimmst, weil auch diese KIs, da ist ja auch eine KI dahinter, die die Bilder letztendlich optimiert
00:10:38: drauf trainiert wurde auf ein entsprechendes Zielpublikum und das sind in der Regel nicht
00:10:45: wie Europäer. Total, das ist ein super Beispiel, ein anderes Beispiel ist Mexiko. Diese Modelle wurden
00:10:52: halt damit trainiert, dass Mexikaner manchmal einen Zombrero aufhaben. Und das heißt, immer wenn du
00:10:59: jetzt auch in Dalí immer noch einen Mexikaner darstellen lassen möchtest, dann hat er in
00:11:04: fast allen oder überwiegenden Bildern einen Zombrero auf den Kopf. Wichtig ist einfach hier
00:11:10: nochmal zu verstehen, dass die KI immer nur auf das zurückgreift, was sie gelernt hat, auch wenn
00:11:15: in nur fünf von hundert Fällen in den Trainingssaten vielleicht so ein Zombrero mal vorkam, so assoziiert
00:11:20: die küsseliche Intelligenz Mexiko mit einem Zombrero und weil ja auch jeder prompt immer wieder
00:11:27: eine neue Rechenoperation triggert, im Hintergrund beginnt dieses Spiel und dieses Spiel der Wahrscheinlichkeit
00:11:31: dann jedes mal von vorn. So, so richtig konnten wir das vor so ein paar Monaten ja beobachten,
00:11:36: darüber haben wir damals viel gesprochen als Google ihr Sprachmodell Gemini
00:11:40: gelouncht hat und nach wenigen Tagen zumindest den Bildgenerator wieder abgestellt hat. Da war
00:11:45: zum Beispiel dieses wunderschöne CEO-Problem. Ja, der prompt war damals, gibt mir Bilder von
00:11:51: drei unterschiedlichen CEOs und bei Mid Journey waren das immer irgendwelche alten weißen Männern.
00:11:57: So, das fanden wir sehr bewusste und auf diversitätachtende Menschen natürlich
00:12:02: irgendwie schräg und das fanden wir überhaupt nicht gut, aber wir wussten natürlich auch,
00:12:06: das bildet ja blöderweise die Realität ab. Das stimmt ja in den meisten überwiegenden Fällen.
00:12:11: So Gemini wiederum hat das aber nicht akzeptiert, denn egal wie du den prompt gebaut hast damals,
00:12:17: es kamen ausschließlich indische Frauen, es kamen schwarze Frauen, das heißt, es war unmöglich
00:12:22: einen bild von einem weißen alten männlichen CEO zu bekommen, auch wenn du es explizit so
00:12:26: gepromptet hast. So, ein schönes anderes Beispiel, weil dieses CEO-Beispiel verfängt sich immer so ein
00:12:31: bisschen, ein anderes Beispiel war ein weißer Icehockey-Spieler. Wenn du Gemini gesagt hast,
00:12:36: zeige mir einen weißen Icehockey-Spieler, dann hast du die Antwort bekommen, das nimmt sie nicht,
00:12:40: denn sie würde niemals aufgrund von Hautfarbe irgendwie handeln, war glaube ich so die Antwort.
00:12:46: Wenn du wiederum aber gepromptet hast, Gemini soll einen schwarzen Icehockey-Spieler darstellen,
00:12:50: das war sofort, das war gar kein Problem, in fünf Sekunden hast du das Ding bekommen.
00:12:53: So, das heißt also, die KI behauptet, sie hat überhaupt nichts mit Hautfarben wie am Hut und
00:12:59: würde sich damit überhaupt nicht einwischen, hat aber offenbar einen ganz klaren Filter dafür
00:13:04: eingebaut, dieses so zu tun. Und was jetzt offenbar passiert, das so zwischen der ersten und zweiten
00:13:09: Generation von diesen Bildgeneratoren ist, dass Google zum Beispiel inzwischen so ein Layer eingebaut
00:13:15: hat und dann bewusst so Themen wie Diversität, Femininen-Themen hinzufügen. Und alle haben
00:13:22: von Hause, dass Google jetzt einfach Level danach postiert und einfach ein bisschen weniger divers
00:13:26: und vielleicht ein bisschen realistischer macht. Aber bisher ist das einfach nicht gelungen,
00:13:30: sprich, das Fine-Tuning, das scheint super komplex zu sein und Google kriegt das einfach
00:13:34: überhaupt nicht in den Griff. Es gibt mittlerweile Gerüchte sogar, auch auf allgenen Fällen,
00:13:39: dass Google das Modell wahrscheinlich sogar wegwerfen muss und von Null auftrainieren muss,
00:13:43: weil sie keine Ahnung haben, wie sie die Parametrisierung halt irgendwie anders hinkriegen.
00:13:46: Und ich finde, das zeigt halt, wie wichtig von Anfang an so ein Ethik-Team in den großen Modellbetreibern ist.
00:13:54: Wir haben ja beide schon immer mal darüber irgendwie gesprochen und auch hier berichtet,
00:13:57: wie dieses Super-Alignment-Team bei OpenAI ausgedünnt wurde und alle relevanten Wissenschaftler zu
00:14:03: anderen Anbietern abgewandert sind. Aber offenbar hat auch Google das Problem, dass sie einfach
00:14:08: ein vernünftiges Ethik-Team hatten, aus bereits in der Konzeption von so einem neuen Modell
00:14:13: federführend mit waren. Und ich glaube, das gleiche Problem haben ja nicht nur Bildgeneratoren,
00:14:18: sondern auch Text-to-Text-LLMs wie Chatchi-Bizonen. Von dem man ja auch weiß,
00:14:23: dass genau da, wo ich gerade darauf eingehe, also das, was du gerade beschreibst, ist da besonders
00:14:30: sichtbar. Aber auch bei den Text-to-Text-LLMs ist es ja so, dass man mittlerweile das haben
00:14:37: Studien oder zumindest Analysen ergeben, politisch eher links angehaucht sind. Also sehr anders als
00:14:44: mit unter die Realität. Das heißt, die Ergebnisse, die wir da bekommen, natürlich wenn du jetzt fragst,
00:14:48: wie funktioniert irgendwie Fotosynthese, da ist sicherlich keine Befangenheit, aber sobald es
00:14:55: anfängt, ein bisschen politischer zu werden, ist das etwas links angehaucht. Ja, so das berühmte
00:15:01: linksgrün versiffte LLM. Aber was auf jeden Fall stimmt, ist, dass sie oft einfach zu ängstlich und
00:15:07: zu vorsichtig oder lang jemals zu eng trainiert werden. Es gibt so ein KI-Podcast vom ARD und die
00:15:13: haben Chatchi-Bizonen mit so ein paar lustigen Fragen gequält und versucht Witze rauszulocken.
00:15:17: Unter anderem war der Prompt von den ARD-Kollegen, mach doch mal ein Witz über Afghanen.
00:15:22: Da weigert sich das GPT und sagt, das macht ja nicht. Die erste Intention, die hatte war,
00:15:28: okay, das ist ja eigentlich cool und irgendwie positiv, weil GPT offenbar sich von Anfang an
00:15:33: bewusst gegen Fremden hat, positionieren. Aber beim zweiten Nachdecken dachte ich dann,
00:15:37: dass offenbar jede Assoziation des LLMs mit Afghanen respektlos ist. Also das sagt ja einfach
00:15:45: lieber nichts, was ja totaler Bullshit ist, ganz am Ende. Und ich finde, das geht mittlerweile so
00:15:49: weit, das ist einfach auch einfachste Sachen. Ich wollte neulich mal eine grusel Geschichte für meine
00:15:54: Kids ein, ich hab eingeschrieben, bitte eine grusel Geschichte, irgendwie von sechs bis acht
00:16:00: jährige. Das kannst du halt vergessen. So aus Angst, es könnte sich jemand davor gruseln, war die
00:16:06: Antwort. Und ich sag ja, das ist exakt die Idee, warum ich dir diese Aufgabe gerade gebe. Aber ich hab
00:16:10: das nicht hinbekommen. Oder wie gesagt, wir wollten natürlich mal eine ganze Folge zu machen, aber
00:16:15: einfach mal darüber zu sprechen, was ist denn so unsere Konklusio daraus? Vor allem natürlich auch
00:16:21: im Hinblick auf die von dir angesprochenen News von Krock und Flux. Weil grundsätzlich geht es ja
00:16:28: offenbar auch um Wertesysteme, mit denen sich die Betreiber der Modelle beschäftigen. Manche
00:16:35: ein bisschen früher in der Trainingsphase, manche offensichtlich ein bisschen später. Und ich glaube,
00:16:39: unsere Beispiele heute zeigen ja, dass es Modelle gibt, die offenbar einfach gar keine Einschränkungen
00:16:43: haben, so wie Krock und solche, die es einfach offenbar ein bisschen übertrieben haben mit dem
00:16:47: Filter Translator von Germany. Die Frage, die mich hier aber irgendwie immer mehr beschäftigt ist,
00:16:52: brauchen solche Modelle überhaupt ein eigenes Wertesystem oder sollten die sich nicht einfach
00:16:59: da komplett raushalten und versuchen einfach die Realität darzustellen? Weil wenn ich mir das
00:17:04: CEO-Problem nochmal vor Augen führe, die drei CEOs, die alle maximal divers waren, aber offensichtlich
00:17:09: nicht ansatzweise in unserem Lebensraum der Realität entsprechen, dann ist ja nun mal so, dass in
00:17:16: überwiegenden Fällen weiße alte Männer sich aussehen. Das ist halt die Realität. Sollte es die
00:17:20: KI da nicht genauso zeigen und sollte sie es nicht vielleicht sogar zichtbar machen und quasi dem
00:17:25: Fragesteller auch so ein bisschen diesen Spiegel vorhalten und auf das Problem aufmerksam machen,
00:17:29: als ist halt irgendwie bewusst zu verschleiern? Na ja, du hast glaube ich zwei Dimensionen oder
00:17:36: zwei Punkte sich da. Das erste ist, wir sprechen jetzt immer über bildgenerierende AI, die in irgendeiner
00:17:45: Art und Weise öffentlich stattfinden. Natürlich, das ist jetzt meine Meinung, sollte man jetzt
00:17:50: mit Journey nicht die Möglichkeit geben oder sollte ich mit Journey nicht die Möglichkeit haben,
00:17:55: irgendwie gewaltverherrlichende Bilder zu generieren. Wobei das auch wirklich eine Grenzwanderung
00:18:01: ist, denn wenn ich jetzt für Halloween ein Zombie-Bild haben möchte, dann sehe ich da wahrscheinlich
00:18:05: halt auch Menschen, die nicht mehr ganz so fresh aussehen, also in dem Falle tot, das liegt in der
00:18:10: Natur der Sache. Das ist sicherlich nicht einfach zu lösen, nichtsdestotrotz glaube ich tatsächlich
00:18:16: alles was öffentlich stattfindet, braucht in irgendeiner gewissen Art und Weise eine Regulierung.
00:18:20: Und da stellt sich für mich schon wieder die Frage, wo findet diese Regulierung statt? Ich glaube nicht
00:18:25: so sehr an selbst regulierende Unternehmen, also das ist, sehen wir jetzt bei X, das hat einen
00:18:30: Maskatter glaube ich eine andere Sichtweise drauf, wie beispielsweise jetzt vielleicht Apple oder
00:18:34: andere Unternehmen, aber das zweite Thema ist der Verhindbarkeit. Sagt man das so? Also ist es überhaupt
00:18:41: mögliches zu verhindern? Ich glaube nein, weil all diese Modelle, die wir jetzt gerade beschreiben,
00:18:45: Flux oder Flux ist ein schönes Beispiel, sind Open Source. Kann mir hier eine Maschine hinstellen und
00:18:50: mit Maschine meine ich nicht eine große Maschine. Die Dinger brauchen natürlich ein bisschen Rechenleistung,
00:18:56: aber ich habe das damals mit Stable Diffusion probiert. Du installierst dir das mit einem vernünftigen
00:19:02: MacBook M1 und M2 Prozessor, gibst du dem einfach möglichst viele Bilder zum Trainieren. Da reiche
00:19:08: deine Fotomediathek und dann kannst du auf Basis deiner Fotos erst mal machen, was du willst.
00:19:14: Und das heißt, und wir sehen das ja auch schon, also wer bei Reddit ein bisschen unterwegs ist, es gibt
00:19:20: so viele Subreddits zum Thema Unstable Diffusion, also wo man Bilder generieren kann, die eben Dinge
00:19:28: ermöglichen, die man sonst nicht macht, meistens in einem pornografischen Kontext, das lässt sich,
00:19:33: glaube ich, nicht verhindern. Also wir haben diese beiden Dimensionen. Auf der einen Seite sollten
00:19:38: wir LLMs trainieren mit möglichst realistischen Daten. Meine Meinung jetzt ist nur eine Meinung, ja
00:19:43: bitte, sollten wir das in einem öffentlichen Raum reglementieren, auch hier ja bitte und dann am
00:19:50: besten eine Regelung, die im besten Fall weltweit irgendwie geht, was schwierig ist, aber verhindern,
00:19:58: dass wir beispielsweise jetzt im US-Wahlkampf Bilder sehen, die nichts mit der Realität zu tun
00:20:05: haben. Momentan sehen wir Donald Trump irgendwie in einer Gruppe von farbigen oder von schwarzen
00:20:13: Menschen, wo er nie gewesen ist. Das kann ich noch sehen, weil da sechs Finger sehen sind, aber
00:20:18: kommen wir auch gleich zu Flux oder Flux als Modell. Es gibt ja auch noch Flux Realism. Die
00:20:24: Bilder werden wir auch in die Show Notes packen. Ich habe sie dir heute Morgen ja mal geschickt,
00:20:28: ich würde sagen, ich erkenne nicht mehr, dass es ein generiertes Bild ist. Das heißt, die Bilder
00:20:35: werden ohnehin viel besser und wir werden Missbrauch nicht verhindern können, aber wir sollten
00:20:41: trotzdem langer Monolog dazu übergehen, das in irgendeiner Art und Weise zu reglementieren.
00:20:47: Ja, ich sehe das wie du. Es ist ja auch nicht so leichter zu regeln, jetzt hier keine Antwort finden,
00:20:53: richtig oder falsch. Aber also mit so einem Bildgeneratoren. Ich will ja damit rumspielen,
00:21:00: ich will mir eine fantasievolle Welt erschaffen und ich frage natürlich auch, wie doll darf
00:21:04: mich die KI hier einengen? Und auch im Hinblick auf das, also auf Habsburger Probleme, also diesen
00:21:10: ewigen Kreislauf auf das Trainingsdaten, den wir ja hier auch schon das ein oder andere mal diskutiert
00:21:15: haben, ist das total kritisch. Denn solche Ergebnisse fließen ja dann wieder eins zu eins in das nächste
00:21:20: Modell als Training hat irgendwie ein und irgendwann kann einfach niemand mehr es sich her sagen,
00:21:24: was ist denn nun wirklich die Wahrheit? GPD4.0 macht es jetzt ein bisschen anders, habe ich jetzt
00:21:29: gesehen, die haben das, also gab es so eine schöne Dokumentation, ich glaube sogar auf Hackingface,
00:21:34: die so ein bisschen erklärt hat, was die neue Parametrisierung dahinter ist. Und das ist so,
00:21:40: wenn du quasi prompt ist, wieder gleicher Newscase, du möchtest drei Bilder von CEO's haben, dann
00:21:44: fragt es dich erst mal zurück, bevor es dir irgendwas displayed, wie diese Bilder aussehen sollen. Das
00:21:49: heißt, welche Attribute sollen sie haben? Sollen es Männer oder Frauen sein? Sollen sie Brillenträger
00:21:53: ihnen sein? Et cetera. Welche Hautfarbe kriegst du sogar auch manchmal als Frage? Und damit kriegst du
00:21:58: natürlich deutlich bessere Ergebnisse und die KI nimmt sich damit auch bewusst zurück und lässt
00:22:04: dir die Entscheidung, was du generieren möchtest. Und ich glaube, so die Verantwortung dahinter muss
00:22:13: man sich halt immer mal wieder auch anschauen. Also lass uns das Thema jetzt an der Stelle mal
00:22:16: abbilden. Aber ich glaube, was wir hier mal abgesehen von diesem verrückten Elon Musk,
00:22:21: dem wir Eingangs halt irgendwie auch korruptiert haben, sehen, ist, dass diese Ethik-Teams einfach
00:22:26: eine enorme Verantwortung tragen und auch gar nicht nur sie bewusst irgendwie in die Modelle
00:22:32: aufnehmen und was sie vielleicht auch rausfiltern, sondern vielmehr wie diese Teams, die an den
00:22:38: Trainingsdaten arbeiten, quasi von Beginn aus gewählt werden und wie sie auch zusammengesetzt
00:22:42: werden. Also sowohl demografisch, das ist aber auch unterschiedlichste Menschen in aller
00:22:47: Koleur sind Techies, Künstler, Wirtschaftsmenschen, Politiker*innen. Also wirklich diverse Teams,
00:22:53: glaube ich, helfen hier ganz doll als nächste richtige Modell aufzubauen. Und dann natürlich auch
00:23:00: vielleicht auch als letztes Thema wirklich smarte Wasserzeichen zu setzen, damit man zumindest
00:23:06: auch auf solchen Plattformen wie Insta und auch allen anderen, die es da gibt und auch zukünftig
00:23:12: geben wird, wirklich ein eindeutig und einwandfrei erkennen kann, was es KI generiert und was
00:23:17: ist ein Bild der Realität. Ja, also ich glaube, der letzte Punkt, da haben wir auch schon oft
00:23:22: darüber gesprochen und da kann man auch, glaube ich, ich sehe so zwei wirklich Sonderfollen irgendwie
00:23:26: und das eine ist tatsächlich nochmal ein Schwerpunkt, Moral, Ethik, das ganze Thema zu beleuchten.
00:23:33: Also wie weit darf eine KI gehen, wie sehr muss die Realität abgebildet werden. Da schlagen
00:23:39: auch wirklich mehrere Herzen in meiner Brust sozusagen. Und das zweite Thema, glaube ich, wo
00:23:43: man eine wirkliche Sonderfolge mal, weil wir auch schon oft darüber gesprochen haben, ist
00:23:46: tatsächlich das Thema Nachweisbarkeit. Also wie schaffen wir es, sicherzustellen und wir
00:23:51: kommen ja gleich auch noch zu zwei, drei anderen News sicherzustellen, dass die Person, die wir
00:23:56: virtuell erleben und wir erleben ja immer mehr virtuell, das ist ja, wenn wir sprechen jetzt
00:24:01: auch virtuell, du bist in der Toskana. Ich bin jetzt hier im schönen Siegerland. Wir kennen uns und
00:24:05: wir sind uns sicher, dass wir jetzt hier sitzen, wie wir hier sitzen. Aber das weiß ich eben nicht
00:24:12: zwangsläufig und wenn ich mir jetzt mal anschaue, letztes Jahr um diese Zeit fing das ja alles so
00:24:18: ein bisschen an, also es fing schon, OpenAI fing schon früher an, es ist schon zwei Jahre, sprechen
00:24:23: wir darüber, aber das ganze Thema Bildgenerative AI oder Bildgenerierende AI, also letztes Jahr
00:24:29: war das alles noch Qualität per OK und auch irgendwie ein bisschen beeindruckend, aber man
00:24:34: sah schon noch, das ist irgendwie generiert. Da sind wir jetzt ein Jahr später und ich will
00:24:39: nicht wissen, wo wir wiederum in einem Jahr stehen. Das heißt, wir haben ja eine Sprung auf der
00:24:43: Entwicklung. Also zwei Themen tatsächlich und über das Thema Identität, also wie können wir
00:24:47: sicherstellen und in einer AI geprägten Welt sauber identifizieren, sicherzustellen.
00:24:52: super, super spannend, weil da gibt es gerade irgendwie auch noch nichts so richtig. Und
00:24:58: ja, EU-Regulierung hin oder her, ich habe ein bisschen Angst, dass wir da auch hinter
00:25:03: herhinken der Entwicklung, die wir da gerade haben. Also der elektronische Personalerweise
00:25:07: ist schön und gut, aber der hilft mir natürlich jetzt wenig bei Instagram, um sicherzustellen,
00:25:11: dass das mein Profil ist oder dass ich ein echter Mensch bin.
00:25:15: Genau, du hast ja da ja schönen Artikel gefunden sogar im Dekoder, oder?
00:25:19: Ja, oder ich habe einen neuen Forscher schlagen, Menschnachweis vor, um Menschen online von
00:25:26: Kais zu unterscheiden. Das ganze Thema soll dann im Prinzip die Kamera soll dann aktiviert
00:25:32: werden und die AI soll dann gucken, ist der Mic, der jetzt hier vorne sitzt, wirklich der
00:25:37: Mic. Also das ist ja auch so ein Thema, dass momentan AIs hier nur trainiert werden auf
00:25:44: Daten, die wir online letztendlich haben. Also sie sind, werden ja noch nicht trainiert
00:25:49: mit der echten Welt. Das wird sicherlich auch nochmal spannend, wenn wir in Richtung Robotics
00:25:53: und so weiter denken. Auch da können wir immer wieder eine eigene Folge zu.
00:25:57: Aber ich habe noch zwei, drei andere News mitgebracht, wie gesagt, heute sehr bisschen AI-lastig
00:26:04: so wie so, aber bildlastig. Also wir haben über das Thema XAI gesprochen, die Kooperation
00:26:09: zwischen CROC und Flux. Und bei Flux gab es noch eine weitere interessante Entwicklung,
00:26:14: die ich zumindest noch mal erwähnen möchte. Ich hatte sie eben gerade kurz angeteasert,
00:26:19: nämlich das Thema Flux Realism. Flux Realism ist eigentlich ein erweitertes Modell. Und
00:26:27: zwar ist es nicht nur Flux von Black Forest Lab, sondern Flux wird oder Flux wird erweitert
00:26:36: um Lora, das ist das Low-Rank-Adaption. Und dadurch erreicht man eine möglichst realistische
00:26:44: Darstellung von Szenarien und Fotos. Man kann das testen relativ einfach. Hugging Face,
00:26:51: Account, Linkpacken, Weine Show Notes. Es ist allerdings kostenpflichtig. Wobei kostenpflichtig
00:26:56: wird sich jetzt schlimm an. Man kauft eigentlich Credits und pro Foto muss man so rechnen zwischen
00:27:02: 0,1 bis 0,23 US-Dollar, also immer so um die 20 Cent so ein Foto was generiert wird. Aber dann
00:27:11: kann man loslegen und sich das mal anschauen. Und das ist wirklich so. Man schreibt relativ freie
00:27:16: Proms. Es ist auch ein Beispiel da vorgegeben und die Qualität, die rauskommt, die kann sich sehen
00:27:22: lassen. Wir haben das uns ja angeschaut und kann man mit arbeiten. Und wenn man das dann noch nimmt
00:27:27: und beispielsweise dann in eine weitere AI legt, auch da habe ich was in die Show Notes gepackt,
00:27:36: dann haben wir da draußen ein Bewegbild und ein Video und das sieht nicht weniger echt aus. Wie gesagt,
00:27:44: spannende Entwicklung gerade bei dem ganzen Thema Bildgenerierende AI. Was auch da in diese
00:27:50: Kategorie reinpasst, du hast es auch mitbekommen, ist das Thema Deep-Life Cam. Und Deep-Life Cam
00:27:56: ist nichts anderes wie ein Deep Fake. Man sieht es am Zusatz live und Cam. Man kann es in
00:28:07: Echtzeit machen. Das ganze Thema liegt auf GitHub. Wenn ich jetzt sage einfach, also ich
00:28:14: finde es jetzt nicht mehr ganz so einfach, weil man muss irgendwie echt viele Skripte so installieren.
00:28:18: Aber ich glaube jemand, der ein bisschen nördiger unterwegs ist, der wird das relativ leicht hin
00:28:22: bekommen. Ja und dann hast du eine Oberfläche, wo du einfach ein Referenzbild hoch lädst. Auf
00:28:29: GitHub-Seite ist auch ein kleines Video zu sehen, wo sich jemand einfach als Referenzbild mal wieder
00:28:34: einen Mask genommen hat. Und dann kannst du WebEx, Zoom, Google Meet, Teams und so weiter durchführen,
00:28:43: nur eben nicht mit deinem Gesicht. Und das ist natürlich auch nochmal eine neue Dimension,
00:28:49: vor allem weil es jetzt so einfach ist. Und auch hier ist es nur eine Frage der Zeit, bis man
00:28:54: noch jemand eine andere GUI drüberlegt, die es dann noch einfacher macht, vielleicht eine kleine
00:28:59: Executable daraus macht. Und dann kann das wirklich jeder und jeder zu Hause benutzen, um dann in Team
00:29:06: Meetings irgendwie anders auszusehen. Und was sich so ein bisschen lustig vielleicht anhört, ist
00:29:12: natürlich für uns hochgradig relevant. Denn wir beschäftigen uns jeden Tag genau mit dem Thema
00:29:18: Videokonferenzen auf unterschiedlichsten Ebenen, einmal in Meetings, immer du machst mehr Videokonferenzen
00:29:26: als ich. Aber auch wenn wir an sowas denken wie Videoident, wo es darum geht, jemanden also
00:29:32: KBAC-mäßig zu identifizieren, ja natürlich brauche ich den Personal ausweis, der muss auch
00:29:37: geknickt werden und in die Kamera gehalten und darum ich drohe. Aber die technischen Möglichkeiten
00:29:43: sind schon wirklich beeindruckend. Und wenn ich den Personal ausweis, kleine Anekdote,
00:29:48: meine Schwester wurde vorgestern das Portmoney gestohlen, ist wirklich einfach weg, da war der
00:29:53: Ausweis drinne. Und wenn ich jetzt noch ein Foto von ihr habe, das lässt sich leicht bei Facebook
00:29:58: finden, dann könnte ich jetzt wahrscheinlich mit relativ überschaubarem Aufwand unter Umständen
00:30:05: ein Konto eröffnen auf ein völlig falschen Namen und damit wirklich auch Missbrauch betreiben. Also
00:30:12: auch hier nochmal ein ganz klares Fraud-Szenario. Gerade weil es leid ist, es gibt irgendwie diese
00:30:20: zwei großen Identity-Betreiber in Deutschland für Videolegitimation, WebID und ID Now. Und was
00:30:26: die am Ende machen, ist so nach random Profilen immer mal wieder so ein bisschen ab Zufall, dass
00:30:32: sie versuchen, dass du deinen Kopf irgendwie nach oben und unten und mal zur Seite und dann irgendwie
00:30:37: den ID vor den Kopf holen. Wenn du dir den irgendwie ausdruckst oder so gut machst oder fähigst oder
00:30:44: vielleicht sogar hast, tatsächlich weil du ihn gestohlen hast, dass du diesen Personal quasi
00:30:50: physisch vor dir hast, dann kannst du in Echtzeit mit diesem Tool wirklich ganz fest ausstellen.
00:30:57: Aber ich habe es vielleicht nochmal durchgelesen, wer sind du gesehen, also ja, es sind irgendwie
00:31:01: 5, 6 kleine Script-Sidioheit irgendwie installieren muss. Aber wenn du ein MacBook hast, in der
00:31:05: Developer-Konsol ist es total simpel. Also am Ende musst du halt immer die Repositories aufmachen
00:31:10: und dann kannst du einfach in die 3 Scripts einfach nur tatsächlich copy-paste, dann machst du das.
00:31:16: Und dann musst du halt noch genau die AP legen, dahin was du willst. Also entweder es ist irgendwie
00:31:20: Teams, WebEx oder Co. Genau wie du es beschrieben hast oder du sagst du, du displaced es einfach nur
00:31:26: auf dem Bildschirm. Darüber, davon könntest du dann live abfotografieren, wiederum über
00:31:30: ein zweites iPhone oder sowas und damit hast du den Fake. Eigentlich müsste man das Maus probieren.
00:31:36: Wenn wir nicht Banker wären. Wenn wir nicht Banker wären. Also wir probieren schon eine Menge aus,
00:31:42: aber auch das können wir ja mal irgendwann machen und wir, die Hörerinnen und Hörer sehen das ja nicht.
00:31:46: Also es läuft ja auch hier gerade ein Video mit und vielleicht machen wir mal dann eine Videofolge
00:31:51: daraus, wo wir uns beide generiert haben. Und auch das Thema Voice Generation, auch das haben wir mit
00:31:57: 11 Labs schon mal gemacht. Auch das funktioniert sehr, sehr gut. Also ja, also es passiert eine Menge,
00:32:04: wie gesagt, man kann das immer so ein bisschen sagen, naja das ist das Gut, das ist das passiert,
00:32:10: viel Missbrauchpotenzial. Aber ich möchte zumindest einen Punkt noch genannt werden, warum ich die
00:32:14: ganze Entwicklung auch für den ganzen Bereich e-commerce beispielsweise für hochgradig spannend
00:32:20: empfinde. Wenn ich jetzt überlege, dass ich beispielsweise mein eigenes, mein eigenem Avatar
00:32:26: erstellen kann. Und wenn ich jetzt daran denke, dass ich vielleicht bei Zalando, Otto, wo auch immer
00:32:30: irgendwann meine Bilder hoch lade und kann in Echtzeit schauen, wie sieht es eigentlich aus,
00:32:35: wenn ich mir die Jacke, die ich mir vielleicht kaufen möchte, wie sieht die an mir aus, dann sind
00:32:40: das auch schöne Anwendungsfälle, die ich auch beeindruckend finde. Und da gibt es ja mittlerweile
00:32:45: einige Start-ups, die sich auch damit beschäftigen, genauso was zu ermöglichen. Und das sind jetzt mal
00:32:51: die positiven Beispiele, weil alles so traurig gerade war. Genau. Die Endzeitfolge. Die Endzeitfolge.
00:33:02: Passt so ein bisschen auch die nächste Headline und Nachricht. Meta beobachtet, verstärkt KI-Einsatz
00:33:08: für Desinformationskampagnen, Spoiler alert, da brauchst du jetzt glaube ich kein Meter zu. Da
00:33:13: braucht man nur einfach ab und an zu gucken, was in den USA passiert, gerade jetzt im aktuellen
00:33:18: Wahlkampf. Also ja, das passiert leider nicht immer so schönes. Lustig oder was heißt lustig?
00:33:24: Interessanterweise gar nicht so viel, nämlich aus so Europa war. Also ich nehme ganz, ganz viel
00:33:28: immer nur aus den USA war, was dort passiert. Aber in Europa scheinen sich Politiker oder Parteien
00:33:36: noch schwer zu tun, irgendwelche gefägten Bilder zu teilen. Ja, das ist ja das Wasserzeichenproblem,
00:33:41: dass du halt irgendwie mittlerweile bei 1, 2 LMS so generierte Wasserzeichen im Hintergrund
00:33:46: hast, dass du zumindest auf den einschlägigen Social Media Seiten diese ausschließen kannst.
00:33:51: Aber ganz viele andere haben es halt irgendwie nicht. Und selbst wenn du dein Foto quasi mit
00:33:56: da Liege erzeugt hast, wo ja ein automatisches Wasserzeichen, das nicht sichtbar ist, aber
00:34:01: trotzdem code lesbar dahinter liegt, erstellt und du das wieder rum woanders hoch lädst und sagst,
00:34:06: es ist ein original bitte ein kleines Freien Trainings mit zum Beispiel bei in der Photoshop
00:34:11: oder in der Adobe KI, dann hast du damit wieder quasi eine neue Primärquelle geschaffen, die dann
00:34:17: wiederum das Wasserzeichen nicht mehr enthält. So leicht ist es zur Zeit noch und kann das dann
00:34:22: doch wieder als irgendwo hochladen. Genau. Dann haben wir noch zwei, drei Nachrichten, weil
00:34:29: letzte Woche das Google Pixel vorgestellt hat, also Pixel 9 als Smartphone, also auch das Fold,
00:34:36: also hardware-Seite, hier ist noch ein bisschen was passiert und heute passiert natürlich wiederum
00:34:40: nichts ohne KI. Und im Zuge dessen hat Google mit Gemini oder Gemini Live jetzt auch den AI
00:34:47: Assistenten aufs Smartphone gebracht. Was ich gelesen habe dazu und was ich dazu gesehen habe
00:34:54: bei YouTube und Reviews, ich würde das mal zusammenfassen mit Google hat jetzt aufgeholt zur
00:35:00: OpenAI App oder zur ChatGPT App, weil vielmehr kann das Ding tatsächlich nicht. Also ich kann
00:35:07: Gemini Live Fragen stellen, ich bekomme auch entsprechende Antworten, aber so richtig
00:35:13: interaktiv oder so richtig gut und verzahnt ist es noch nicht, Google selbst bezeichnet es noch
00:35:18: als Beta Version. Ich glaube sie mussten das Launchen einfach auch vor dem Marktdruck, der
00:35:25: jetzt gerade entstanden ist. Überhaupt ist bei mir Google momentan bei dem Thema AI so ein
00:35:31: bisschen nicht ins Hintertreffen, so dramatisch würde ich es nicht beschreiben, aber wenn ich mir
00:35:36: die Modelle anschaue steht Google mit Gemini nicht auf Platz eins, also das sehe ich gerade überhaupt
00:35:43: nicht. Du nix und sagst ja, das ist schön. Du hast eben gerade was gesagt, nämlich das Thema
00:35:53: Klage beziehungsweise das Thema wie kommen eigentlich insbesondere auch bildgenerierende
00:35:59: AIs an ihre Daten, also offensichtlich, indem sie auch Daten benutzen, die nicht zwangsläufig
00:36:06: zur Nutzung gekennzeichnet waren, soll heißen, da findet die ein oder andere offensichtliche
00:36:13: Urheberrechtsverletzung statt, zumindest augenscheinlich und da gibt es jetzt eine Sammelklage,
00:36:19: beispielsweise gegen Anthropic, da gibt es einige Autoren, in dem Fall ist es nicht
00:36:23: jetzt bildgenerierende AI, sondern tatsächlich Buchautoren, die Anthropic als Unternehmen
00:36:30: und Anthropic ist ja auch nicht so super klein, vorwerfen, dass sie verschiedenste Bücher benutzt
00:36:36: haben, um Anthropic zu trainieren, also irgendwoher müssen die Daten ja kommen, da gibt es gerade
00:36:42: eine Sammelklage und ja die ersten Kommentatoren sagen, dass die Klage ganz vielleicht auch
00:36:50: gerechtfertigt ist, das wird sicherlich noch in den nächsten Monaten spannend werden, weil
00:36:55: nicht nur Anthropic Daten nutzt, ganz ganz viele, sondern es gilt für alle und auch Open
00:37:01: AI hat man schon vorgeworfen, ja gegen diverse Urheberrechte verletzt zu haben, also da glaube
00:37:08: ich werden wir noch einiges sehen.
00:37:10: Dazu passt auch eine weitere Klage, es wird gerade viel geklagt, nämlich von Künstlern
00:37:17: gegen Stability AI und Mitjourney, im Prinzip das gleiche Thema, hier geht es darum, dass
00:37:22: Bilder benutzt wurden, um jeweiligen Modelle zu trainieren, die einfach nicht zur Nutzung
00:37:28: gekennzeichnet werden, packen wir beides in die Show Notes.
00:37:32: Da vielleicht noch ein Ding, das jetzt auch die Tage rauskamen ist, ein wunderbares, wunderbares
00:37:40: Rede von Eric Schmidt, also einem der eben an den Google-Signals, an der Universität
00:37:45: von Stanford, da haben wir ein paar Sachen wieder rufen und diese Rede ist mittlerweile
00:37:51: auch nicht mehr auf YouTube zu finden, aber er liest sich da so ein bisschen zitieren,
00:37:55: ich finde es jetzt gerade nicht vor mir, ich habe es nicht mehr offen, aber er sagte,
00:38:00: für alle, die sich mit dem Thema künstliche Intelligenz beschäftigen und so in dieses
00:38:03: Thema Datenschutz und Herausgebeizeterer schauen, wichtig ist erstmal Raub, also Raub
00:38:11: zu viel ihr könnt, den Rest werden dann eure Anwälter entsprechend bewiesen.
00:38:15: Das heißt, er ruft bewusst oder unbewusst zumindest relativ klar dazu auf, tatsächlich
00:38:19: ist so viele Datenpunkte halt irgendwie wie möglich, erstmal zu ziehen, bevor man sich
00:38:25: damit beschäftigen muss, wie legal das Ganze eigentlich ist und das Ganze geht natürlich
00:38:30: auf urheberrechtlich geschützte Bücher und Co auf alles, was es dazu gibt, auf das Thema
00:38:34: Musikverlage, wo natürlich die gesamte Verwendung irgendwie urheberrechtlich geschützter Songtexte
00:38:40: für die Trainings von den unterschiedlichen Modellen benutzt wurden und das, was du gesagt
00:38:44: hast, gerade bei Anthropic mittlerweile ist mehr oder weniger klar in der Community,
00:38:48: dass fast alles, was in Cloud, also dem aktuellen Modell von Anthropic auftaucht, tatsächlich
00:38:54: einfach nicht fair use nutzt wurde, sondern tatsächlich einfach ohne Stätigung einfach
00:39:02: gestohlen wurde.
00:39:03: Ja, dann wir haben jetzt ein bisschen was gesprochen, was Google gemacht hat mit Jam and I Live,
00:39:11: dann gibt es ja noch Apple, die mit AI, also Apple Intelligence ja auch versuchen gerade
00:39:17: in den Markt vorzudringen.
00:39:18: Momentan kann man noch nicht so viel sehen, also es gibt jetzt die iOS 18.1 als ich glaube
00:39:27: dritte Beta-Version, die jetzt geloncht wurde und normalerweise ist es so, dass Apple ja
00:39:33: gesagt hat, naja, wir mit EU, da müssen wir jetzt immer noch ein bisschen schauen und
00:39:36: ob wir und wann wir überhaupt mit Apple Intelligence kommen.
00:39:40: Man kann es trotzdem hier testen, indem man sich wie gesagt die aktuelle Beta-Version
00:39:45: installiert und dann muss man das Betriebssystem auf Englisch umstellen, den Standort auf Englisch
00:39:51: umstellen und dann kann man auch hier Apple Intelligence testen, allerdings noch sehr,
00:39:59: sehr, sehr überschaubar.
00:40:00: Also Siri kann mehr und ist auch interaktiver, es werden in Mails beispielsweise auch Vorschläge
00:40:07: gemacht, die man eine E-Mail anders formulieren kann oder besser formulieren kann, also
00:40:12: dass diese Integration, die gibt es schon, wie ich finde, nicht so wirklich neu, weil
00:40:16: es gibt heute schon ganz, ganz viele auch Mail-Apps, die genau das schon seit vielen Monaten
00:40:21: können.
00:40:22: Nichtsdestotrotz kann man es jetzt sich zumindest mal anschauen, die Reviews, die ich bisher
00:40:27: dazu gesehen habe und Apple sagt ja selber noch kein Launch-Termin, also wann Apple
00:40:32: Intelligence überhaupt kommt, also unabhängig davon, ob jetzt nur USA oder irgendwann nach
00:40:36: Europa, lesen sich die Reviews zu Apple Intelligence momentan noch nicht so dramatisch gut liegt,
00:40:43: aber auch, und das muss ich jetzt jetzt, sprich der Fanboy aus mir, auch daran, dass einfach
00:40:49: noch alles Beta-Stadium ist und tatsächlich noch nicht wirklich jede Funktion freigeschaltet.
00:40:54: Aber zumindestens kann der oder diejenige möchte das Testen einfach in Anführungsstrichen
00:41:01: die Beta-Version installieren und dann so ein bisschen was am Handy umstellen und dann
00:41:06: soll es gehen.
00:41:07: Ich dachte, du schlippst schon nicht aus, wenn du das liest, aber wer mir in den letzten
00:41:11: vier Wochen darüber gesprochen, dass Apple Intelligence ja wahrscheinlich erstmal auf
00:41:15: Grund von Digital Markets Act und wie sich Puzzle gerade gegenüber Apple und den anderen
00:41:19: großen Verhält vielleicht gar nicht nach Europa kommt und während die erste Version
00:41:25: in der EU ja irgendwie auch komplett auf Apple Intelligence verzichten musste, reicht es
00:41:29: zumindest bei der zweiten Beta aus, wie du sagst, so amerikanischen App Store erkannt
00:41:33: und eine Regionaleinstellung für die USA zu haben, um zumindest so diese kleine bisschen
00:41:39: E-Tipp, witzigen Apple Intelligence jetzt aktivieren zu können und das sogar unabhängig
00:41:44: davon, ob man sich in der EU aufregrennig, also so ein hartes Geoblocking scheint Apple
00:41:48: nicht zu machen.
00:41:49: Nee, im Moment nicht, aber ich flippe tatsächlich nicht aus.
00:41:52: Also ich bin wahrscheinlich, ich war ich etwas enthousiastischer als ich es gelangst habe,
00:41:57: wobei war ich auch erinnicherweise nicht, aber zwischenzeitlich hat man sich dann schon
00:42:00: gedacht, okay, es wird bestimmt irgendwie Apple-like gut im Betriebssystem integriert
00:42:04: sein und irgendwann wird das auch wahrscheinlich passieren, aber ich erinnere mich so ein bisschen
00:42:09: an den Start damals von Siri.
00:42:10: Als Apple Siri vorgestellt, das war ja auch wirklich etwas sehr Neues und als man es dann
00:42:15: hat nutzen können, hat man dann schon festgestellt, okay, man kann so ein bisschen Wetterabfrage
00:42:20: machen, man kann auch einen Termin antragen, aber so richtig supergeilig, das ist halt eben
00:42:23: nicht in der Hand.
00:42:24: Und so ein bisschen habe ich die Befürchtung jetzt tatsächlich auch und wir beide nutzen
00:42:28: ja Perplexity, wir beide nutzen Chatchivity mit dem Sprachmodell, was dahinter liegt und
00:42:34: das funktioniert ehrlicherweise schon ziemlich gut und das, was ich wie gesagt bisher gesehen
00:42:39: habe von Apple, kommt Siri aktuell in der Beta Version da einfach nicht dran und dem
00:42:45: an sprechen finde ich es momentan noch ein bisschen lame.
00:42:48: Ich meine, du hast ja auch noch keine Vision Pro gekauft, die gibt es ja jetzt auch seit
00:42:51: ein paar Wochen.
00:42:52: Nee, ich habe immer noch Angst davor, ob sie dieses Fitting zu machen, weil ich es wahrscheinlich
00:42:57: relativ schnell zuschlagen würde, ich bin dann doch ein bisschen ein Impulskäufer.
00:43:00: Warten wir es mal, vielleicht noch einen kleinen Warmhenweis hier, weil ich glaube ich jetzt
00:43:06: schon zweimal darauf angesprochen wurde, dass wir ja immer mal über Beta Version hier auch
00:43:10: sprechen und bei zwei Personen zu einem Absturz was gesorgt haben.
00:43:15: Wichtig ist glaube ich so als kleiner Disclaimer, wer diese neuen Funktionen von dem was Mike
00:43:20: gerade erzählt hat ausprobieren möchte, es handelt sich immer um eine Beta Version, die
00:43:24: eigentlich niemals ist, was mein Boot auf Antricks Geräte installiert werden sollte, weil die
00:43:29: sind nicht für Average Store wie dich und mich gemacht, sondern in erster Linie für Entwickler
00:43:33: innen, weil die Dinger halt immer noch viele Fehler und einfach so einen typischen Bucks
00:43:37: hat irgendwie beinhalten.
00:43:39: Das heißt, wenn ihr Beta's nutzt, dann versucht es halt irgendwie entweder auf einem zweiten
00:43:44: Device zu machen oder nutzt halt irgendwelche andere Software, aber so ein iOS Beta ist halt
00:43:50: gefährlich, weil es kann ihr halt einfach komplett alles zerromben und wenn du ein Firmen-Device
00:43:54: hast, dann solltest du es zu besonderlich tun.
00:43:56: Ja, und was ich auf jeden Fall sagen kann, ist, dass die Akkulaufzeit mit der Beta um
00:44:03: ungefähr die Hälfte verkürzt.
00:44:05: Also das ist bei jeder iOS Beta, es ist ganz, ganz furchtbar und oft ja auch tatsächlich
00:44:10: dann mit der ersten offiziellen Version auch so, also wer auf seinen Smartphone in dem
00:44:15: Fall auf sein iPhone angewiesen ist und etwas mehr am Tag damit machen möchte, dem sei
00:44:20: nicht empfohlen, wie Sascha es gesagt hat, iOS zu installieren oder die Beta zu installieren.
00:44:25: Ich habe neben den News noch drei kleinere Tools mitgebracht, also wir haben jetzt tatsächlich
00:44:30: eigentlich schon über viele Tools gesprochen, wir haben über Flux gesprochen, wir haben
00:44:33: über Crock gesprochen, die sind alle nutzbar, wie gesagt, ihr schau'n uns einfach draufklicken,
00:44:38: es gibt aber noch drei.
00:44:39: Und eine interessante News möchte ich noch sagen, die habe ich ganz vergessen, weil
00:44:42: die wirklich spannend ist, nämlich ein Tool welches ich mega interessant finde, es heißt
00:44:49: Access AI und was machen die, die bieten die Möglichkeit an Entwicklern, momentan kann
00:44:55: man sich anmelden für eine Beta Version, viele zu entwickeln.
00:44:59: Und das Video, was auf der Webseite zu sehen ist wirklich wild, weil man sieht dort eine
00:45:06: 3D wirklich gute Spieleumgebung, wie quasi man mit Promps den Charakter erstellen kann,
00:45:14: die Umgebung erstellen kann, was sind die Eigenschaften, was passiert im Spiel, also
00:45:19: es ist tatsächlich so etwas wie wir es auch schon in der Vergangenheit hatten, wenn es
00:45:24: darum geht, Code, also Entwicklungs Code zu erstellen, ist es hier letztendlich spezialisiert
00:45:30: oder fokussiert auf Spieleentwicklung.
00:45:32: Und ich könnte mir vorstellen, zumindest sieht das Video sehr vielversprechend aus, dass
00:45:37: das auch nochmal ein, ja auch für die Spieleindustrie einen kleinen Boost geben könnte.
00:45:42: Ich fand es mega interessant, packen wir mit in die Show Notes.
00:45:47: Und jetzt tatsächlich zu den kleineren Tools, wir bringen immer so zwei, drei Tools mit.
00:45:52: Und ich habe drei mitgebracht, auf der einen Seite Wiggle AI, Wiggle hatten wir schon mal,
00:45:57: aber ist jetzt in der neuen Version rausgekommen, macht super Spaß.
00:46:01: Kann ich tun?
00:46:02: Ich kann mir kleine Videos raussuchen, beispielsweise diesen berühmten Kung Fu Kampf, den wir in
00:46:09: dem ersten Matrix Teil sehen und kann dann einfach ein Foto von mir machen, am besten
00:46:14: Falle als also ein Ganzkörperfoto, aber es reicht auch oft aus, einfach nur den Oberkörper
00:46:19: zu fotografieren.
00:46:20: Und dann kann ich mir dieses Foto auf diese Figur legen.
00:46:23: Und natürlich sieht man, dass das ein bisschen höltern aus, aber ich finde es ist witzig
00:46:29: und ja, lädt einen damit umzuspielen.
00:46:33: Interessante Spielerei, Wiggle AI.
00:46:36: Na zumal, es ist vor allem wieder einfacher geworden.
00:46:39: Also ich habe mal vor vier Wochen, als diese chinesische Super LLM Klinge rauskamen, was
00:46:46: man ja nicht nutzen konnte, über so einen ganz wilden VPN Channel, doppel Channel über
00:46:53: Huggingface auf Kling zugegriffen und habe mir da quasi so ein Avatar gebaut von einem
00:47:00: Foto von mir und habe es dann versucht mit einer Rede von Trump quasi aufzubiefen.
00:47:07: Und es hat eine Stunde gedauert und zwar am Ende Super Hölzer und zwar dann irgendwie
00:47:11: doch technischer als ich wollte.
00:47:13: Und genau das Gleiche macht Wiggle jetzt einfach mit so ein paar Klicks und viel einfacher
00:47:17: mit Drag and Drop über eine, ich glaube sogar, ist eine iPhone App.
00:47:20: Also die habe ich nicht, es gibt es gibt bei jeden Fall nicht, ich weiß nicht ob für
00:47:23: iPhone oder nur für Android, aber das Pats auf jeden Fall, die schauen uns, das ist mal wieder.
00:47:28: Also ja, es ist verölternd, es geht um Patsen und TikTok Videos und Co.
00:47:33: Aber es ist mal wieder krass, wie schnell die Nutzung von dieser Technologie einfach vereinfacht
00:47:39: wurde und so natürlich auch nur für Merz und uns beide zugänglich ist, sondern tatsächlich
00:47:43: für eine Masse machen.
00:47:44: Dann habe ich zwei Tools, die mehr oder weniger in die gleiche Richtung gehen oder nicht
00:47:49: in die gleiche Richtung wie jetzt Wiggle, aber die in einem gemeinsamen, ein endliches
00:47:54: Thema befeuern, nämlich das Thema Avatar.
00:47:58: Auf der einen Seite Let's AI, also Let's Fetts hätte ich was gesagt, sondern Let's AI und
00:48:03: Replicate.com und bei beiden kann man sich selber als Avatar anlegen und kann dann eigene
00:48:12: Szenarien und Bilder erstellen.
00:48:14: Ich finde das insofern ganz interessant.
00:48:15: Wir hatten eben kurz schon mal diesen kleinen Newcase im E-Commerce.
00:48:18: Wenn ich mir wie gesagt vorstelle oder mal vorstellen möchte, wie ich im Smoking aussehe,
00:48:24: dann kann ich das mit Replicate.com beziehungsweise mit Let's AI machen.
00:48:29: Sehe ich auch endlich mal gut aus.
00:48:31: Auch das eine interessante Spielerei.
00:48:34: Einfach mal ausprobieren, wer Lust hat, beides kostenlos zu nutzen.
00:48:38: Genau, das war es von meiner Seite, lieber Sascha.
00:48:43: Ich dachte du machst das Auto.
00:48:47: Das Auto muss du machen.
00:48:49: Ich sehe auch nichts mehr.
00:48:51: Okay, das ist gut, aber ich höre dich noch.
00:48:54: Das war die heutige Folge mit Sascha aus dem Urlaub und mit mir leider nicht mehr im
00:48:59: Urlaub.
00:49:00: Die zwanzigste Jubiläumsfolge mit ganz vielen News und einem, wie ich finde, interessanten
00:49:05: Schwerpunktthema, welches wir sicherlich nochmal vertiefen werden in einer anderen
00:49:10: Folge und dann wirklich da mal ein Deep Dive machen, was das Ganze eigentlich auch nicht
00:49:15: nur für uns, sondern für die Welt vielleicht sogar bedeutet.
00:49:18: Ihr könnt uns natürlich Feedback geben, indem ihr uns schreibt an hello@anplugtpodcast.de
00:49:26: oder aber uns in den sozialen Medien schreibt.
00:49:29: Manche machen das auch.
00:49:30: Wir freuen uns über jedes Feedback und wir freuen uns natürlich auch, wenn ihr den Podcast
00:49:34: Like schert, weiterleitet und einfach auch nur hört.
00:49:39: Wir hören und freuen uns über jede Hörerin und Hörer.
00:49:42: In diesem Sinne, eine schöne Woche.
Neuer Kommentar