Also das ist halt bei jedem Modell anders.
Je nach dem wie die Datensätze zusammengestellt sind.
Bei Textbasierten KI Modellen ist es ja oft in der Kritik dass diese geschütztes Textwerk nutzen.
Bei Bildverarbeitenden Modellen sicher nicht anders.
Über stableDiffusion fand ich das hier:
So wurde Stable Diffusion trainiert
Stable Diffusion wurde mit großen Datensätzen trainiert, die sowohl Bilder als auch die entsprechenden Textbeschreibungen enthalten. Durch dieses Training lernt das Modell, die Beziehung zwischen Textbeschreibungen und den visuellen Darstellungen dieser Beschreibungen zu verstehen. Dies ermöglicht es dem Modell, genaue und relevante Bilder basierend auf einer Vielzahl von Texteingaben zu erzeugen.
Das Training von Stable Diffusion basierte auf dem LAION-5B-Datensatz, einer umfangreichen Sammlung von Bild-Text-Paaren, die aus dem Common Crawl des Internets extrahiert und der Öffentlichkeit zugänglich gemacht wurden. Dieser Datensatz, zusammengestellt von LAION, einer in Deutschland ansässigen gemeinnützigen Organisation, die von Stability AI, dem Unternehmen hinter Stable Diffusion, unterstützt wird, umfasst 5 Milliarden Paare. Eine externe Analyse dieses Trainingsdatensatzes zeigte, dass von den ursprünglich verwendeten 12 Millionen Bildern einer kleineren Stichprobe, etwa 47 Prozent aus 100 verschiedenen Domänen stammten, wobei Pinterest allein 8,5 Prozent dieser Stichprobe ausmachte. Weitere Quellen waren populäre Plattformen wie WordPress, Blogger, Flickr, DeviantArt und Wikimedia Commons.
📚 Was ist mit Common Crawl gemeint?
Common Crawl ist eine gemeinnützige Organisation, die riesige Mengen an Webdaten sammelt und diese öffentlich zugänglich macht. Es ist quasi ein riesiges Internetarchiv. Die von Common Crawl gesammelten Daten beinhalten Webseiteninhalte, Metadaten und Hyperlinks, die aus dem Crawling des Internets gewonnen werden. Diese Datensätze werden regelmäßig aktualisiert und als riesige Archive zur Verfügung gestellt, die von jedem kostenlos heruntergeladen und genutzt werden können.
Die Archivierung des Web durch Common Crawl ermöglicht es Forschenden und Entwickler:innen, auf eine breite und vielfältige Datenquelle zuzugreifen, ohne selbst das gesamte Web crawlen zu müssen. Dies spart Ressourcen und erlaubt eine Vielzahl von Anwendungen, von der Analyse des Webwachstums und der Struktur bis hin zur Entwicklung neuer Technologien für Suchmaschinen, künstliche Intelligenz und maschinelles Lernen. Eine davon ist Stable Diffusion.
Quelle: https://learn.hoou.de/mod/page/view.php?id=4772#:~:text=Das%20Training%20von%20Stable%20Diffusion,der%20%C3%96ffentlichkeit%20zug%C3%A4nglich%20gemacht%20wurden.
Auf Wikipedia findet man folgendes:
Ist Common Crawl illegal?
Der Common Crawl-Datensatz enthält urheberrechtlich geschützte Werke und wird aus den USA unter Fair-Use-Bedingungen verbreitet . Forscher in anderen Ländern haben Techniken wie das Umstellen von Sätzen oder das Verweisen auf den Common Crawl-Datensatz verwendet, um das Urheberrecht in anderen Rechtsräumen zu umgehen.
Quelle: https://en.wikipedia.org/wiki/Common_Crawl
So oder so, diese Datensätzen können ja nur geschütztes Material enthalten.
Denn das meiste ist eben im Besitz von jemanden.
Darüber hinaus ist es halt wieder
§ 23 UrhG – Bearbeitungen und Umgestaltungen der dann wiederum Hintertüren öffnen kann.
Ist ein schwieriges Thema mit dem Urheberrecht.
Also das ist halt bei jedem Modell anders.
Je nach dem wie die Datensätze zusammengestellt sind.
Bei Textbasierten KI Modellen ist es ja oft in der Kritik dass diese geschütztes Textwerk nutzen.
Bei Bildverarbeitenden Modellen sicher nicht anders.
Über stableDiffusion fand ich das hier:
So wurde Stable Diffusion trainiert
Stable Diffusion wurde mit großen Datensätzen trainiert, die sowohl Bilder als auch die entsprechenden Textbeschreibungen enthalten. Durch dieses Training lernt das Modell, die Beziehung zwischen Textbeschreibungen und den visuellen Darstellungen dieser Beschreibungen zu verstehen. Dies ermöglicht es dem Modell, genaue und relevante Bilder basierend auf einer Vielzahl von Texteingaben zu erzeugen.
Das Training von Stable Diffusion basierte auf dem LAION-5B-Datensatz, einer umfangreichen Sammlung von Bild-Text-Paaren, die aus dem Common Crawl des Internets extrahiert und der Öffentlichkeit zugänglich gemacht wurden. Dieser Datensatz, zusammengestellt von LAION, einer in Deutschland ansässigen gemeinnützigen Organisation, die von Stability AI, dem Unternehmen hinter Stable Diffusion, unterstützt wird, umfasst 5 Milliarden Paare. Eine externe Analyse dieses Trainingsdatensatzes zeigte, dass von den ursprünglich verwendeten 12 Millionen Bildern einer kleineren Stichprobe, etwa 47 Prozent aus 100 verschiedenen Domänen stammten, wobei Pinterest allein 8,5 Prozent dieser Stichprobe ausmachte. Weitere Quellen waren populäre Plattformen wie WordPress, Blogger, Flickr, DeviantArt und Wikimedia Commons.
📚 Was ist mit Common Crawl gemeint?
Common Crawl ist eine gemeinnützige Organisation, die riesige Mengen an Webdaten sammelt und diese öffentlich zugänglich macht. Es ist quasi ein riesiges Internetarchiv. Die von Common Crawl gesammelten Daten beinhalten Webseiteninhalte, Metadaten und Hyperlinks, die aus dem Crawling des Internets gewonnen werden. Diese Datensätze werden regelmäßig aktualisiert und als riesige Archive zur Verfügung gestellt, die von jedem kostenlos heruntergeladen und genutzt werden können.
Die Archivierung des Web durch Common Crawl ermöglicht es Forschenden und Entwickler:innen, auf eine breite und vielfältige Datenquelle zuzugreifen, ohne selbst das gesamte Web crawlen zu müssen. Dies spart Ressourcen und erlaubt eine Vielzahl von Anwendungen, von der Analyse des Webwachstums und der Struktur bis hin zur Entwicklung neuer Technologien für Suchmaschinen, künstliche Intelligenz und maschinelles Lernen. Eine davon ist Stable Diffusion.
Quelle: https://learn.hoou.de/mod/page/view.php?id=4772#:~:text=Das%20Training%20von%20Stable%20Diffusion,der%20%C3%96ffentlichkeit%20zug%C3%A4nglich%20gemacht%20wurden.
Auf Wikipedia findet man folgendes:
Ist Common Crawl illegal?
Der Common Crawl-Datensatz enthält urheberrechtlich geschützte Werke und wird aus den USA unter Fair-Use-Bedingungen verbreitet . Forscher in anderen Ländern haben Techniken wie das Umstellen von Sätzen oder das Verweisen auf den Common Crawl-Datensatz verwendet, um das Urheberrecht in anderen Rechtsräumen zu umgehen.
Quelle: https://en.wikipedia.org/wiki/Common_Crawl
So oder so, diese Datensätzen können ja nur geschütztes Material enthalten.
Denn das meiste ist eben im Besitz von jemanden.
Darüber hinaus ist es halt wieder
§ 23 UrhG – Bearbeitungen und Umgestaltungen der dann wiederum Hintertüren öffnen kann.
Ist ein schwieriges Thema mit dem Urheberrecht.
richard und alph haben auf diesen Beitrag reagiert.