openai

More data to train

Interessanter Fakt: Whisper von OpenAI wurde nur entwickelt, weil das Unternehmen bereits alle brauchbaren Texte im Internet kopiert, analysiert und zur Schulung ihres LLM genutzt hat. Mit Whisper konnten sie die Audiospuren von YouTube-Videos transkribieren und ebenfalls für ihre Schulung nutzen. indiatimes.com schreibt in »How tech giants cut corners to harvest data for AI« The artificial intelligence lab had exhausted every reservoir of reputable English-language text on the internet as it developed its latest AI system. It needed more data to train the next version of its technology – lots more. ...

Rechte an Inhalten online zu verwalten

Eva-Maria Weiß schreibt in »OpenAI will robots.txt ersetzen – Media Manager für Creator, Urheber, Verlage« für heise.de Bisher regelt robots.txt-Datei, welche Crawler eine Seite zulässt. Diese nutzen dann die gefundenen Informationen für beispielsweise die Google-Suche, aber auch für das Training von KI-Modellen. OpenAI will diese Datei nun ersetzen. Der Media Manager sei geeigneter, die Rechte an Inhalten online zu verwalten. Bis 2025 will das Unternehmen ihre Version einsatzbereit haben. ...

Herausforderungen und Belohnungen

»Open Source In The Age Of LLMs« ist ein anregender Artikel, der die Reise und Erkenntnisse des Mozilla.ai-Teams im Bereich der offenen Zusammenarbeit rund um große Sprachmodelle (LLMs) darstellt. Der Autor Vicki Boykis diskutiert die Herausforderungen und Belohnungen der Beteiligung an Open-Source-Projekten und teilt wichtige Lehren, die er in diesem Prozess gelernt hat. Darüber hinaus illustriert er, wie die Kultur im Open-Source-Bereich ein inspirierendes Umfeld für kontinuierliches Lernen und Entwicklung schafft.

Eigene private Accounts

Das Arbeitsgericht Hamburg entscheidet1, dass die bloße Erlaubnis zur Nutzung von ChatGPT über private Accounts samt interner Richtlinie keine mitbestimmungspflichtige Maßnahme ist, weil weder eine Regelung der betrieblichen Ordnung noch eine technische Überwachungseinrichtung oder ein relevanter Gesundheitstatbestand (§ 87 Abs. 1 Nr. 1, 6, 7 BetrVG) vorliegt. ChatGPT und auch andere Systeme der generativen Künstlichen Intelligenz werden dabei nicht auf den Computersystemen der Beteiligten zu 2. installiert. Die Nutzung der vorgenannten Tools erfolgt mittels Webbrowser und erfordert lediglich die Anlegung eines Accounts auf dem Server des jeweiligen Herstellers. Wollen die Mitarbeiter der Beteiligten zu 2. ChatGPT nutzen, müssen diese eigene, private Accounts anlegen. Dienstliche Accounts werden von der Beteiligten zu 2. zurzeit nicht erteilt. Sofern die Nutzung Kosten verursacht, müssen diese die Arbeitnehmer tragen. Die Beteiligte zu 2. hat keine Informationen, welcher ihrer Mitarbeiter einen Account eingerichtet hat; wann, in welchem Zusammenhang und wie lange er das Tool nützt und welche Informationen er gegenüber dem System preisgibt. ...

Who would pay

Dylan Patelschreibt für Google “We Have No Moat, And Neither Does OpenAI” This recent progress has direct, immediate implications for our business strategy. Who would pay for a Google product with usage restrictions if there is a free, high quality alternative without them? And we should not expect to be able to catch up. The modern internet runs on open source for a reason. Open source has some significant advantages that we cannot replicate. ...