Interessanter Fakt: Whisper von OpenAI wurde nur entwickelt, weil das Unternehmen bereits alle brauchbaren Texte im Internet kopiert, analysiert und zur Schulung ihres LLM genutzt hat. Mit Whisper konnten sie die Audiospuren von YouTube-Videos transkribieren und ebenfalls für ihre Schulung nutzen.
indiatimes.com schreibt in »How tech giants cut corners to harvest data for AI«
The artificial intelligence lab had exhausted every reservoir of reputable English-language text on the internet as it developed its latest AI system. It needed more data to train the next version of its technology – lots more.
Ich sehe voraus: Podcasts wurden vermutlich auch schon analysiert. Chats und Daten von Assistenten wie Alexa oder Siri könnten folgen.
Möchtest du mir antworten?
Schick mir eine Nachricht per E-Mail und lass uns ein Dialog beginnen. Du kannst mir auch per RSS oder Mastodon folgen.