More data to train
Interessanter Fakt: Whisper von OpenAI wurde nur entwickelt, weil das Unternehmen bereits alle brauchbaren Texte im Internet kopiert, analysiert und zur Schulung ihres LLM genutzt hat. Mit Whisper konnten sie die Audiospuren von YouTube-Videos transkribieren und ebenfalls für ihre Schulung nutzen. indiatimes.com schreibt in »How tech giants cut corners to harvest data for AI« The artificial intelligence lab had exhausted every reservoir of reputable English-language text on the internet as it developed its latest AI system. It needed more data to train the next version of its technology – lots more. ...