Meta verbessert Agenten-Lernen mit ‚Early Experience‘

Meta stellte eine Trainingsmethode vor, bei der Agenten Daten aus eigenen Erfahrungen ohne externe Belohnungen nutzen. Diese Form von impliziter Weltmodellierung und Selbstreflexion verbessert das Lernen von Verhaltensstrategien.