Das Thinking Machines Lab veröffentlichte eine Studie, die erklärt, warum große Sprachmodelle (LLMs) bei gleichen Fragen unterschiedliche Antworten geben. Das Problem liegt nicht an Rundungsfehlern der Gleitkommazahlen (Floating-Point), sondern daran, dass die Anzahl der Eingabeaufforderungen (Inputs) bei der Verarbeitung variiert. Dieses „Batching“ der Anfragen beeinflusst die Ausgabequalität der Modelle. Die Erkenntnis ist vergleichbar mit einem Barista, der bei hoher Auslastung Kaffee anders zubereitet.
