Die Inferenz großer Sprachmodelle ist weiterhin nondeterministisch, selbst bei der Verwendung von greedy Decoding. Ursache sind unter anderem Nicht-Assoziativität von Gleitkommaoperationen und gleichzeitige Ausführung. Diese Erkenntnis zeigt fundamentale technische Herausforderungen in der Berechenbarkeit und Reproduzierbarkeit bei LLMs auf.
