Dieser Artikel analysiert die Fortschritte bei der Software zur Inferenz von großen Sprachmodellen. Mittels Berechnungen zeigt er theoretische Höchstleistungen verschiedener Hardwarekonfigurationen auf und erlaubt Anpassungen der Systemeinstellungen, um Auswirkungen auf die Geschwindigkeit zu verstehen.
