Cached Prompts reduzieren Kosten um das Zehnfache und verbessern die Geschwindigkeit um 85 %. Dabei werden nicht die Antworten, sondern spezifische Matrizen aus dem Aufmerksamkeitsmechanismus zwischengespeichert. Die genaue Funktionsweise und Berechnung erläutert Ngrok detailliert.
