LMCache ist eine Open-Source-Schicht zur Beschleunigung der Schlüssel-Wert-Speicherung bei großen Sprachmodellen. Es speichert Cache-Fragmente über GPU, CPU, Festplatte und Redis und ermöglicht so 3- bis 10-fach schnellere Antwortzeiten und erheblich geringeren GPU-Bedarf bei langen Kontexten und mehrstufigen Dialogen.
