Kimi Linear ist eine innovative Architektur, die gegenüber Full Attention Geschwindigkeitsverbesserungen und bis zu 75% reduzierten KV-Cache-Verbrauch bietet. Sie erzielt das bis zu 6-fache der Decoding-Durchsatzrate bei langen Kontexten. Die Open-Source-KDA-Kernels können Full Attention einfach ersetzen.
