Reverse Engineering: Flash Attention 4 optimiert Transformer-Berechnungen

Flash Attention 4 ist ein neuer CUDA-Kernel, der die Kernoperationen für Transformer-Modelle wie ChatGPT stark beschleunigt. Der Geschwindigkeitsvorteil entsteht durch cleveres Aufteilen der Rechenlast in asynchronen Pipelines über 32-Thread-Gruppen, nicht durch neue mathematische Verfahren.