InferenceMAX ist ein neuer Open-Source-Benchmark, der täglich die Leistung verschiedener KI-Chips bei der Inferenz großer Modelle wie Llama 70B misst. Er untersucht den Kompromiss zwischen Durchsatz (Tokens pro Sekunde pro GPU) und Interaktivität (Tokens pro Sekunde pro Nutzer). AMD konkurriert mit dem Nvidia-B200-Chip, wobei der Nvidia-Chip bei Energieeffizienz leicht vorn liegt.
InferenceMAX: Open-Source-Benchmark für KI-Chip-Inferenzleistungen
•