oLLM: Leichte Python-Bibliothek für große Kontextfenster bei LLMs

Innovatives AugmentERA Team entwickelt Augmented Reality Lösungen in modernem Büro.

Vielen Dank für Ihren Besuch und Ihr Interesse!

Für mehr Informationen über KI und die Integration in Ihr Unternehmen, treten Sie mit uns in Kontakt

Connect with us

Oder nehmen Sie an unserer Umfrage für eine kostenlose Analyse teil

Zur Umfrage

oLLM ermöglicht große Kontextfenster (bis 100.000 Token) bei Modellen wie Llama-3.1-8B-Instruct, auch mit GPUs ab 8 GB VRAM. Die Bibliothek nutzt keine Quantisierung, sondern fp16-Präzision, was ressourcenschonendes und dennoch leistungsfähiges LLM-Inferenz-Handling erlaubt.