Google hat EmbeddingGemma vorgestellt, einen kompakten 308-Millionen-Parameter Multilingual Encoder für semantische Einbettungen, der auf EdgeTPUs in unter 22 ms einen 256-Token-Vektor berechnet. Das Modell läuft quantisiert voll offline mit ca. 200 MB RAM und erzielt Bestwerte für Modelle unter 500 Millionen Parametern. EmbeddingGemma unterstützt über bekannte Plattformen wie Hugging Face, Kaggle und Vertex AI. Es ermöglicht schnelle, private Retrieval-gestützte Anwendungen direkt auf mobilen Geräten ohne Cloud-Anbindung.
