MIT CSAIL hat die Methode „IPLoc“ entwickelt, mit der visuelle-Sprach-Modelle (VLMs) lernen, spezifische Objekte in Fotos oder Videos zu erkennen und zu lokalisieren – etwa den einzelnen Hund „Bowser“ auf einem überfüllten Hundeplatz. Dabei wandelt IPLoc Bild- und Sprachinformationen in numerische „Embeddings“ um, die KI-Systeme verstehen können. Dies ermöglicht eine menschlichere Objekterkennung und verbessert die Geschwindigkeit und Sicherheit von AI-Assistenz im realen Umfeld.
