Exploring Vision Language Models for Egocentric Action Localization

Valentin Knoben; Julia Kramme; Björn Hein; Christian Wurll

doi:10.60643/urai.v2025p23

, Articles

Exploring Vision Language Models for Egocentric Action Localization

Articles

https://doi.org/10.60643/urai.v2025p23

Published 27.03.2026

Valentin Knoben⁺⁻
Julia Kramme⁺⁻
Björn Hein⁺⁻
Christian Wurll⁺⁻

Valentin Knoben

Karlsruhe University of Applied Sciences ; Karlsruhe Institute of Technology

Julia Kramme

Karlsruhe University of Applied Sciences

Björn Hein

Karlsruhe University of Applied Sciences

Christian Wurll

Karlsruhe University of Applied Sciences

PDF

Keywords

Vision language model
action recognition
temporal localization

Abstract

Context-aware systems can support humans at work by automatically performing quality control, providing assistance, or generating instructions and documentation for latter use. However, the adaptation of such intelligent systems to custom use cases demands training data, expertise, and effort. With the dissemination of Vision Language Models (VLMs), recognition capabilities are becoming more accessible. We explore the use of readily available VLMs for understanding egocentric video footage of common manual tasks in production environments. Results demonstrate the feasibility of using VLMs in such contexts.

https://doi.org/10.60643/urai.v2025p23

PDF

This work is licensed under a Creative Commons Attribution 4.0 International License.