Locate anything

https://research.nvidia.com/labs/lpr/locate-anything

Otro contenido increible del fabricante NVIDIA.

Podemos decir que LocateAnything es un motor de búsqueda visual de alta velocidad.

Como usuario proporcionas un prompt de texto y al instante localiza con precisión el objeto en una imagen.

– 10x de aceleración para detección de objetos densos

– Qwen2.5-3B + Moon-ViT

– Modos Rápido/Lento/Híbrido

– entrenado con 138 M de muestras para UI, documentos, grounding genérico.

LocateAnything es un nuevo marco de vision-language grounding que propone Parallel Box Decoding (PBD) para localizar objetos y regiones en imágenes de forma mucho más rápida y precisa que los enfoques autoregresivos tradicionales.

Encuentra cualquier cosa

NVIDIA y varios partners académicos han presentado LocateAnything, un modelo unificado de grounding y detección visual que reformula la predicción de cajas como unidades atómicas completas en lugar de secuencias de tokens coordenados. Su técnica de Parallel Box Decoding (PBD) permite predecir cada bounding box en un solo paso, preservando la coherencia geométrica y eliminando el cuello de botella de la decodificación secuencial. Combinado con un modo de inferencia híbrido (rápido por defecto y autoregresivo solo cuando hay ambigüedad) y un dataset masivo de 138M consultas de lenguaje y 785M cajas, el modelo mejora el throughput hasta 2,5× frente a métodos previos, manteniendo o superando el estado del arte en benchmarks exigentes como LVIS, COCO, M6Doc o ScreenSpot‑Pro. Esto abre la puerta a aplicaciones más eficientes en detección densa, comprensión de documentos, grounding de interfaces gráficas y localización de texto u objetos en escenarios reales, especialmente en contextos donde la latencia es crítica.

vía research.nvidia

Generado con IA

ALUMNO, te puede interesar desarrollar un TFG con esta tecnología:

En este TFG desarrollarás un prototipo funcional que permite a un usuario empresarial “preguntar” a una imagen en lenguaje natural (por ejemplo, “¿Dónde están las piezas defectuosas?” o “Marca las etiquetas con fecha de caducidad”) y que el sistema responda señalando automáticamente las zonas relevantes mediante cajas o puntos sobre la imagen.

Para ello utilizarás el modelo LocateAnything‑3B de NVIDIA, un modelo visión‑lenguaje que incorpora la técnica Parallel Box Decoding, capaz de localizar múltiples objetos en paralelo de forma rápida y con buena precisión, sin necesidad de entrenar desde cero. El proyecto consistirá en:

Diseñar uno o varios casos de uso cercanos a la realidad industrial (inspección visual, almacén, etiquetado de productos, lectura de campos clave en documentos, etc.).

Montar un pequeño backend en Python que consuma el modelo (por ejemplo, a través de Hugging Face) y procese imágenes subidas por el usuario.

Desarrollar una interfaz sencilla (web o de escritorio) para que cualquier persona de la empresa pueda subir una imagen, escribir una consulta en lenguaje natural y ver en pantalla la localización automática de los elementos solicitados.

Evaluar el sistema con un conjunto de imágenes representativas, midiendo tiempos de respuesta, facilidad de uso y utilidad percibida para la empresa.

El objetivo final es que, al acabar el TFG, dispongas de un demo claro y visual que puedas presentar tanto en la universidad como ante una empresa, demostrando que sabes integrar modelos de IA generativa visión‑lenguaje en un caso de uso real y explicar su valor en términos de tiempo, coste y facilidad de implantación.

EMPRESARIO:

Estamos buscando una empresa colaboradora interesada en explorar cómo la inteligencia artificial puede ayudarle a localizar automáticamente objetos, defectos o información en imágenes reales de su negocio (línea de producción, almacén, documentación, pantallas de supervisión, etc.).

El alumno, bajo mi supervisión, utilizará el modelo LocateAnything de NVIDIA, un sistema de última generación que combina visión por computador y lenguaje natural para “entender” imágenes a partir de instrucciones en texto y marcar en pantalla exactamente lo que se le pide, con tiempos de respuesta muy reducidos gracias a su mecanismo de decodificación paralela de cajas (Parallel Box Decoding).

La idea es desarrollar durante sus prácticas y su Trabajo Fin de Grado un prototipo a medida para su caso concreto:

por ejemplo

localizar de forma automática determinadas piezas o componentes en fotografías de producción o mantenimiento;

señalar productos o etiquetas concretas en imágenes de almacén;

identificar y resaltar campos clave (fechas, códigos, importes) en documentos escaneados.

El proyecto se plantea como una prueba de concepto rápida y de bajo riesgo: la empresa aporta las imágenes y define las preguntas que le interesan (“¿Dónde está…?”); el alumno desarrolla el prototipo y, al finalizar, se entrega un informe con resultados, limitaciones y posibles líneas de mejora.

Para la empresa, las ventajas son claras:

disponer de un demo funcional aplicado a su propio entorno, sin coste de desarrollo interno;

evaluar de forma realista si esta tecnología puede reducir tiempos de inspección o revisión visual;

conocer qué recursos serían necesarios para un despliegue posterior (on‑premise o en la nube).

Si le interesa acoger a un alumno en prácticas para desarrollar este proyecto en su organización, podemos concretar un caso de uso sencillo y un calendario de trabajo, de forma que la empresa obtenga valor real mientras el estudiante realiza su TFG.

https://research.nvidia.com/labs/lpr/locate-anything

Propuesta de estructura didáctica del TFG

Introducción: qué es un modelo visión-lenguaje y qué significa “localizar cualquier cosa” en una imagen.
Marco tecnológico: descripción de LocateAnything y del enfoque Parallel Box Decoding, a un nivel comprensible pero serio.
Desarrollo: implementación del prototipo (arquitectura, código principal, integración básica).
Evaluación: pruebas con imágenes realistas de la empresa (o de dominio similar) y análisis de tiempos, precisión percibida y facilidad de uso.
Discusión para empresa: limitaciones, costes aproximados de despliegue (GPU/local vs. nube), oportunidades de automatización.

peissoft

El blog de psanchez

Encuentra cualquier cosa

Propuesta de estructura didáctica del TFG

Deja una respuesta Cancelar la respuesta