VLMs: Cosa vedono i modelli di visione-testo

VLMs: Cosa vedono i modelli di visione-testo

I modelli di visione-testo (VLMs) stanno facendo notizia nel mondo dell’IA con la loro capacità di interpretare e comprendere sia testi che immagini, ottenendo risultati impressionanti nei benchmark multimodali. Tuttavia, uno studio rivoluzionario di ricercatori dell’Università di Auburn e dell’Università dell’Alberta sta mettendo in discussione ciò che sappiamo su come questi modelli elaborano le informazioni visive.

Lo studio introduce BlindTest, una serie di compiti visivi che sono notevolmente semplici per gli esseri umani ma si rivelano difficili per i VLMs. I ricercatori hanno scoperto che questi modelli avanzati faticano con compiti che un bambino di cinque anni può facilmente risolvere. Questa rivelazione solleva domande significative sulle reali capacità visive dei VLMs e sulla loro applicazione in scenari del mondo reale.

Il nucleo dello studio evidenzia una lacuna critica nelle pratiche attuali di benchmarking. Nonostante i loro alti punteggi, questi benchmark non riescono a valutare accuratamente la capacità dei modelli di comprendere veramente le informazioni visive. Invece, spesso misurano la capacità dei modelli di richiamare informazioni basate su testo, mascherando le loro carenze visive. Questa discrepanza è evidente in casi dove modelli come il Gemini di Google possono rispondere correttamente a quasi metà delle domande senza nemmeno “vedere” l’immagine, facendo affidamento invece su suggerimenti di testo memorizzati.

BlindTest mira a risolvere questo problema concentrandosi sull’acuità visiva di base—identificando forme geometriche, contando intersezioni e riconoscendo relazioni spaziali su una tela vuota. Questi compiti sono progettati per imitare la semplicità dei test visivi usati dagli ottometristi, riducendo tutto all’essenziale per rivelare le vere capacità di elaborazione visiva.

I risultati sono significativi: anche i VLMs più avanzati come i modelli della serie GPT-4o e Claude mostrano solo circa il 58,57% di accuratezza in questi compiti visivi basilari, un netto contrasto con la performance quasi perfetta che ci si aspetterebbe dalla visione umana. Questo suggerisce che, sebbene i VLMs possano imitare certi aspetti della vista umana, spesso perdono dettagli più fini, simili a una persona miope che fatica a vedere chiaramente.

hashtag#ArtificialIntelligence hashtag#MachineLearning hashtag#VisionLanguageModels hashtag#AIResearch hashtag#DeepLearning hashtag#AITransparency hashtag#AIInterpretability hashtag#TechInnovation hashtag#AIethics hashtag#DataScience

What do vision language models really “see”?

bdtechtalks.substack.com

Contact

Contact Information

Subscribe Newsletter:
Send us a Message