Gemini pozwala wyszukiwać wideo w podczasie rzeczywistym dzięki wektoryzacji
Nowy model Gemini Embedding 2 umożliwia bezpośrednią analizę surowego wideo bez transkrypcji czy opisu klatek. Programista wykorzystał tę funkcjonalność do zbudowania narzędzia do indeksowania i przeszukiwania materiału wideo za pomocą naturalnego języka z automatycznym przycinaniem rezultatów.
Gemini Embedding 2 can project raw video directly into a 768-dimensional vector space alongside text. No transcription, no frame captioning, no intermediate text. A query like "green car cutting me off" is directly comparable to a 30-second video clip at the vector level.I used this to build a CLI that indexes hours of footage into ChromaDB, then searches it with natural language and auto-trims the matching clip. Demo video on the GitHub README. Indexing costs ~$2.50/hr of footage. Still-frame detection skips idle chunks, so security camera / sentry mode footage is much cheaper. Comments URL: https://news.ycombinator.com/item?id=47503617 Points: 348 # Comments: 92