Neural Shit

Гугол выкатил новую фичу для Gemini 3 Flash - Agentic Vision. Суть в том, что раньше нейронка смотрела на картинку один раз целиком и часто пропускала мелкие детали, а то и вообще галлюцинировала и придумывала себе то, чего на картинке нет. Теперь же это полноценный агентный процесс с циклом Think, Act, Observe. Модель реально "разглядывает" изображение: она пишет и исполняет Python код, чтобы взаимодействовать с картинкой. Что умеет: — Активный зум: Если нейронка видит сложный чертеж или мелкий текст, она сама решит кропнуть нужный кусок, приблизить его и рассмотреть отдельно. — Аннотации: Чтобы нормально посчитать объекты (например, пальцы на руке, лол), модель теперь рисует на них bounding box'ы и цифры прямо поверх изображения. Это помогает ей не сбиваться со счета. — Визуальная математика: Видит таблицу -> пишет код -> строит нормальный график через Matplotlib, вместо того чтобы выдумывать цифры из своей кремниевой башки. Обещают прирост качества на бенчах на 5-10%. Уже доступно через API иGoogle AI Studio. тут подробнее