Главные новости » Эксклюзив » ИИ Google теперь может сам ходить по сайтам, нажимать кнопки и заполнять формы
Эксклюзив

ИИ Google теперь может сам ходить по сайтам, нажимать кнопки и заполнять формы


Согласно информации от Google, новая версия Gemini 2.5 Pro оснащена функцией Computer Use, позволяющей системе работать с веб-контентом. Разработанная в DeepMind, эта функция делает ИИ многофункциональным помощником, который может не только отвечать на вопросы, но и действовать в реальном времени: искать билеты, регистрироваться на сайтах, совершать покупки и тестировать пользовательские интерфейсы, как сообщают различные источники.

Gemini 2.5 Computer Use отмечает переход от простого чат-бота к более сложному «исполнителю». В отличие от предыдущих моделей, которые могли лишь генерировать тексты или отвечать на вопросы, новая версия способна активно взаимодействовать с интерфейсами. «Это только начало, но возможность модели работать с вебом — прокручивать, заполнять формы и перемещаться по меню — станет важным шагом к созданию универсальных ИИ-агентов», — отметил Сундар Пичаи, CEO Google.

Для реализации этой функции Google сотрудничает со стартапом Browserbase, основанным Полом Кляйном, бывшим инженером компании Twilio. Browserbase предоставляет браузер в качестве виртуальной среды без графического интерфейса, что позволяет ИИ напрямую взаимодействовать с веб-страницами через API. Такой подход облегчает обучение и тестирование моделей в контролируемых условиях, исключая вмешательство пользователей.

Пользователи могут ознакомиться с возможностями Gemini 2.5 Computer Use на платформе Browserbase, где доступна «Browser Arena» — пространство для сравнительного анализа моделей от Google, OpenAI и Anthropic.

Меры безопасности


Учитывая, что модель имеет доступ к интерфейсам веб-сайтов, Google внедрила многоуровневую систему контроля. Каждый шаг агента проверяется службой безопасности, а разработчики могут установить собственные правила, такие как блокировка покупок или необходимость ручного подтверждения при работе с личными данными.

Gemini не имеет возможности выполнять действия, которые нарушают политику Google, а при возникновении CAPTCHA требуется подтверждение от пользователя, что предотвращает полностью автономное поведение ИИ.

Система может запрашивать подтверждение пользователя для сложных операций, таких как оплата или ввод личной информации, чтобы избежать потенциальных ошибок или нарушений безопасности.

Модель обрабатывает текст и изображения, возвращая текстовые ответы или вызывая функции, что фактически представляет собой готовый «код действия» для браузера.

Цена и лицензирование


Стоимость использования новой функции аналогична цене базовой модели Gemini 2.5 Pro:


  • Входные токены — от $1,25 за миллион (до 200 000 токенов),



  • Выходные — от $10 за миллион.


Однако важно отметить, что отсутствует бесплатный уровень. В то время как Gemini 2.5 Pro можно тестировать без оплаты в Google AI Studio, версия Computer Use начинает тарифицироваться с самого начала. Компания также подчеркивает, что данные платных пользователей не используются для дообучения моделей, что может быть значительным преимуществом для бизнес-клиентов.

От чат-ботов к цифровым агентам


С введением функции Computer Use Google вступает в новую стадию конкуренции с OpenAI и Anthropic. Если ChatGPT Agent и Claude Sonnet уже умеют создавать файлы и работать с локальными данными, то Gemini акцентирует внимание на визуальном взаимодействии с реальными интерфейсами — от веб-браузеров до мобильных приложений.

Таким образом, мы наблюдаем начало новой эры ИИ-исполнителей — автономных систем, способных не только анализировать запросы, но и выполнять их действия в цифровом пространстве. «Мы стремимся к тому, чтобы компьютеры не просто отвечали на вопросы, а выполняли работу», — отметил один из инженеров DeepMind, участвовавший в разработке модели.

Эксперты утверждают, что такие агенты станут важными инструментами для автоматизации в офисах и для потребителей. Они будут способны самостоятельно бронировать билеты, подавать заявки, проходить регистрацию на сайтах, управлять аккаунтами и даже вести переговоры в интернете в рамках заданных целей и полномочий.

Читайте также:
Продолжая просматривать сайт topnews.kg вы принимаете политику конфидициальности.
ОК