Коли ШІ «клікає» по вебсайту, він витрачає у 45 разів більше токенів, ніж під час звернення через API
Компанії, які використовують ШІ-агентів для автоматизації процесів, ризикують переплачувати, якщо їхні цифрові помічники просто копіюють те, як людина взаємодіє з екраном. Такого висновку дійшли за результатами дослідження, у межах якого порівняли роботу візуальних та API-агентів.
Компанії, які використовують ШІ-агентів для автоматизації процесів, ризикують переплачувати, якщо їхні цифрові помічники просто копіюють те, як людина взаємодіє з екраном. Такого висновку дійшли за результатами дослідження, у межах якого порівняли роботу візуальних та API-агентів. Дослідження проводила платформа корпоративних рішень Reflex, повідомляє The Register.
Візуальний агент у цьому контексті — це ШІ-агент, який імітує людську взаємодію, покладаючись на обробку зображень та оптичне розпізнавання символів (OCR) для роботи з додатком. У цьому випадку це модель Claude Sonnet, що керує інтерфейсом вебдодатка через browser-use 0.12 — інструмент для автоматизованого управління браузером. API-агент тут означає Claude Sonnet, що взаємодіє з вебдодатком через спеціальні інструменти та API.
Агент викликає ті самі механізми обробки, що й графічний інтерфейс (UI), і отримує у відповідь структуровані дані, а не скриншот вебсторінки, який потребує аналізу. «Два агенти працюють із тим самим активним додатком: один керує інтерфейсом через скриншоти та кліки, а інший звертається до HTTP-ендпоїнтів додатка напряму», — пояснив Палаш Авасті, керівник відділу розвитку Reflex.
«Та сама модель Claude Sonnet, той самий закріплений набір даних, те саме завдання. Єдина змінна — це інтерфейс». Перед кожним агентом поставили таке завдання: «Клієнт на прізвище Сміт поскаржився на нещодавнє замовлення.
Знайдіть Сміта з найбільшою кількістю замовлень, прийміть усі його відкладені відгуки та позначте останнє замовлення як доставлене». За словами Авасті, API-агент виконав завдання лише за вісім викликів. Він вивів список відкладених відгуків, прийняв їх і позначив замовлення як доставлене.
Натомість візуальний агент знайшов лише один із чотирьох відгуків, оскільки не зміг прокрутити сторінку до місця, де були приховані інші три відгуки. Візуальний аналіз та інтерпретація вебсторінки є фундаментально складнішим завданням для ШІ-моделі, ніж взаємодія з API-викликами та інструментами. Навіть коли промпт було скориговано, щоб допомогти візуальній моделі працювати краще, агенту знадобилося близько 17 хвилин — це значно довше порівняно з API-агентом, який впорався за приблизно 20 секунд.
Візуальний агент також використав набагато більше токенів — приблизно у 45 разів. Компанія зробила цей тест доступним як бенчмарк для тих, хто зацікавлений у відтворенні результатів. Авасті зазначив, що різниця у вартості між цими двома підходами зумовлена самою архітектурою: візуальним агентам потрібно «бачити», а це дорого — обробка кожного скриншоту потребує тисяч вхідних токенів.
За оцінками Anthropic, обробка зображення розміром 1000×1000 пікселів моделлю Claude Sonnet 4.6 споживає близько 1334 токенів. Агент зору витратив близько 500 000 вхідних токенів та близько 38 000 вихідних токенів для виконання свого завдання. Агент API використав близько 12 150 вхідних токенів та близько 934 вихідних токенів.
Для Авасті урок полягає в тому, що хоча агенти візуального аналізу можуть бути необхідними для взаємодії з програмами, які ви не контролюєте, агенти, орієнтовані на всередину, повинні орієнтуватися на API. Як зекономити ШІ-токени? Добірка інструментів, які створили айтівці, щоб відстежувати витрати у Claude Code Як зекономити ШІ-токени?
Добірка інструментів, які створили айтівці, щоб відстежувати витрати у Claude Code ШІ-токени стають частиною винагороди в IT — новий тренд у Кремнієвій долині ШІ-токени стають частиною винагороди в IT — новий тренд у Кремнієвій долині СЕО Nvidia вигадав нову «фішку» для переманювання ІТ-фахівців — токени СЕО Nvidia вигадав нову «фішку» для переманювання ІТ-фахівців — токени
Читайте також
- "Обвал економіки зупинить ОПК": Dragon Capital – про сценарій війни до кінця 2027 року
- У Львові у парку знайшли сумку з тілом немовляти: поліція шукає матір
- Подвійне громадянство в Україні: нові правила 2026 року та ризики для громадян
- День гігієни рук: як звичка мити руки коштувала життя тисячам людей
- Планове відключення світла на Рахівщині: енергетики оновлюють мережі 5 травня
Новини цього розділу
"Обвал економіки зупинить ОПК": Dragon Capital – про сценарій війни до кінця 2027 року
День гігієни рук: як звичка мити руки коштувала життя тисячам людей
Як допомогти дитині пережити розлучення батьків: поради психологів
Рейтинг АЗС України: Укрнафта випередила ОККО та WOG
Кінотеатри України заробили 4,1 млрд грн за 2025 рік:
Лазерна зброя «Тризуб» презентують після двох років роботи: що змінилося
Міра Мураті звинуватила Сема Альтмана у хаосі в OpenAI
Гороскоп на 7 травня: що чекає всі знаки зодіаку цього дня
Мін'юст США вилучив Україну зі списку країн, з яких заборонено імпортувати зброю. Як це вплине на український DefTech
12-річний школяр врятував дітей від російського FPV-дрона
Коментарі
Коментарів ще немає. Будьте першим у цій дискусії.