Google представила масштабне оновлення для своїх відкритих штучних інтелектів Gemma 4, яке може кардинально змінити ринок локального AI. Компанія заявляє про приріст швидкості генерації до трьох разів без будь-якого погіршення якості відповідей. Цей прорив став можливим завдяки новій системі Multi-Token Prediction, яка дозволяє моделям передбачати наступні частини тексту ще до того, як вони будуть повністю обчислені.

Традиційно мовні моделі генерують текст послідовно, токен за токеном, що створює значні затримки на домашніх пристроях. У новій архітектурі Google додала спеціальні «чернеткові» моделі, які швидко прогнозують кілька наступних слів наперед. Основна модель паралельно перевіряє ці припущення, і якщо вони правильні, система одразу приймає весь блок тексту. Це дозволяє ШІ працювати пакетами, а не чекати на кожне окреме слово.

Для звичайних користувачів це означає, що потужні моделі тепер можна запускати на звичайних ноутбуках та смартфонах без необхідності в серверному обладнанні. Google стверджує, що Gemma 4 E2B на смартфонах Pixel працює у 2,8 раза швидше, а версія E4B — до 3,1 раза. Велика модель Gemma 4 31B на чіпах Apple M4 отримала приріст близько 2,5 раза, що робить локальний ШІ реально доступним для масового споживача.

Окрім технічних покращень, Google перевела Gemma 4 на ліцензію Apache 2.0, що значно спрощує комерційне використання для розробників. Оновлені моделі вже доступні через популярні платформи, такі як Ollama, MLX, VLLM та SGLang. Це крок до ери персонального штучного інтелекту, де обробка даних відбувається офлайн, без передачі інформації в хмару.

Хоча технологія не усуває повністю ризик помилок чи галюцинацій, вона вирішує одну з головних проблем локального AI — недостатню швидкість роботи на звичайному «залізі». Якщо локальні моделі стануть достатньо швидкими, користувачам дедалі рідше доведеться залежати від дорогих хмарних сервісів, що відкриває шлях до масового використання приватного штучного інтелекту.