Сучасні великі мовні моделі (LLM) вперлися у технологічну стелю, і індустрія штучного інтелекту змушена шукати нові шляхи розвитку. Про це заявив директор департаменту ШІ компанії Sponge Анар Лавренов, наголосивши, що ера архітектури трансформерів наближається до свого піку. Замість пошуку нових архітектурних рішень, провідні розробники перенаправляють зусилля на створення агентських систем, здатних інтегрувати LLM у реальне середовище взаємодії.

За словами експерта, поява таких моделей, як GPT 3.5, стала значним кроком завдяки переходу від рекурентних моделей до трансформерів. Проте зараз світ очікує на нові архітектури, які зможуть перевершити існуючі технології. Компанія Anthropic, яка є лідером у цій сфері, вже впровадила протокол MCP (Model Context Protocol), що перетворює мовні моделі на повноцінних асистентів для виконання складних завдань.

Фото до матеріалу: Штучний інтелект вперся у стелю: експерт розкрив новий вектор розвитку технологій

Процес навчання штучного інтелекту складається з трьох ключових етапів, які визначають кінцевий результат. Перший етап передбачає передбачення наступного слова на величезних обсягах тексту, де моделі, як-от Claude, використовують техніку реструктуризованого переднавчання. Другий етап — це навчання з учителем, де моделі вчаться на прикладах запитань та відповідей. Третій і найважливіший етап — це вирівнювання (alignment) або навчання з підкріпленням, що безпосередньо впливає на поведінку системи.

Анар Лавренов підкреслив, що всі сучасні моделі на 90% використовують однакові дані, тому різниця між ними полягає переважно в техніках навчання та методах подачі інформації. Вузькі домени можуть демонструвати відмінності лише на рівні 5-10%. Окрім цього, важливу роль відіграють методи оптимізації, такі як DPO, представлений командою Anthropic, які сприяють покращенню якості моделей.

Наступним етапом розвитку штучного інтелекту стане вдосконалення агентських систем, які інтегрують LLM у повсякденне життя. Цей перехід може кардинально змінити способи виконання завдань у бізнесі, освіті та науці, оскільки акцент зміщується на взаємодію та інтеграцію технологій у існуючі процеси. Компанії намагаються знайти нові підходи до використання LLM, щоб адаптуватися до нових реалій ринку.