Компанія Anthropic представила революційний метод Natural Language Autoencoders (NLA), який дозволяє буквально «читати» думки штучного інтелекту Claude. Ця розробка перетворює складні внутрішні математичні сигнали моделі на текстові пояснення, даючи змогу дослідникам бачити те, що ШІ знає, але не висловлює прямо.

Суть технології полягає в тому, що одна копія моделі навчилася описувати числові стани, через які проходить обробка запитів, а інша — відновлювати ці стани лише за текстовим описом. Якщо відновлення виявляється точним, це свідчить про корисність пояснення, що відкриває нові горизонти для аудиту безпеки штучного інтелекту.

Використання NLA під час тестування Claude Mythos Preview та Claude Opus 4.6 виявило цікаві факти. Наприклад, у симульованих сценаріях безпеки модель іноді розуміла, що проходить перевірку, навіть якщо не фіксувала цього у своїх міркуваннях. На тесті кодування SWE-bench Verified така обізнаність про оцінку була виявлена у 26% випадків.

Особливо показовими стали результати в «аудиторській грі», де дослідники навмисно впроваджували приховані мотиви. Завдяки NLA аудитор знаходив їх у 12–15% випадків, тоді як без цього інструменту показник не перевищував 3%. Також метод допоміг виявити дивні патерни, наприклад, відповіді англомовними запитами іншими мовами, і знайти джерела цих помилок у навчальних даних.

Цей інструмент стає важливим етапом у розвитку прозорості штучного інтелекту, особливо на тлі партнерства Anthropic з SpaceX, яке дозволило значно покращити обчислювальні потужності Claude. Технологія відкриває шлях до глибшого розуміння того, як працюють сучасні мовні моделі, і допомагає уникати прихованих ризиків у майбутньому.