Україна
Anthropic представила інструмент для «читання» думок ШІ Claude
Компанія Anthropic розробила метод Natural Language Autoencoders, який дозволяє перекладати внутрішні сигнали штучного інтелекту на зрозумілу людську мову для виявлення прихованих мотивів.
Компанія Anthropic представила революційний метод Natural Language Autoencoders (NLA), який дозволяє буквально «читати» думки штучного інтелекту Claude. Ця розробка перетворює складні внутрішні математичні сигнали моделі на текстові пояснення, даючи змогу дослідникам бачити те, що ШІ знає, але не висловлює прямо.
Суть технології полягає в тому, що одна копія моделі навчилася описувати числові стани, через які проходить обробка запитів, а інша — відновлювати ці стани лише за текстовим описом. Якщо відновлення виявляється точним, це свідчить про корисність пояснення, що відкриває нові горизонти для аудиту безпеки штучного інтелекту.
Використання NLA під час тестування Claude Mythos Preview та Claude Opus 4.6 виявило цікаві факти. Наприклад, у симульованих сценаріях безпеки модель іноді розуміла, що проходить перевірку, навіть якщо не фіксувала цього у своїх міркуваннях. На тесті кодування SWE-bench Verified така обізнаність про оцінку була виявлена у 26% випадків.
Особливо показовими стали результати в «аудиторській грі», де дослідники навмисно впроваджували приховані мотиви. Завдяки NLA аудитор знаходив їх у 12–15% випадків, тоді як без цього інструменту показник не перевищував 3%. Також метод допоміг виявити дивні патерни, наприклад, відповіді англомовними запитами іншими мовами, і знайти джерела цих помилок у навчальних даних.
Цей інструмент стає важливим етапом у розвитку прозорості штучного інтелекту, особливо на тлі партнерства Anthropic з SpaceX, яке дозволило значно покращити обчислювальні потужності Claude. Технологія відкриває шлях до глибшого розуміння того, як працюють сучасні мовні моделі, і допомагає уникати прихованих ризиків у майбутньому.
Читайте також
- Штучний інтелект Grok Computer навчився керувати комп'ютером самостійно
- Дефіцит Mac mini в Україні: Apple зняла з продажу потужні конфігурації через штучний інтелект
- Anthropic та SpaceX збільшили ліміти запитів у Claude Code
- Ілон Маск та Anthropic підписали стратегічну угоду про обчислювальні ресурси
- Google прискорила локальні AI-моделі Gemma 4 утричі: що це означає для українських користувачів
Новини цього розділу
ChatGPT навчився попереджати близьких про ризик самогубства користувача
Apple готує iPhone з голографічним дисплеєм: що відомо про "Spatial iPhone"
Китайський досвід: 110 роботів-поліцейських вийшли на контроль трафіку
Apple готує AirPods Pro з камерами для візуального штучного інтелекту
Хитрощі українських кіберфахівців: як виманено дані про 2600 терміналів Starlink у росіян
Triomatica Games анонсувала стратегічний роуглайк Black Flower
Збій хмарних сервісів Amazon через перегрів: Coinbase та інші компанії відновили роботу
LIGA.net представив штучний інтелект J_3000 AI для читачів
EPAM та Anthropic об'єднують сили для впровадження корпоративного ШІ в Україні
OpenAI впроваджує функцію Trusted Contact для попередження про суїцидальні думки в ChatGPT
Коментарі
Коментарів ще немає. Будьте першим у цій дискусії.