Група розробників під керівництвом колишнього працівника OpenAI Алека Редфорда представила унікальний експериментальний штучний інтелект Talkie-1930-13B. Ця мовна модель навчена виключно на текстах, написаних до 1931 року, що дозволяє дослідникам вивчити поведінку ШІ без доступу до сучасних знань.

Для тренування моделі використали близько 260 млрд токенів англійськомовних текстів, серед яких книги, газети, наукові журнали, патенти та юридичні документи. Такий підхід дозволяє перевірити гіпотезу про те, чи здатен штучний інтелект самостійно «додуматися» до відкриттів, які людство зробило пізніше.

Звісно, Talkie-1930 значно поступається сучасним аналогам у загальних знаннях. Вона не знає про Другу світову війну, створення ООН чи розвиток цифрових технологій. Однак модель демонструє хороші результати в базових завданнях: розумінні мови, логічному мисленні та простій математиці. Іноді вона навіть здатна писати простий код, якщо їй показати відповідні приклади.

Розробники пояснюють, що створення таких моделей є важливим інструментом для наукових досліджень. Вони допомагають зрозуміти механізми узагальнення знань ШІ, тестують здатність моделі прогнозувати майбутнє та зменшують проблему «забруднення» даних, коли модель просто запам'ятовує відповіді замість їх розуміння.

Головним викликом проекту залишається якість даних. Оскільки всі тексти оцифровані зі старих джерел, у них багато помилок, що суттєво знижує ефективність навчання. Також існує ризик «витоків часу», коли в датасет випадково потрапляють сучасніші знання, що спотворює результати експерименту.

Наразі розробники планують масштабувати модель до рівня, співставного з ранніми версіями ChatGPT, а також розширити корпус текстів і додати підтримку інших мов. Цей проєкт відкриває нові горизонти для розуміння потенціалу штучного інтелекту в умовах обмеженої інформації.