В 2010-х годах о «больших данных» стало принято говорить, как о «новой нефти». Бизнесмены и политики всего мира повторяли мантру из книги «Супердержавы ИИ» Кай-Фу Ли: «В век ИИ, когда данные — это новая нефть, Китай — новая Саудовская Аравия». Но уже к 2020 году стало ясно, что к реальности куда ближе совсем иной лозунг: «данные — это новый мусор».

Начавшаяся в 2023 «революция ChatGPT» внесла очередную фундаментальную коррективу. Популярность так называемых базисных моделей обучения (LLM) генеративного ИИ на больших данных захватила весь мир. И потребовалось всего полгода, чтобы половина сотрудников ведущих мировых компаний стала использовать большие языковые модели типа GPT-4 в своих рабочих процессах, а сотни компании стали предлагать все новые продукты со встроенным генеративным ИИ.

В результате кардинально изменилось наполнение Интернета, уже ставшего для человечества основным хранилищем данных обо всем на свете: от кулинарных рецептов, анекдотов и лайфхаков по ремонту до статистики, патентов, научных статей и всевозможной профессиональной и аналитической информации.

Тут важно понимать две вещи. До 2023 большая часть контента в Интернете была создана людьми. Именно этот контент использовался для обучения ИИ. С этого года все большая доля контента, наполняющего Интернет, будет создаваться ИИ. Речь не только о текстах — но и о числовой информации, изображениях, фото, аудио и видео.

Крайне важно понимать, куда все это ведет. Только что опубликованный препринт нового исследования группы авторов во главе с Россом Андерсоном предупреждает об огромной засаде, ожидающей мир при заполнении Интернета продукцией LLM.

Результатом может стать колоссальный урон для безопасности бизнеса, а также для интеллекта человечества.

Росс Андерсон, как отмечает Королевское общество Великобритании, членом которого он является, — «пионер и мировой лидер в области инженерии безопасности». Он один из лучших специалистов в мире по обнаружению слабостей в системах безопасности и алгоритмах, член Королевской инженерной академии и профессор персональной кафедры безопасности и компьютерной лаборатории Кембриджского университета, а также один из самых известных отраслевых консультантов в области инфобезопасности. Его работы заложили основы для построения моделей угроз для широкого круга приложений, от банковского дела до здравоохранения. И вот теперь Росс Андерсон с коллегами предупреждает о новой, глобальной угрозе для всего человечества — коллапсе больших языковых моделей (LLM).

Ученые предполагают, что будет происходить следующее:

Помните комедию «Множественность» с Майклом Китоном в главной роли, в которой человек клонирует себя, а затем клонирует клонов? При этом каждый новый клон становится глупее предыдущего.

С LLM будет происходить то же самое. Если вы обучаете музыкальную модель Моцарту, вы ожидаете, что результат будет похож на Моцарта: пусть без того блеска (и потому назовем эту модель «Сальери»), но похож. Но когда потом Сальери обучит следующее поколение, а то поколение — следующее и так далее, как будет звучать пятое или шестое поколение? Очевидно, все хуже и хуже.

Подобный процесс интеллектуальной деградации моделей назван Россом Андерсоном и его коллегами по исследованию «коллапсом модели».

В результате такого коллапса Интернет все больше будет забиваться чушью — мусорными данными и мусорной информацией.

Но это еще не все. Ибо это будет не просто мусор (чушь, не имеющая информационной ценности), а «радиоактивный» мусор, использование которого будет опасно для результатов деятельности и когнитивной безопасности пользователей.

Основная опасность для бизнеса будет проистекать из постоянного «радиоактивного фона». Уже использовавшие ChatGPT или аналогичные инструменты для получения ответов на нетривиальные вопросы, знают, что иногда они выдают абсолютно неверную информацию. К тому же, подобные ИИ-системы часто не раскрывают источники информации или ссылаются на несуществующие источники своих т.н. «галлюцинаций». Операционный и репутационный ущерб для бизнеса и отдельных специалистов, принимающих решения на основе такой информации, может быть колоссален.

Основная угроза для когнитивной безопасности людей, пользующихся такими ИИ-системами, будет заключаться в том, что не только LLM будут напитываться из Интернета чушью во все возрастающих объемах. Этой же чушью будут напитываться люди.

Нарастающая вредоносность заполнения Интернета чушью будет проявляться многообразно. Люди будут неумолимо глупеть, а в обществе будет нарастать «интеллектуальная слепота». Станет сложнее отличить правду от лжи, поэтому начнутся проблемы с критическим мышлением. Чрезмерные дозы «радиоактивного информационного мусора» спровоцируют усиление когнитивных искажений, как отдельных людей, так и всего общества. Под влиянием этого процесса представления людей о мире будут становиться все более кривыми.

Как ни страшна вышеописанная перспектива, это лишь предупреждение, а не приговор.

Не стоит уподобляться наивным техно-пессимистам, фокусирующихся в своих прогнозах лишь на непомерной цене прогресса технологий, оставляя без внимания колоссальную выгоду от их применения.

Впрочем, аналогичным образом не стоит уподобляться и наивным техно-оптимистам, поступающим ровно наоборот.

В качестве противоядия от превращения Интернета в свалку «радиоактивного» информационного мусора, исследование Росса Андерсона и его коллег предлагает два конкретных способа предотвращения коллапса модели.

Первый способ заключается в обязательном сохранении копии оригинального набора данных, созданного человеком, и недопущении загрязнения этой копии данными, сгенерированными LLM. Второй способ заключается во включении в процесс обучения модели новых, чистых данных, сгенерированных людьми.

Есть и другие важные задачи: разработка политик для оценки точности моделей и их тщательного тестирования, а также построение надежной системы обеспечения качества моделей и генерируемых ими результатов.

Ничто из названного, к сожалению, пока не находится в приоритетном списке важнейших задач ни одного из правительств. И это очень опасно. Ибо здесь, в отличие от вызовов глобальной экологии, десятков лет у человечества не будет.

Поделиться
Подробнее по теме
Изображение материала
От конвейера до ChatGPT
Повсеместное внедрение технологий OpenAI навредит работникам, потребителям и бизнесу. Как этого избежать, объясняет экономист Дарон Асемоглу
Больше сюжетов
Telegram под угрозой полной блокировки

Telegram под угрозой полной блокировки

Как оставаться на связи? «Новая-Европа» собрала списки проверенных VPN и альтернативных мессенджеров

«Пропаганда в России не пытается убеждать. Она хочет тебя сломать»

«Пропаганда в России не пытается убеждать. Она хочет тебя сломать»

Режиссер фильма «Господин Никто против Путина» Дэвид Боренштейн — о съемках в школе в Карабаше, об этике работы и о том, чем Россия отличается от Китая

В Риге на лекции задержали корееведа Андрея Ланькова

В Риге на лекции задержали корееведа Андрея Ланькова

Его объявили персоной нон-грата и вывезли из Латвии в Эстонию

Акции в поддержку Украины прошли по всему миру

Акции в поддержку Украины прошли по всему миру

«Новая-Европа» публикует фотогалерею

Трансгендерную девушку из Челябинска приговорили к четырем годам в мужской колонии

Трансгендерную девушку из Челябинска приговорили к четырем годам в мужской колонии

«Старшие больше боятся. А молодым нечего терять»

«Старшие больше боятся. А молодым нечего терять»

Война глазами 55-летнего добровольца и 19-летнего контрактника из одной бригады ВСУ. Материал издания hromadske

Мужчина совершил самоподрыв у машины ДПС на Савеловском вокзале в Москве

Мужчина совершил самоподрыв у машины ДПС на Савеловском вокзале в Москве

Война и свидетели

Война и свидетели

20 фильмов и книг о вторжении в Украину, которые помогут понять катастрофу, случившуюся после 24 февраля

ЛГБТ-организации начали признавать «экстремистами»

ЛГБТ-организации начали признавать «экстремистами»

Как Россия двадцать лет строила машину государственной гомофобии и почему это касается всех