Зеркальный лабиринт алгоритмов: математики объяснили, почему искусственный интеллект деградирует, обучаясь на собственных ошибках
Коллектив исследователей из МФТИ и Института проблем передачи информации им. А. А. Харкевича (ИППИ РАН) разработал математическую модель, описывающую, как системы искусственного интеллекта влияют на собственное будущее, обучаясь на данных, которые сами же и породили. Ученые создали теоретический каркас, объясняющий природу «цифровых эхо-камер» и механизм, из-за которого умные алгоритмы со временем могут терять адекватность или усиливать социальные предрассудки.
Как меняется ошибка модели в зависимости от параметров обучения. Синяя область — «зона комфорта», где модель становится сверхуверенной и предсказуемой (коллапс в точку). Красная область — зона хаоса, где ошибка растет бесконечно / © Knowledge and Information Systems
Второй сценарий, выявленный учеными,— стремление к нулевому распределению, что означает неограниченный рост ошибки и дисперсии. Это состояние соответствует хаотическому развалу системы, когда обратная связь становится отрицательной или деструктивной, и предсказательная способность модели деградирует до уровня хуже случайного угадывания. Исследователи определили математические условия, при которых система сваливается в тот или иной режим, подтвердив гипотезу, выдвинутую Антоном Хританковым в 2021 году, о связи сжимающих отображений с возникновением положительных петель обратной связи.
Для проверки своих теоретических выкладок ученые провели серию вычислительных экспериментов на синтетических данных, используя классические задачи линейной регрессии. Они смоделировали две ситуации: «скользящее окно», когда старые данные постепенно забываются, и «выборочное обновление», когда новые предсказания смешиваются с полным набором исторических данных. Результаты симуляций идеально легли на предсказанные теоретические кривые.
Андрей Веприков, магистрант кафедры интеллектуальных систем ФПМИ МФТИ, стипендиат им. К.В. Рудакова, пояснил: «Мы обнаружили, что даже простые модели линейной регрессии при повторном обучении на своих выводах демонстрируют сложное динамическое поведение. В зависимости от параметров — того, насколько пользователи доверяют предсказаниям и как много машинных данных попадает обратно в обучающую выборку,— система неумолимо дрейфует либо к сужению кругозора и «эху», либо к полной потере качества. Наша теория дает инструмент, чтобы заранее увидеть этот тренд, анализируя моменты распределения ошибок, которые гораздо проще измерить на практике».
Антон Хританков, кандидат физико-математических наук, доцент кафедры интеллектуальных систем МФТИ, научный руководитель исследования, подробно рассказал о важности проделанной работы:
«Наша статья — ключевой этап в цикле наших исследований, начатых еще в 2021 году. Если раньше мы фиксировали факты влияния алгоритмов на пользователей и выявляли критерии возникновения «петель обратной связи», то теперь, объединив усилия с коллегами из ИППИ РАН, мы создали полноценный теоретический каркас этого явления.
Общий замысел нашей работы заключается в пересмотре фундаментального подхода к машинному обучению. Традиционная статистика исходит из того, что данные независимы и приходят «извне». Мы же показываем, что современные ИИ-системы — это не пассивные наблюдатели, а активные агенты, которые меняют среду под себя.
Цель построенной нами модели — дать разработчикам понимание того, где проходит граница между стабильной работой алгоритма и его неизбежной деградацией. Мы объяснили природу «цифровых эхо-камер» языком математики. Это позволяет прогнозировать долгосрочные риски внедрения рекомендательных и скоринговых систем, переходя от интуитивной настройки параметров к инженерно обоснованному проектированию устойчивых систем искусственного интеллекта».
Александр Афанасьев, доктор физико-математических наук, заведующий центром распределенных вычислений ИППИ РАН, добавил:
«В этой работе мы поставили перед собой амбициозную задачу: перейти от эмпирических наблюдений за деградацией ИИ к строгому математическому описанию этого процесса. Главным результатом стало построение модели на основе теории динамических систем, где обучение рассматривается как бесконечная цепочка преобразований вероятностных распределений.
Нам удалось строго доказать, что в замкнутом контуре, когда алгоритм учится на собственных данных, поведение системы перестает быть стабильным. Мы математически вывели два финальных сценария «жизни» такой модели. Первый — это коллапс вариативности (стремление распределения ошибок к дельта-функции Дирака), когда нейросеть становится «самоуверенной» и перестает воспринимать реальность. Второй — хаотический развал предсказательной способности.
Важно, что наши теоретические выкладки, предсказывающие поведение моментов распределения ошибок, полностью совпали с результатами численных экспериментов. Это дает нам в руки не просто гипотезу, а работающий инструмент: теперь мы можем анализировать устойчивость алгоритмов еще до их внедрения, просто наблюдая за динамикой статистических моментов».
Результаты исследования могут быть использованы при разработке рекомендательных сервисов, систем скоринга и медицинских диагностических комплексов. Исследователи планируют расширить свою модель, включив в нее метрики расстояния между распределениями, и протестировать теорию на более сложных архитектурах глубокого обучения и реальных датасетах.