Исследователи применили аппарат теории случайных матриц и концепцию перенормировки из квантовой теории поля, чтобы описать работу нейросетей. Выяснилось, что статистический шум в данных ведет себя подобно квантовым флуктуациям, меняя параметры системы. С помощью S-преобразования физики вывели уравнения, связывающие ошибку обучения с качеством работы модели без проведения дорогостоящих тестов на гигантских выборках.
Ключевым открытием стал «барьер инициализации». Ученые математически подтвердили, что при достижении определенного порога случайность начальных параметров начинает подавлять полезный сигнал. В этом режиме дальнейшее «раздувание» архитектуры становится бессмысленным, а для повышения точности разработчикам следует переходить к ансамблированию моделей. Кроме того, работа объясняет феномен «двойного спуска» как закономерную физическую сингулярность, а не аномалию.
Теория гарвардских физиков позволяет инженерам рассчитывать необходимые вычислительные мощности и объемы данных до старта обучения. Вместо слепого наращивания параметров разработчики получают «карту» узких мест, что критически важно в условиях, когда стоимость подготовки современных моделей исчисляется миллиардами долларов.
Комментарии (0)
Пока нет комментариев. Будьте первым!