Internet Archive создавался для спасения цифровой истории, но теперь те же медиа, что годами пользовались его данными, блокируют к ним доступ. Издатели опасаются, что некоммерческая «машина времени» превратилась в лазейку для ИИ-гигантов, которые бесплатно забирают защищенный авторским правом контент для обучения своих моделей.
Масштаб исхода уже стал системным. Аналитики подсчитали, что 241 новостной ресурс из девяти стран, включая The New York Times и Reddit, ограничил работу автоматических архиваторов. Наиболее жесткую позицию занял холдинг Gannett, крупнейший издатель США, который практически полностью закрыл свои материалы для индексации. Некоторые игроки, например The Guardian, действуют тоньше: они не блокируют роботов напрямую, но скрывают старые статьи из публичного интерфейса и ограничивают доступ через API.Угроза обучения на архивных данных
Эта оборонительная стратегия стала прямой реакцией на бум нейросетей. Медиаиндустрия подозревает, что технологические корпорации используют Internet Archive как гигантскую бесплатную базу данных для обучения языковых моделей, обходя прямые лицензионные соглашения. Инструмент, созданный для борьбы с цензурой и сохранения прозрачности, теперь воспринимается как уязвимость в битве за интеллектуальную собственность.Парадокс ситуации заключается в том, что сами журналисты остаются одними из самых активных пользователей «машины времени». В Electronic Frontier Foundation подчеркивают: без этого архива огромный пласт современной истории просто исчез бы при удалении публикаций или смене редакционной политики. Несмотря на попытки Internet Archive внедрить защиту от массового скачивания, доверие издателей продолжает падать. В отсутствие альтернатив интернет постепенно теряет память, оставляя будущих исследователей с фрагментированной и легко редактируемой версией прошлого.
Комментарии (0)
Пока нет комментариев. Будьте первым!