Веб исчезает: виноват ли в этом IT?
Ничто не вечно, и исследователи подтвердили, что веб-страницы не являются исключением. Они появляются в определенный момент времени и имеют тенденцию внезапно исчезать с сообщением об ошибке «404 страница не найдена» в неизвестный момент в будущем.
Скорость, с которой это происходит, имеет название: «цифровая деградация», или «увядание ссылок». Согласно анализу Исследовательского центра Пью, когда онлайн-контент исчезает, мы даже можем привести некоторые цифры этого явления.
Исследуя случайную выборку веб-страниц, существовавших в 2013 году, исследователи обнаружили, что к 2023 году 38% из них исчезли. Если это не кажется удивительным – почти четыре из десяти веб-страниц 2013 года исчезли через десять лет, – они провели аналогичный анализ для страниц, появившихся в 2023 году, обнаружив, что удивительные 8% исчезли к концу года.
Но важно не просто количество исчезнувших веб-страниц, но и то, откуда они исчезли. В этом отношении 23% новостных страниц и 21% страниц на сайтах правительства США содержали хотя бы одну сломанную ссылку.
Самым показательным индикатором увядания ссылок является Википедия, которая сильно зависит от ссылок на внешние источники информации.
Несмотря на важность ссылок, исследователи обнаружили, что по крайней мере одна ссылка была сломана на 54% выборки из 50 000 англоязычных статей Википедии. Из общего числа в один миллион ссылок на этих страницах 11% ссылок стали недоступными.
Некоторые языки больше подвержены исчезновению твитов, чем другие: процент исчезновения твитов на английском языке составил 20%, а на арабском и турецком – поразительные 42% и 49% соответственно.
Пью не первая организация, изучающая эту проблему. В 2021 году исследование Гарвардской юридической школы, включающее 2 283 445 ссылок внутри статей New York Times, показало, что из 72% глубоких ссылок (то есть ссылок на конкретную статью, а не на домашнюю страницу) 25% были недоступны.
Как сайт, существующий с 1996 года, The New York Times является хорошим показателем долгосрочного увядания ссылок. Неудивительно, что чем дальше вы возвращаетесь назад во времени, тем больше увядания видно: 72% ссылок, датированных 1998 годом, и 42% ссылок, датированных 2008 годом, больше не доступны.
Это исследование также рассматривало смещение контента, то есть степень, в которой страница доступна, но со временем изменилась, иногда радикально, по сравнению с ее первоначальной формой. В этом отношении 13% выборки из 4 500 страниц, опубликованных в New York Times, значительно сместились с момента их первой публикации.
«Хрупкость Интернета создает проблему для любой области работы или интересов, которая полагается на письменные записи. [...] Более фундаментальной проблемой является то, что статьи прошлых десятилетий становятся оболочками самих себя, отрезанными от их исходного цитирования и контекста».
По словам Марка Стокли, опытного специалиста по системам управления контентом (CMS) и веб-администратора, который сейчас работает евангелистом кибербезопасности в компании Malwarebytes, потеря некоторых ссылок была неизбежна, но масштаб проблемы указывает на более глубинные административные неудачи.
«Люди, похоже, стали более равнодушны к потере страниц, чем раньше. Когда я впервые начал работать в Интернете, потеря страницы, или, по крайней мере, URL-адреса, была недопустима. Если вам больше не нужна страница, вы, по крайней мере, заменили её перенаправлением на подходящую альтернативу, чтобы избежать тупиковых ситуаций», – сказал Стокли.
«Удивительно, что CMS не справляются с этим. Хотя некоторые CMS автоматически исправляют ошибки и заполняют изменения URL-адресов перенаправлениями, есть и другие, которые, необъяснимо, этого не делают. Это очевидный и простой способ предотвратить определенный вид увядания ссылок, и удивительно, что он существует в 2024 году», – сказал он.
В качестве альтернативы, если CMS не включает функцию проверки ссылок, администраторы также могут использовать инструменты проверки ссылок, которые будут сканировать сайт, чтобы найти сломанные ссылки.
Для администраторов CMS обнаружение и исправление сломанных ссылок должно быть определенным процессом, а не второстепенным вопросом.
Скорость, с которой это происходит, имеет название: «цифровая деградация», или «увядание ссылок». Согласно анализу Исследовательского центра Пью, когда онлайн-контент исчезает, мы даже можем привести некоторые цифры этого явления.
Исследуя случайную выборку веб-страниц, существовавших в 2013 году, исследователи обнаружили, что к 2023 году 38% из них исчезли. Если это не кажется удивительным – почти четыре из десяти веб-страниц 2013 года исчезли через десять лет, – они провели аналогичный анализ для страниц, появившихся в 2023 году, обнаружив, что удивительные 8% исчезли к концу года.
Но важно не просто количество исчезнувших веб-страниц, но и то, откуда они исчезли. В этом отношении 23% новостных страниц и 21% страниц на сайтах правительства США содержали хотя бы одну сломанную ссылку.
Самым показательным индикатором увядания ссылок является Википедия, которая сильно зависит от ссылок на внешние источники информации.
Несмотря на важность ссылок, исследователи обнаружили, что по крайней мере одна ссылка была сломана на 54% выборки из 50 000 англоязычных статей Википедии. Из общего числа в один миллион ссылок на этих страницах 11% ссылок стали недоступными.
Пропадающие твиты
То же самое касается и ссылок. Обратив внимание на другой культурный ориентир, твиты на платформе X (ранее известной как Twitter), наблюдается аналогичная картина. Из репрезентативной выборки в 5 миллионов твитов, опубликованных между 8 марта и 27 апреля 2023 года, команда обнаружила, что к 15 июня 18% исчезли. И эта цифра может значительно увеличиться, если компания когда-нибудь прекратит перенаправлять URL-адреса с исторического домена twitter.com.Некоторые языки больше подвержены исчезновению твитов, чем другие: процент исчезновения твитов на английском языке составил 20%, а на арабском и турецком – поразительные 42% и 49% соответственно.
Пью не первая организация, изучающая эту проблему. В 2021 году исследование Гарвардской юридической школы, включающее 2 283 445 ссылок внутри статей New York Times, показало, что из 72% глубоких ссылок (то есть ссылок на конкретную статью, а не на домашнюю страницу) 25% были недоступны.
Как сайт, существующий с 1996 года, The New York Times является хорошим показателем долгосрочного увядания ссылок. Неудивительно, что чем дальше вы возвращаетесь назад во времени, тем больше увядания видно: 72% ссылок, датированных 1998 годом, и 42% ссылок, датированных 2008 годом, больше не доступны.
Это исследование также рассматривало смещение контента, то есть степень, в которой страница доступна, но со временем изменилась, иногда радикально, по сравнению с ее первоначальной формой. В этом отношении 13% выборки из 4 500 страниц, опубликованных в New York Times, значительно сместились с момента их первой публикации.
Где IT идет не так?
Важно ли это? Исследователи из Пью не делают никаких выводов, но авторы исследования Гарвардской юридической школы указывают на проблемы, которые оставляет после себя увядание ссылок:«Хрупкость Интернета создает проблему для любой области работы или интересов, которая полагается на письменные записи. [...] Более фундаментальной проблемой является то, что статьи прошлых десятилетий становятся оболочками самих себя, отрезанными от их исходного цитирования и контекста».
По словам Марка Стокли, опытного специалиста по системам управления контентом (CMS) и веб-администратора, который сейчас работает евангелистом кибербезопасности в компании Malwarebytes, потеря некоторых ссылок была неизбежна, но масштаб проблемы указывает на более глубинные административные неудачи.
«Люди, похоже, стали более равнодушны к потере страниц, чем раньше. Когда я впервые начал работать в Интернете, потеря страницы, или, по крайней мере, URL-адреса, была недопустима. Если вам больше не нужна страница, вы, по крайней мере, заменили её перенаправлением на подходящую альтернативу, чтобы избежать тупиковых ситуаций», – сказал Стокли.
«Удивительно, что CMS не справляются с этим. Хотя некоторые CMS автоматически исправляют ошибки и заполняют изменения URL-адресов перенаправлениями, есть и другие, которые, необъяснимо, этого не делают. Это очевидный и простой способ предотвратить определенный вид увядания ссылок, и удивительно, что он существует в 2024 году», – сказал он.
В качестве альтернативы, если CMS не включает функцию проверки ссылок, администраторы также могут использовать инструменты проверки ссылок, которые будут сканировать сайт, чтобы найти сломанные ссылки.
Для администраторов CMS обнаружение и исправление сломанных ссылок должно быть определенным процессом, а не второстепенным вопросом.
Похожие публикации
Нет комментариев