сайт на котором можно посмотреть как выглядели сайты раньше
Как найти архивные копии сайтов интернета или машина времени для сайтов
Первые дни Pikabu.ru
Существует настоящая, реальная машина времени, в которой можно ненадолго вернуться в прошлое и увидеть, например, как выглядел тот или иной сайт несколько лет назад. Думаете, никому не нужны копии сайтов многолетней давности? Ошибаетесь! Для очень многих людей сервис по архивированию информации весьма полезен.
Во-первых, это просто интересно! Из чистого любопытства и от избытка свободного времени можно посмотреть, как выглядел любимый, популярный ресурс на заре его рождения.
Во-вторых, далеко не все веб-мастера ведут свои архивы. Знать место, где можно найти информацию, которая была на сайте в какой-то момент, а потом пропала, не просто полезно, а очень важно.
В-третьих, само по себе сравнение является важнейшим методом анализа, который позволяет оценить ход и результаты нашей деятельности. Кстати, при проведении анализа веб-ресурса очень эффективно использовать ряд методов сравнения.
Поэтому наличие уникальнейшего архива веб-страниц интернета позволяет нам получить доступ к огромному количеству аудио-, видео- и текстовых материалов. По утверждению разработчиков, «интернет-архив» хранит больше материалов, чем любая библиотека мира. Мы попали в правильное место!
Что нужно, чтобы найти копии сайтов интернета?
Для того, чтобы отправиться в прошлое, нужно перейти на сайт https://web-beta.archive.org/ и воспользоваться поисковой строкой.
Простой поиск в архиве сохраненных сайтов выдает нам ссылки на все сохраненные копии запрашиваемой страницы.
Из этого скриншота видно, что сайт http://pikabu.ru был создан в 2009 году. Переключаясь на нужный нам год, можно увидеть даты, выделенные кружочками, это и есть даты сохранения копии сайта. Например, в 2009 году, пока можно будет увидеть только две копии от 28 и 29 июня.
Конечно, это потрясающий ресурс! Ведь здесь индексируются и архивируются все сайты интернета! Это не только скриншоты… Имея в руках такой инструмент, можно восстановить массу потерянной со временем информации.
Надо заметить, что, безусловно все восстановить однозначно не получится, так как если на страницах сайта используются элементы Java Script, или скрипты или графика взяты со стороннего сервера, то на восстановление такой информации рассчитывать не придется. Поэтому к сохранению данных своего сайта нужно относиться с особенным вниманием, несмотря ни на что.
Архив сайтов: какие сайты самые старые в интернете
В сегодняшней статье затронем важную тему в веб-разработке — это архив старых сайтов. Не так часто веб-мастера пользуются этим инструментом, хотя в некоторых случаях он мог бы рассказать многое.
Кстати, в конце статьи мы приведем самые старые страницы интернета, которые до сих пор на 100% функционируют.
Архив старых сайтов
Зачем может понадобиться архив старых сайтов
Просмотреть старые страницы интернета может быть полезным в следующих случаях:
Хотите изучить конкурентов. Можно просмотреть историю сайта конкурентов, как он стал популярным, какие изменения проводил или какие ошибки допускал.
Просто интересно, как развивался современный популярный ресурс.
Как посмотреть архив старых сайтов
Просмотреть старые страницы интернета можно на нескольких популярных ресурсах:
Web.archive.org. Также известен под названием «Wayback Machine». Сохраняет версии сайтов по датам. Легко можно смотреть старые версии сайтов за любой день, месяц, год, когда был произведен обход нужного сайта. Помимо этого, есть инструменты д ля восстановления сайта, а также инструменты для просмотра изменений на сайте. Вдобавок собирает очень много разнообразной статистик и по нужному сайту.
Web-arhive.ru. Полностью бесплатный сервис, позволяет оценить внешний вид старых сайтов по заданным датам.
Самые старые сайты интернета
Bellcore.com. Дата регистрации домена: 05.03.1986. Сайт компании, которая продвигает разработки в телекоммуникациях.
HP.com. Дата регистрации домена: 03.03.1986. Это официальный ресурс одноименной и известной компании «HP», которая занимается информационными технологиями. Ресурс работает до сих пор.
SRI.com. Домен зарегистрирован: 17.01.1986. Это ресурс некоммерческой исследовательской компании.
Xerox.com. Домен зарегистрирован: 09.01.1986. Вообще не нужно представлять компанию, которой принадлежит этот сайт. Это одна из уникальных компаний, которая благодаря своему названию принесла в наш язык совершенно новое слово — «ксерокопировать».
Northrop.com. Дата регистрации домена: 07.11.1985. Сайт был создан для компании, занимающейся строительством авиатехники.
DEC.com. Домен был зарегистрирован: 30.09.1985. Ресурс принадлежал одной из американских компаний, которая занималась разработкой компьютерной техники и программного обеспечения к ней.
MCC.com. Дата регистрации домена: 11.07.1985. Сайт научно-исследовательской компании, которая проводит исследования в сфере компьютерных технологий.
Think.com. Дата регистрации доменного имени: 24.05.1985. Ресурс принадлежал компании, которая ориентировалась на создание суперкомпьютеров. На данный момент сайт принадлежит компании «Оракл».
BBN.com. Домен был зарегистрирован: 24.04.1985. Сайт принадлежит компании, которая занимается разработкой вооружения.
Symbolics.com. Дата регистрации доменного имени: 15.03.1985. Это самый старый сайт в мире. На данный момент сайт жив и представляет собой страницу с ссылками.
Мы будем очень благодарны
если под понравившемся материалом Вы нажмёте одну из кнопок социальных сетей и поделитесь с друзьями.
На каких серверах держится Архив Интернета?
Фото 1. Один из дата-центров Internet Archive в Сан-Франциско
Internet Archive — некоммерческая организация, которая с 1996 года сохраняет копии веб-страниц, графические материалы, видео- и аудиозаписи и программное обеспечение. Каждый может зайти в Wayback Machine и посмотреть, как выглядел Хабр в 2006 году или «Яндекс» в 1998 году, хотя загрузка архивных копий занимает около минуты (это не для реализма 90-х, а по техническим причинам, см. ниже).
Архив быстро растёт. Сейчас объём всех накопителей достиг 200 петабайт. Но Internet Archive принципиально не обращается к стороннему хостингу или облачному сервису вроде AWS. У некоммерческой организации собственные дата-центры, свои серверы и свои инженеры. Это гораздо дешевле, чем услуги AWS.
Архив Интернета против облаков
Технические подробности серверного устройства Internet Archive раскрыл Джона Эдвардс (Jonah Edwards), руководитель инженерной группы Core Infrastructure Team.
По его мнению, понятие «облако» многих людей вводит в заблуждение как нечто абстрактное. На самом деле это просто чужие компьютеры, то есть серверы посторонней компании. Для Internet Archive это неприемлемо. У организации собственные серверные в собственных зданиях, компьютеры принадлежат им, и персонал тоже свой.
Четыре дата-центра Internet Archive располагаются в Сан-Франциско, Ричмонде и Редвуд-Сити (это пригороды Сан-Франциско)
Кто-то может посчитать такой подход архаичным, но в некоторых случаях он действительно оправдан. В случае Internet Archive на то есть три причины: это дешевле, обеспечивает лучший контроль за серверами и даёт гарантию, что пользователей не отслеживают рекламные трекеры.
Инфраструктура
Что представляет собой инфраструктура, которой управляет Core Infrastructure Team? На февраль 2021 года цифры такие:
Разумеется, техника постепенно обновляется. На смену старым накопителям приходят новые. Например, маленькие диски на 2 и 3 терабайта полностью вышли из обращения в 2017 и 2018 годах, соответственно, а с прошлого года постоянно растёт доля дисков на 16 ТБ.
Как показано на графике ниже, несмотря на увеличение ёмкости накопителей, общее число HDD тоже постепенно растёт: за три года оно выросло с 15 тыс. до 20 тыс.
Количество жёстких дисков разного объёма на серверах Internet Archive
Диски реплицируются по дата-центрам, для производительности контент по запросу выдаётся одновременно со всех копий. Все элементы Архива представляют собой директории на дисках. Веб-страницы Wayback Machine хранятся в файлах WARC (Web ARChive, сжатые файлы Web Archive). При запросе отдельной страницы её нужно извлечь из середины архива WARC, а если страница требует загрузки дополнительных ресурсов, то процесс повторяется. Это одна из причин, почему полная загрузка страниц из Wayback Machine достигает 90 секунд, хотя закэшированные копии и популярный контент загружаются быстрее.
Для надёжности копии Архива хранятся не только в Сан-Франциско, но и ещё в нескольких локациях по всему миру, в том числе в Амстердаме (Нидерланды) и Новой Александрийской библиотеке (Египет).
В 1996 году первые серверы Internet Archive подняли на недорогих компьютерах из стандартных комплектующих: по сути, на обычных десктопах под Linux. Хотя инфраструктура сильно выросла, в качестве операционной системы всегда использовали только Linux. С 2004 года все серверы перешли на Ubuntu, сейчас продолжается миграция на Ubuntu 20.4 LTS (Focal Fossa).
Объём Архива
В последнее время объём Архива возрастает примерно на 25% в год, сейчас это соответствует 5−6 петабайтам в квартал. С учётом резервных копий нужно добавлять накопителей на 10−12 петабайт в квартал.
Одна копия Архива занимает более 45 петабайт, но на дисках и лентах хранится минимум две копии каждого объекта.
Как видно на графике вверху, обновление дискового массива происходит только за счёт моделей максимальной ёмкости. Например, в конце 2021 года планируется переход на диски по 20 ТБ, и тогда в серверы будут устанавливать только их. Остальные HDD постепенно доживают свой век, и их количество медленно снижается.
Internet Archive возлагает большие надежды на новые технологии записи данных, такие как HAMR (heat-assisted magnetic recording), чтобы ёмкость HDD увеличивалась ещё быстрее. Технология HAMR предусматривает предварительное нагревание магнитной поверхности лазером в процессе записи, что позволяет значительно уменьшить размеры магнитной области, хранящей один бит информации — и увеличить плотность записи. Нагрев выполняется с помощью лазера, который за 1 пс разогревает область записи до 100 °C.
Разработка этой технологии затянулась на 15 лет, но в январе 2021 года были официально представлены первые диски HAMR на 20 ТБ. Пока что они официально поставляются только избранным клиентам в рамках фирменного сервиса Seagate Lyve, но вскоре должны появиться в свободной продаже.
Seagate обещает, что HAMR позволит наращивать ёмкость HDD на 20% в год. Поэтому в ближайшее время можно ожидать модель на 24 ТБ, а в будущем — диски на 30 и 50 ТБ. Internet Archive тоже надеется на это и внимательно следит за последними разработками.
На текущем размере дисков понадобится 15 вот таких серверных стоек, чтобы разместить одну копию Архива:
У Internet Archive 750 серверов и 20 000 жёстких дисков
Сейчас в дата-центрах установлено 75 серверных стоек, что обеспечивает некоторый запас и избыточное копирование.
По состоянию на февраль 2021 года на серверах хранились копии 534 млрд веб-страниц, 16 млн аудиозаписей, 8,7 млн видеозаписей фильмов, клипов и телепередач, 3,8 млн изображений, 629 тыс. компьютерных программ, более 29 млн книг и текстов, в том числе 72 771 текстов на русском языке.
Любой пользователь может создать аккаунт и добавить в архив медиафайлы.
В 2020 году Internet Archive пережил серьёзный рост количества запросов и объёма внешнего трафика с 40 до 60 Гбит/с. Из-за пандемии коронавируса и самоизоляции ресурсы Архива стали более востребованы. Количество запросов росло так быстро, что в определённый момент маршрутизаторы Internet Archive перестали справляться с нагрузкой, пришлось делать апгрейд сетевой инфраструктуры быстрее, чем планировалось. Сейчас веб-сайт входит в топ-300 крупнейших сайтов интернета.
Работа на собственных серверах имеет и свои недостатки. Основные причины сбоев Internet Archive — обрывы оптоволокна из-за строительных работ в городе, сбои энергоснабжения, случайные провалы напряжения в сети. Впрочем, прошлый год сайт завершил с аптаймом 99,9%.
Internet Archive планирует расширять внешний канал. Ожидается, что в ближайшее время внешний трафик вырастет до 80 Гбит/с.
Примерно так выглядит дизайн внутренней сети:
Дата-центры подключены к нескольким провайдерам первого уровня (Tier 1) и соединены между собой по оптоволокну с применением технологии плотного спектрального уплотнения (DWDM). Локальные университетские сети подключаются к этому кольцу напрямую через локальные точки обмена трафиком.
Вместо нынешнего оптоволокна планируется проложить пары 100-гигабитных кабелей по всему кольцу из четырёх дата-центров, так что внешний трафик тоже можно будет увеличить до 100 Гбит/с.
Прокладка новых кабелей по Сан-Франциско — весьма хлопотное и дорогое дело. Приходится перекладывать асфальт на автомобильных дорогах и тротуарах. К счастью, Internet Archive удалось получить официальный статус библиотеки, что даёт доступ к государственным субсидиям, в том числе к бюджету Федеральной комиссии по связи США (FCC) на подключение всех библиотек к интернету. Таким образом, львиную долю расходов на прокладку, обслуживание оптоволокна и трафик оплачивает FCC по программе E-Rate Universal Service Program.
С 2005 года Internet Archive начал проект Open Library по сканированию книг. С одной стороны, это действительно важный общественный проект. С другой стороны, он позволил получить государственные льготы и финансирование в качестве публичной библиотеки.
Кроме государственных грантов и пожертвований, организация оказывает платные услуги по сканированию книг, в основном, для других библиотек и университетов. Это ещё один источник финансирования.
Планы на будущее
Инженеры Internet Archive сейчас обдумывают варианты использования SSD и GPU в основных серверах, чтобы увеличить их производительность. Главная проблема здесь в том, что все дата-центры находятся в стеснённых городских условиях Сан-Франциско и пригородов с очень ограниченными возможностями охлаждения (см. фото 1). Так что каждый апгрейд требуется хорошо обдумать: не приведёт ли он к повышению температуры.
Интересно наблюдать за ростом инфраструктуры Internet Archive с увеличением количества серверных стоек. Есть подозрение, что рано или поздно наступит момент, когда сложность поддержания своей инфраструктуры превысит некий порог — и библиотека откажется от собственных дата-центров. Но пока что инженеры Core Infrastructure Team успешно справляются с работой.
В зависимости от методологии расчёта, хранение данных в собственных дата-центрах Internet Archive обходятся в 2−5 раз дешевле, чем в облаке. И это только хранение. Сложно даже посчитать, сколько будет стоить круглосуточный исходящий трафик 60 Гбит/с на AWS. Вероятно, он обойдётся даже дороже, чем хранение 200 петабайт.
Похоже, что некоторые сервисы просто «слишком велики» для облака. Компаниям приходится поднимать собственные дата-центры, потому что у них нет выхода. Другой вопрос: должна ли библиотека заниматься этим самостоятельно? Получается, что современная цифровая библиотека — это по сути хостинг-провайдер и дата-центр?
На правах рекламы
Эпичные серверы — это надёжные VDS на Linux или Windows с мощными процессорами семейства AMD EPYC и очень быстрой файловой системой, используем исключительно NVMe диски от Intel. Попробуйте как можно быстрее!
Как узнать историю сайта: 4 основных способа
Узнать историю сайта является важной задачей при анализе конкурентов, позволяющей развитие компании, применяемые способы, обновление дизайна и многое другое.
Как узнать историю сайта в web.archive.org?
Для того, чтобы увидеть, как сайт выглядел некоторое время назад требуется посетить сервис:
Здесь достаточно ввести нужный URL в поле «Enter a URL».
После выбираем год.
Далее опускаемся ниже и кликаем на нужную дату (все доступные даты выделены голубым цветом).
Теперь мы видим саму страницу и то, как она выглядела.
Проверка WhoIS домена
Получить информацию об истории домена можно через сервис WhoIS. Например:
Проверка ИКС (ТИЦ) и качество домена
Анализировать качество ресурса можно введя домен в поисковой системе Яндекс, после кликнув на стрелочку «Вниз» и выбрав «Информация о сайте».
Здесь представлены полученные (достигнутые) значки, ИКС и отзывы.
Подключившись к Яндекс.Вебмастеру и воспользовавшись инструментов «Качество» можно увидеть историю изменения ИКС за длительный период.
Добавить конкурента можно кликнув на соответствующую кнопку.
Изменение видимости в поисковых системах
Анализ данных о видимости и состоянии ресурса в поисковых системах можно проверить через:
Serpstat
Удобный инструмент для полного анализа как отдельных URL так и домена в целом.
Показывает статистику в каждом отдельном поисковике и анализирует фразы, по которым ресурс занимает лидирующие позиции.
Также дает динамику видимости за год.
Be1
Простой и бесплатный инструмент для быстрого SEO-аудита.
Помогает понять, насколько ресурс популярен в поисковиках.
Megaindex
Популярный инструмент для комплексного анализа сайта.
Помогает увидеть основные запросы, ссылки, динамику видимости и источники трафика.
Web.archive.org найти и восстановить удалённый сайт
Приветствую вас, любознательные читатели блога seo-ap.ru! Недавно я рассказывал, что такое Википедия. Это виртуальная энциклопедия, которая завоевала всенародную любовь. Невзирая на то, что она постоянно подвергается критике со стороны ученых мужей
Одно то, что этот проект вот уже не один десяток лет «пашет» на пользу всего прогрессивного человечества, питает его полезной информацией на безвозмездной основе, заслуживает большого уважения и длинных дифирамбов.
Но в сети есть еще один некоммерческий проект, не менее грандиозный – web.archive.org. Он создан, чтобы надежно хранить сайты, печатные материалы, аудио и видеопродукцию. Все, чем сегодня наполнен интернет. И то, что было во всемирной паутине много лет назад. Разве такое возможно?
Да. Более того, сайты архивируются не в виде мертвых скриншотов. Они реально работают! На веб-страницах имеются все картинки, ссылки, сохраняется стилевое оформление CSS. Сайты в веб-архиве имеют еще и сотни копий. Они накопились за все время, пока сайты еще функционировали, и содержат всю их эволюцию, от рождения и до последнего вздоха.
Какую пользу веб-архив сайтов может дать лично вам?
Вы можете отправиться в путешествие по страничкам сайта вашей юности, поностальгировать. Проследить, как изменялся и развивался не только ваш, но и любой другой сайт в интернете. К примеру, материалы для своих статей о поисковой системе Апорт, которая уже приказала долго жить, я брал как раз в этом веб-архиве сайтов, в его потаенных закромах. И все скриншоты, наглядно показывающие хронологию главной страницы всеми любимого Яндекса, взяты оттуда же.
Следующий сюрприз. Допустим, вы добавили в закладку сайт, а в нем страница не открывается. Тогда вы обращаетесь к Гуглу или Яндексу, пытаясь извлечь страницу из кеша (изучите информацию о том, как эффективнее искать что-либо в Google – пригодится!). Но если к вашему ресурсу уже давно нет доступа, мертвые ссылки оживить поможет только archive.org. Хотя и там этот ресурс может отсутствовать. Почему? Об этом напишу чуть далее по тексту.
Если звезды сошлись так, что вы не сделали резервную копию своего сайта (бэкап), то вы сможете восстановить его из web archive. И это будет единственный способ решить проблему. При этом можно убрать из ссылок все привязки к web.archive.org, они могут стать прямыми для вашего сайта. Более подробно о ссылках и привязках читайте ниже.
И еще одно полезное свойство веб-архива сайтов. Он дает доступ к поиску готовых уникальных текстов. Если написание статей – не ваше призвание, то здесь вы найдете их целые залежи, настоящие Клондайк и Эльдорадо, вместе взятые! Но чтобы ими разжиться, кое-какие телодвижения совершить все же придется.
Мертвые сайты с их внутренним наполнением недоступны в действующей сети интернета. Но вы можете зайти в веб-архив, отыскать нужные вам тексты и вытащить их с того света. А затем прогнать через проверку на уникальность и опубликовать на своих страницах. Никто не обвинит вас в воровстве (плагиате) и нарушении авторских прав в копирайтинге. Однако этот увлекательный поиск некоторым может показаться долгим и тернистым.
Webarchive появился в интернете, страшно сказать – в далеком 1996 году! Еще в прошлом веке. На то время задача, стоящая перед разработчиками проекта, казалась архисложной, как говорил вождь мирового пролетариата. Несмотря на то, что интернет тогда еще не вошел в полную силу, сайтов было в сотни и тысячи раз меньше. И архивировались они гораздо реже. Как говорится, миссия невыполнима. Но мало-помалу, постепенно увеличивая вместимость своих «сусеков» и «кладовых», сервис успешно копировал и резервировал сайты.
Уже в следующем, 1997 году Webarchive поместил в базу сам себя. Посмотрите, как выглядела его главная страница более двадцати лет назад:
Просмотр сайта в Web.arhive
Здесь я вижу, что мой блог в первый раз был за архивирован в марте 2015 г. Ровно через пять дней после того, как я зарегистрировал (купил) свое доменное имя seo-ap.ru. Много воды утекло с той памятной даты. За все это время архивное копирование сайта выполнялось 100 раз, и каждую копию можно посмотреть и пощупать, переходя со страницы на страницу (все ссылки работают).
Как открыть мертвые ссылки? Для этого сайт должен находиться в archive.org.
Смотрим на календарь. Цифры в голубых кружочках обозначают даты создания так называемых слепков – веб-архивов сайта. Разумеется, в процессе снятия копии не будут учитываться изменения, которые производились на ресурсе после того, как запущено архивирование. А время его проведения Webarchive устанавливает в соответствии с собственными таймерами и заложенными программами.
Поэтому не всегда имеет смысл использовать веб-архив в качестве способа открытия сайтов, недоступных лишь временно. В Яндексе можно тоже просмотреть их архивы:
Такая же возможность просмотра копий веб-страниц есть и в Гугле:
Но чтобы сайт попал в archive.org, необходимы два условия:
Когда мне понадобилось написать статью об электронной почте mail.ru, я не нашел в веб-архиве никаких копий этого сайта именно по этой причине. В его файле robots.txt как раз был подобный запрет:
Как найти и восстановить нужный сайт без бэкапа web-архива?
В верхней части страницы расположена временная шкала, с помощью которой можно легко перемещаться по архивам. Слепки, которые есть для этого сайта, обозначены черными вертикальными черточками. Бывает, что веб-архив битый. Тогда надо открыть другой слепок, который находится к нему ближе.
Если мы кликнем по голубому кружочку, то увидим все архивы в пределах выбранной даты:
Может быть, архивирование выполнялось неоднократно в течение суток для более надежного сохранения информации. Жесткие диски не вечны. Если посмотреть любой из веб-архивов, то перед вашим взором предстанет копия сайта (в данном случае моего), со всеми ссылками и переходами. Они работают. Но, как я убедился, не всегда идеально. Особенно часто бывают проблемы с страницами сайтов использующих JS.
Но все это можно пережить, поскольку в начальном коде страницы с сервиса web.archive.org указанное меню никуда не делось. Но взять и скопировать себе на существующий сайт контент с этой страницы не получится. Потому что прогулку по ретро-сайту нельзя совершить без замены всех внутренних ссылок на те, что генерирует Webarchive. Иначе при переходе по ссылкам вы неизбежно окажетесь на страницах современной версии сайта.
Вот какие они, эти ссылки:
Конечно, можно и даже нужно сократить ссылки, вручную стереть лишнее. И тогда мы получим облегченный рабочий вариант, в нашем примере такой:
Если лень это делать вручную, можно прибегнуть к автоматизации. В этом поможет текстовый редактор Notepad. В него еще встроена автоматическая система, позволяющая заменить внутренние ссылки оригинальными. Воспользоваться ею еще проще.
Для этого нужно всего лишь зайти в адресную строку браузера, которая начинается с http://web.archive.org/. Скопировать из нее адрес страницы, где находится нужный слепок вашего сайта. В моем случае он будет выглядеть так:
После этого надо после даты (20170902102223) поставить две буквы с низкой чертой « id_», и у вас получится такая конструкция:
В таком виде вы вновь вставляете адрес в браузер, после чего давите на клавишу Enter.
К чему приведут все эти действия? Обновится страница с архивом вашего сайта. Все проставленные ссылки будут прямыми. Это даст возможность копировать контент прямо из исходного кода Webarchive.
С проблемой безвозвратного исчезновения контента обычно сталкиваются новички. Умудренные опытом владельцы сайтов, неоднократно испытав эту прелесть на себе, во избежание такой ситуации делают резервное копирование своих файлов и всей базы ежедневно. И не один раз, а пять.
Если у вас появится желание просмотреть все страницы сайта (и не обязательно своего), которые спрятаны в этих гигантских вместилищах информации, достаточно будет вбить в строку браузера такой адрес:
Понятно, что вместо моего домена надо вписать тот, который вас интересует. И нажать на клавишу Enter.
Появится страница, на которой вы можете отфильтровать искомую информацию в предложенной форме:
Меня, например, интересовали только текстовые файлы моего блога. Их без предупреждения загрузил Webarchive. Не спрашивайте меня, почему.
Как вытащить из веб-архива уникальный контент для своего сайта?
Способ, о котором сейчас расскажу, я еще не применял на практике. Но работать он должен, так как эту идею я почерпнул из надежного ресурса, хоть и молодого. Метод основывается на том, что ежедневно в интернете уходят в мир иной и никогда не восстают из пепла десятки сайтов.
Содержание большинства этих ресурсов не представляет никакой ценности для тех, кто их создал и забросил, а для других и подавно. Но не исключено, что и среди этой кучи хлама, выброшенного на помойку истории, вы найдете свои золотые самородки. Надо только просматривать исчезнувшие сайты и выбирать приличные тексты. Если в веб-архиве сохранилась хотя бы одна копия такого сайта, этого вполне хватит.
Тексты с мертвых сайтов уже находятся вне поля зрения поисковых систем, (а значит уникален). И вы можете стать законным владельцем такого контента, вытянув его из недр веб-архива. Поисковые системы будут воспринимать его как новый и уникальный. Конечно, если еще при жизни ретро-сайта этот контент не успели жесточайше откопипастить. Поэтому надо всегда проверять его на плагиат.
Но сначала необходимо найти нужный сайт. Авторы метода, о котором я рассказываю, советуют зайти на сайт Nic.ru или Reg.ru. И скачать оттуда перечень освободившихся или освобождающихся доменов. Простыми словами, это сайты, которые уже умерли или собрались в последний путь.
Список представлен в виде примера таблицы. В ее последней колонке видно, сколько архивов каждого сайта имеется в Webarchive. На других сервисах тоже можно проверить, есть ли такие домены в веб-архиве. К примеру, здесь и здесь.
Готовые списки очень быстро становятся бесполезными, по этому лучше подбирать площадки для грабинга веб-архива самому. А потом просмотреть их содержание и выбрать тексты, которые нравятся. Проверить их на плагиат, после чего контент можно смело использовать или на своем сайте, или продать на текстовой бирже.
Да, метод нелегкий но мною уже не раз опробованный. Уверен! Многие после прочтения предыдущего абзаца наверняка сообразили, что при должной сноровке и разумном подходе это дело можно поставить на поток. А потом наслаждаться проливным дождем из денежных купюр. Разве я не прав?