Archive.org - веб архів сайтів інтернету (webarchive machine) і пошук окремих сторінок сайту в збереженої копії

Як можна використовувати архиватором
Інструкція по роботі з Archive.org
Як знайти унікальний контент за допомогою Webarchive Machine
Як відновити сайт за допомогою Archive.org
Як видалити сайт з Archive.org

подробиці

Вітаю, дорогі читачі блогу. Хочете дізнатися, як отримувати інформацію про те, що було на будь-якому сайті рік тому або місяць тому, а сьогодні вже видалено? Тоді читаємо статтю і застосовуємо знання на практиці. Покажу як побачити старі записи сайту які булм приховані власником.

Напевно є чимало людей, хто замислювався над тим, як подивитися архів сайту в інтернеті. Ця можливість стане в нагоді кожному, хто веде свій ресурс вже довгі роки, у кого сайтів кілька, хто хоче відновити старий сайт. Як не дивно, така можливість існує, і вже давно.

Archive.org - архів всіх веб-сайтів Інтернету, діюча як онлайн-бібліотека. Початок діяльності проекту датується 1996 роком, а місце еговознікновенія - Сан-Франциско. У той час сервіс був не просто унікальним, а й практично марним для багатьох, адже Інтернет був дуже слабо поширений, а сайтів існувало всього нічого.

З поширенням Всесвітньої Мережі Архів набув великої популярності і став своєрідною машиною часу, оскільки дозволяв переглядати навіть вже не існуючі веб сайти.

Зараз бібліотека Archive.org має величезний простором для зберігання даних і пропонує вільний доступ до файлів для всіх бажаючих. До 2017 року в бібліотеці міститься вже майже 90 мільярдів веб-сторінок, але не дивлячись на це дізнатися дані про будь-якому сайті можна практично миттєво, ввівши його адресу в рядок пошуку.

Після створення сайту він може потрапити в Archive.org або відразу, або через деякий час, а буває, що навіть чинного сайту там немає. Умови попадання вашого Інтернет-ресурсу в Архів наступні:

відсутність у файлі robots.txt команди на заборону його індексації

(User-agent: ia_archiver

Disallow: /);

наявність на ресурсі посилань на пошукові системи або популярні сервіси;
перехід на сайт за допомогою пошукових систем інших користувачів.

Як можна використовувати архиватором

У Archive.org зберігаються:

текстові матеріали;
аудіофайли;
відеофайли;
фото та картинки;
посилання.

Архів дозволяє:

Вивчити всю історію свого сайту. Якщо інформація на ньому періодично оновлюється і сайт містить десятки сторінок, часом буває складно знайти яку-небудь інформацію. Тут як раз архів сайтів Інтернету прийде на допомогу.
Відновити сам сайт або деякі його сторінки, якщо ви не робили резервні копії.
Знайти унікальний контент для свого сайту. Правда, цей самий контент можна брати тільки з вже не існуючих ресурсів, оскільки те, що представлено на діючих, як відомо, не буде унікальним. До того ж, потрібно знати адресу сайту, щоб знайти його і взяти будь-яку інформацію в архіві.

Інструкція по роботі з Archive.org

Принцип роботи сервісу Archive.org дуже простий. Щоб знайти дані про будь-якому сайті, потрібно лише вказати його адресу в рядку WaybackMachine (Webarchive Machine).

Розглянемо архів сайту на прикладі мого блога. Для цього заходимо в саму бібліотеку і вводимо адресу - firelinks.ru. Тиснемо Enter.

Примітка. Якщо ми не відразу вставляємо адресу, а друкуємо, під рядком пошуку з'являються інші сайти зі схожими назвами. Ця функція корисна, наприклад, якщо ви забули назву розшукуваного ресурсу.

Відкривається сторінка з даними. Під назвою сайту бачимо інформацію про те, скільки разів був заархівований сайт і коли. Як видно, перша архівація сталася 18 червня 2014 року, а остання - 2 жовтня 2016. Ці дати ніяк не пов'язані зі змінами, що відбуваються на самому сайті, бо, коли буде проводитися архівація, визначає сам WebArchive.

Щоб більш детально розглянути всі зміни або побачити первісний вигляд сайту, просто вибираємо рік, а потім натискаємо в календарі число і місяць.

Щоб більш детально розглянути всі зміни або побачити первісний вигляд сайту, просто вибираємо рік, а потім натискаємо в календарі число і місяць

Натиснемо на найстарішу дату. Система переведе нас в сам блог, де буде видно його первісний інтерфейс і вміст. Дизайн я теж деяких елементів міняв, а ось найперші статті зараз вже загубилися і знайти їх відразу буде не так-то просто.

Дизайн я теж деяких елементів міняв, а ось найперші статті зараз вже загубилися і знайти їх відразу буде не так-то просто

Таким чином можна подивитися всі зміни, коли-небудь що відбулися в блозі, або знайти потрібну інформацію.

Як знайти унікальний контент за допомогою Webarchive Machine

Можливість перегляду архіву старих сайтів дає можливість будь-якій людині використовувати дані, які на ньому були, не побоюючись за неунікальність. Справа в тому, що після «смерті» сайту його контент вже не перевіряється пошуковими системами, а значить, він знову унікальний, і залишається проблема лише пошуку цих самих сайтів.

Якщо ви хочете взяти контент з вашого старого ресурсу або сайту, яким ви користувалися, але який вже не існує, проблем не виникне, адже ви напевно пам'ятаєте адресу. Ну, а якщо маєте намір шукати серед всіх «померлих» сайтів, можна скористатися спеціальними сервісами, де наводяться списки з вивільненими доменами, тобто з адресами сайтів, яких вже немає.

Я відкрив один з таких сервісів, скопіював перший домен і вбив у рядку WaybackMachine в Archive.org, але ніякого результату це не дало. Така ж історія повторилася і з чотирма наступними доменами. Нарешті, пошук по шостому адресою відкрив інформацію про сайт.

Те, що Arcgive.org відкриває не всі «мертві» сайти, може бути пов'язано з декількома причинами. Так, можливо, домен був придбаний, але сам сайт так ніколи і не був наповнений жодним контентом. Саме так працює з більшістю доменних імен, представлених в списках звільняються. Ще одна причина - творець сайту видалив свій ресурс з самого Архіву. Таке теж може бить.І нарешті, можливо, сайту взагалі не було в Веб Архіві.

Отже, нам вдалося все-таки знайти «мертвий» сайт, інформацію з якого можна вважати. Як бачимо, сайт існує з 1999 року, і за весь час за нього зроблено 269 архівів.

Як бачимо, сайт існує з 1999 року, і за весь час за нього зроблено 269 архівів

Ми можемо відкрити ресурс і взяти звідти інформацію. Для цього, як і в випадку з діючими сайтами, просто вибираємо будь-яку дату. Дана дія відкриє головну сторінку в тому вигляді, в якому вона була до тієї дати, яку ми вибрали. Якщо тут нічого корисного немає, слід перевірити і інші дати.

Якщо тут нічого корисного немає, слід перевірити і інші дати

Після того, як корисний контент знайдений, обов'язково слід попередньо перевірити його на унікальність, оскільки, по-перше, хтось до вас вже міг його використовувати, а по-друге, можливо, він все ще відстежується пошуковими системами.

Як відновити сайт за допомогою Archive.org

Ті, хто давно ведуть сайти, знають про те, що потрібно періодично робити його копію. А ось ті, хто про це не подумав, можуть зіткнутися з проблемою втрати веб-сторінок або втрати функціональності цілого сайту. В цьому випадку Архів знову прийде на допомогу, але, якщо у вас ресурс з великою кількістю сторінок, відновлення займе дуже багато часу. Ще одна проблема, яка може виникнути, пов'язана з можливістю втрати деякої частки інформації або спотворенням дизайну.

Якщо ви все ж вирішили відновити свій сайт за допомогою Archive.org, потрібно буде проводити операції з кожною сторінкою, звідси і трата часу.

Отже, для відновлення сайту нам потрібно замінити внутрішню посилання сторінки на оригінальну. Якщо ми подивимося в адресному рядку, посилання буде мати вигляд: http://web.archive.org/web/20161002194015/http://firelinks.ru/, тобто інформацію з такої сторінки не можна буде просто скопіювати.

Щоб така можливість з'явилася, можна просто вручну прибирати початок посилань, але, коли сторінок сотні, це стає досить копіткою заняттям. Тому ми будемо використовувати можливість самого Архіву замінювати посилання. Для цього в адресному рядку після набору цифр вставляємо «id_» і тиснемо Enter. Тобто замість первісної посилання в рядку повинно бути: http://web.archive.org/web/20161002194015id_/http://firelinks.ru/.

Тепер посилання оригінальна і можна просто копіювати тексти, картинки та інші файли з вихідного коду Архіву. Таку ж операцію проводимо і з іншими сторінками сайту. Звичайно, навіть такий варіант займе багато часу, але, якщо немає резервних копій, по-іншому відновити сайт навряд чи вийде.

Як видалити сайт з Archive.org

Більшість творців сайтів хочуть, щоб їх ресурс потрапив в Архів, але бувають і випадки, коли, навпаки, потрібно зробити так, щоб він або не потрапив туди, або пішов. Сам InternetArchive пропонує для цього дуже простий метод. Потрібно лише поставити команду для робота сервісу про те, що сайт не потрібно включати в Архів, тобто написати в robots.txt наступне:

User-agent: ia_archiver
Disallow: /

Таким чином, створення архіву всіх сайтів - це допомога для багатьох користувачів Інтернету в пошуку інформації та відновленні старих ресурсів. Саме з метою збереження інформації і був створений Archive.org, і саме тому він зберігає архіви сайтів, які існують зараз, і надає можливість використовувати даних з «мертвих» або занедбаних ресурсів.

Сподіваюся, матюкав, був корисний і ви не забудете зробити репост статті і підписатися на розсилку блогу. Всіх благ -))).

З повагою, Галіулін Руслан.

Корисні матеріали:

Додати коментар

Хочете дізнатися, як отримувати інформацію про те, що було на будь-якому сайті рік тому або місяць тому, а сьогодні вже видалено?

Статьи