Як за допомогою оптимізації індексації сайту поліпшити ранжування?

зміст
Роботи: погані і хороші
Поняття вмісту краулінга
Чому цей показник має значення?
Як визначити вміст краулінга
Як визначається вміст краулінга
How-to: оптимізація роботи з роботами
1. Переконайтеся, що важливі сторінки скануються, а зміст, який не має значення, заблоковано для пошуку.
2. Уникайте довгих ланцюжків редиректів
3. Керуйте параметрами URL
4. Знайдіть і виправте биті посилання
5. Використовуйте RSS
6. Тримайте карту сайту чистої і оновленої
7. Подбайте про вашу структурі сайту і внутрішніх посиланнях

Оптимізація роботи з пошуковими роботами є одним з факторів SEO, якій, здається, не приділяється достатньої уваги. Багато хто з нас чули про це, але ми схильні приймати це як таємниче поняття, припускаючи, що є певна квота, над якою ми не маємо ніякого впливу. Або маємо? У будь-якому випадку, якщо є то, що ми можемо і повинні оптимізувати для успіху SEO, це потрібно робити.

У цьому керівництві через основні пов'язані поняття краулінга ми розглянемо, як пошукові системи призначають обхід веб-сайтів, а також сформуємо поради, які допоможуть вам якнайкраще організувати рух пошукових роботів на своєму сайті.

зміст

Роботи: погані і хороші
Поняття вмісту краулінга
How-to: оптимізація роботи з роботами

Роботи: погані і хороші

Веб-павуки або роботи - це комп'ютерні програми, які безперервно «відвідують» і «повзають» по веб-сторінкам, щоб зібрати певну інформацію про них.

Залежно від мети відвідування можна виділити наступні види павуків:

Пошукові роботи,
Роботи веб-сервісів,
Хакерські роботи.

Павуки пошукової машини управляються за допомогою пошукових систем, таких як Google, Яндекс, Yahoo або Bing. Такі павуки скачують будь-яку веб-сторінку, яку вони можуть знайти, і посилають її в індекс пошукової системи.

Багато веб-сервіси, наприклад SEO інструменти, сервіси покупок, подорожей і купання сайти мають власних павуків. Наприклад, WebMeUp має павука під назвою Blexbot. Blexbot обходить до 15 мільярдів сторінок щодня, щоб зібрати дані про зворотні посилання і послати ці дані в свій індекс.

Хакери теж розводити павуків. Вони використовують павуків для тестування веб-сайтів від різних вразливостей. Після того, як вони знаходять лазівки, вони можуть спробувати отримати доступ до вашого веб-сайт або сервера.

Ви могли чути, як люди кажуть про хороших і поганих павуків. Будь-які павуки, які спрямовані на збір інформації з незаконними цілями, є поганими. Всі інші хороші.

Більшість павуків ідентифікують себе з допомогою рядка агента користувача (User-agent) і надають URL, де ви можете дізнатися більше про павука, наприклад:

Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html)
Mozilla / 5.0 (compatible; BLEXBot / 1.0; + http: //webmeup-crawler.com/)

У цій статті ми зосередимося на пошукових роботах, і як вони обходять веб-сайти.

Поняття вмісту краулінга

Вміст краулінга - це кількість разів, яке павук пошукової системи потрапляє на ваш сайт протягом певного періоду часу. Наприклад, якщо Googlebot зазвичай заходить на сайт близько 1000 разів на місяць, то можна сказати, що 1K - це щомісячне вміст обходу контенту для Google. Майте на увазі, що не існує універсального обмеження за кількістю і частотою цих обходів.

Чому цей показник має значення?

Цілком логічно, що ви повинні відслідковувати вміст краулінга, так як хочете, щоб Google виявив якомога більше важливих сторінок вашого сайту. Ви також хочете, щоб він знаходив новий вміст на вашому сайті швидко. Чим більше цей показник для вашого сайту (і ваше розумніші управління ним), тим швидше це станеться.

Відомо, що сторінки, які були недавно проіндексовані, як правило, отримують більше видимості в результатах пошуку. Іншими словами, якщо сторінка не була відсканована вчасно, вона не буде добре ранжируватися.

Як визначити вміст краулінга

Ці дані ви можете отримати з Google Search Console і інструментів Яндекс і Bing для веб-майстрів. Сканування даних, представлене в цих інструментах, є дуже загальним, але достатнім для цього кроку.

Розглянемо на прикладі Google. Увійдіть до свого облікового запису Search Console і виберіть Сканірованіе-> Статистика сканування. Тут ви побачите середня кількість просканованих сторінок вашого сайту роботом Google в день.

Тут ви побачите середня кількість просканованих сторінок вашого сайту роботом Google в день

З скриншота вище, ви можете бачити, що в середньому Google сканує 174 сторінок цього сайту в день. З цього можна зрозуміти, що щомісячне вміст обходу контенту становить 174 * 30 = 5220.

Звичайно, це число схильна до змін і коливань. Але це дасть вам чітке уявлення про те, скільки разів ваш сайт очікувано обійде робот в певний період часу.

Якщо вам потрібна більш детальна розбивка вашої статистики сканування по окремих сторінках, ви повинні проаналізувати «сліди павуків» в логах сервера. Розташування файлів логів залежить від конфігурації сервера. Apache зазвичай зберігає їх в одному з цих місцях:

/ var / log / httpd / access_log

/var/log/apache2/access.log

/var/log/httpd-access.log

Якщо ви не знаєте, як отримати доступ до логів сервера, зверніться за допомогою до системного адміністратора або хостинг-провайдеру.

Сирі файли журналів важко читати і аналізувати. Щоб розібратися в них, ви повинні мати рівень джедая регулярних виразів і мати спеціальні навички.

Як визначається вміст краулінга

Ми не знаємо, як пошукові системи формують розмір краулінга для сайтів. Метт Каттс сказав наступне з цього питання:

"Кількість сторінок, які ми скануємо, приблизно пропорційно вашому PageRank".

Хоча PageRank більше публічно не оновлюється, можна як і раніше з упевненістю припустити, що кількість сторінок для обходу контенту сайту в значній мірі пропорційно числу зворотних посилань і важливості сайту в очах Google, - логічно, що Google прагне зберігати найбільш важливі та найсвіжіші сторінки в своєму індексі.

Є й протилежна теорія про обхід контенту павуками, яка обертається навколо так званого CrawlRank. Передбачається, що вміст обходу контенту сайту є більш-менш постійним в короткі проміжки часу з фіксованою глибиною сканування. Це означає, що за рахунок внутрішніх посилань сайту ви можете контролювати, як павуки пошукових систем сканують деякі з ваших сторінок, щоб надалі поліпшити ранжування цих сторінок.

Не можна недооцінюю важливість внутрішніх посилань, але все ж пошукові системи сканують деякі сторінки частіше, тому що вони вважають ці сторінки більш важливими - а не навпаки.

Чи означає це, що єдиний спосіб збільшити свій число обходу контенту, це ставити посилання? Якщо ми говоримо про все сайті, то так: нарощуйте кількість посилань і число обходів сканування вашого сайту буде рости пропорційно. Але якщо взяти окремі сторінки, ось де починається найцікавіше. Як ви дізнаєтеся нижче, ви можете витрачати багато ваших обходів сторінок, навіть не усвідомлюючи цього. При управлінні вмістом розумним способом, ви часто можете подвоїти кількість сканувань для окремих сторінок - але вона як і раніше буде пропорційна кількості зворотних посилань для кожної сторінки.

Більше обходів = краще ранжування, пам'ятаєте?

How-to: оптимізація роботи з роботами

Тепер, коли ми з'ясували, що повзання павуків важливо для індексації і ранжування, настав час, щоб зосередитися на самих кращих способах управління обходом контенту для SEO.

Є чимало речей, які ви повинні (або не повинні) робити, щоб пошукові павуки споживали якомога більше сторінок вашого сайту і робили це частіше. Нижче наведено список дій для забезпечення максимальної потужності вашого вмісту краулінга:

1. Переконайтеся, що важливі сторінки скануються, а зміст, який не має значення, заблоковано для пошуку.

Ваш .htaccess і robots.txt не повинні блокувати важливі сторінки сайту, також боти повинні бути в змозі отримати доступ до CSS і Javascript файлів. У той же час, ви можете і повинні блокувати контент, який ви не хочете щоб показувався в результатах пошуку. Кращими кандидатами для блокування є сторінки з дубльованим вмістом, динамічно генеруються URL, службове вміст сайту і так далі.

Майте на увазі, що павуки пошукових машин не завжди дотримуються інструкції, що містяться в файлі robots.txt. Ви коли-небудь бачили фрагмент коду, як цей в Google?

Ви коли-небудь бачили фрагмент коду, як цей в Google

Хоча ця сторінка заблокована в robots.txt, Google знає про це. Він не кешируєт її, а створює стандартний фрагмент коду. Ось що говорить Google з цього питання:

У Robots.txt правило Disallow не гарантує, що стаття не буде з'являтися в результатах пошуку: Google все ще може прийняти рішення, грунтуючись на зовнішньої інформації, такої як вхідні посилання, що вона має значення. Якщо ви хочете явно заблокувати сторінку від індексації, замість цієї інструкції ви повинні використовувати мета-тег NoIndex або заголовок HTTP X-Robots-Tag. В цьому випадку ви не повинні забороняти сторінку в robots.txt, тому що сторінка повинна скануватися для того, щоб робот зміг побачити тег.

Крім того, якщо ви забороните до індексації великі ділянки вашого сайту шляхом блокування папки за допомогою групових інструкції, Googlebot можна вважати, що ви зробили це помилково, і до сих пір сканує кілька сторінок із зони обмеженого доступу.

Так що, якщо ви намагаєтеся зберегти своє вміст обходу контенту і блокувати окремі сторінки, які ви не вважаєте важливими, використовуйте robots.txt. Але якщо ви не хочете, щоб Google дізнався про сторінку - використовуйте мета-теги.

2. Уникайте довгих ланцюжків редиректів

Якщо є необґрунтовано велику кількість 301 і 302 редиректів поспіль на вашому сайті, пошукові павуки в якийсь момент перестануть дотримуватися переадресації, і сторінка абонент не буде проіндексована. Більш того, кожна перенаправлення URL - це марна трата "одиниці" вашого вмісту краулінга. Переконайтеся, що ви використовуєте перенаправляє не більше ніж два рази поспіль, і тільки тоді, коли це абсолютно необхідно.

3. Керуйте параметрами URL

Популярні системи управління контентом породжують безліч динамічних URL-адрес, які фактично призводять до однієї і тієї ж сторінці. За замовчуванням, пошуковий бот буде розглядати ці URL-адреси у вигляді окремих сторінок. В результаті ви можете витрачати свій вміст краулінга контенту і, можливо, виникнуть проблеми дублювання.

Якщо движок вашого сайту або CMS додає параметри до URL-адресами, які не впливають на зміст сторінок, переконайтеся, що ви даєте роботу Googlebot знати про це, додавши ці параметри вашого облікового запису Google Search Console, задавши їх в Сканірованіе-> Параметри URL.

4. Знайдіть і виправте биті посилання

Ви не хочете витрачати свій вміст краулінга на обхід 404 сторінок, чи не так? Знайдіть хвилинку, щоб перевірити ваш сайт на наявність битих посилань і виправити ті, які ви можете.

5. Використовуйте RSS

RSS-канали є одними з головних відвідуваних сторінок павуками Google. Якщо який-небудь розділ на вашому сайті часто оновлюється (блог, сторінка представлення продукції, новий розділ), переконайтеся, щоб створений RSS-канал для нього і він доступний Google роботу. Не забудьте зберегти RSS-канали вільним від неканонічних адрес, сторінок, закритих від індексації або 404 сторінок.

6. Тримайте карту сайту чистої і оновленої

XML карти сайту важливі для правильного обходу павуками. Вони кажуть пошуковим машинам про організацію вашого контенту і дають пошуковим роботам виявити новий контент швидше. Ваш XML Sitemap повинен регулярно оновлюватися і бути вільними від сміття (4xx сторінок, неканонічні сторінок, URL, які перенаправляють на інші сторінки і сторінок, які блокуються від індексації).

Якщо у вас великий веб-сайт, який має багато підрозділів, корисно створити окремий файл Sitemap для кожного підрозділу. Це дозволить зробити управління вашою карткою сайту простіше і дозволяють швидко виявити ділянки веб-сайту, де виникають проблеми з індексацією. Наприклад, ви можете мати окремий файл sitemap для дошки оголошень, інший для блогу, а ще один файл Sitemap, щоб покрити основні сторінки сайту. Для сайтів електронної комерції розумно створювати окремі карти сайту для великих товарних категорій.

Переконайтеся, що всі карти сайту є доступними павукам. Ви можете включати всі посилання на Sitemaps в robots.txt і зареєструвати їх в Google Search Console.

7. Подбайте про вашу структурі сайту і внутрішніх посиланнях

Хоча внутрішні посилання не мають прямої кореляції з вашим вмістом краулінга, структура сайту і раніше є важливим фактором у прийнятті вашого змісту пошуковими роботами. Логічна деревоподібна структура сайту має багато переваг - наприклад, призначений для користувача фактор і кількість часу, яке ваші відвідувачі будуть витрачати на вашому сайті - і поліпшення індексації, безумовно, один з них.

В цілому, зберігати важливі області вашого сайту не далі, ніж в 3 кліка доступності з будь-якої сторінки - це хороший рада. Увімкніть найбільш важливі сторінки і категорії в меню сайту. Для більших сайтів, таких як блоги і сайти електронної комерції, секції зі зв'язаними повідомленнями / продуктами можуть бути великим плюсом як для користувачів, так і для пошукових роботів.

Як ви можете бачити, SEO - це не все "цінність контенту" і "авторитетність посилань". Коли зовнішній вигляд вашого сайту виглядає відполірованим, у вас може бути час, щоб спуститися глибше і влаштувати полювання на павука - це обов'язково створить чудеса в поліпшенні продуктивності вашого сайту і в результатах пошуку.

Оригінал статті - link-assistant.com

повернутися

Або маємо?
Чому цей показник має значення?
Чи означає це, що єдиний спосіб збільшити свій число обходу контенту, це ставити посилання?
Більше обходів = краще ранжування, пам'ятаєте?
Ви коли-небудь бачили фрагмент коду, як цей в Google?

Статьи