У Google Analytics регулярні вирази в основному використовуються при створенні фільтрів профілів, розширених сегментів і фільтрів таблиць. Як відомо в Google Analytics використовується часткова реалізація бібліотеки PCRE (Perl Compatible Regular Expressions). Інша назва - аналізатор PCRE. На жаль, точний набір можливостей PCRE в Google Analytics ніде не документований.
При використанні регулярних виразів важливо розуміти, що символи бувають двох видів - літерали і метасимволу. Більшість символів вважаються літералами. Наприклад, якщо потрібно порівняти URL з рядком seowind, то потрібно просто ввести символи s, e, o і т.д. Метасимволи представляють собою виключення і мають спеціальне значення і різну інтерпретацію. Я зібрав найбільш поширені метасимволу в таблицю 1.
Метасимвол Опис. Відповідає будь-якому одному символу * відповідає нулю або більше попередніх елементів [] відповідає одному символу з містяться в квадратних дужках. Називається класом [^] Відповідає одному символу з які не містяться в квадратних дужках. Називається класом ^ Відповідає початку рядка $ Відповідає кінця рядка? Відповідає нулю або одному попередньому елементу + відповідає одному або більше попереднього елемента | Операція АБО. Відповідає або виразу до операції, або висловом після неї \ Символ літералізаціі. Дозволяє використовувати для зіставлення будь метасимвол як буквальний () групуються символи в подстроки
Приклади регулярних виразів
Можна створювати прості регулярні вирази, користуюся тільки літералами. Але найкраще використовувати поєднання литералов з метасимвол - це дає великі можливості.
Розглянемо приклад, коли ми хочемо подивитися всіх рефералів з веб-сайту www.google.com. За допомогою регулярного виразу можна задати часткове ключове слово goog в фільтрі таблиці звіту: Джерела трафіку -> Джерела -> Весь трафік. Це слово відповідає всім елементам, що містить підрядок goog (рисунок 1).
Малюнок 1. Фільтр таблиці з частковим відповідністю
Але якщо ми хочемо виділити унікальний зразок, який містить потрібний рядок можна використовувати регулярний вираз за допомогою метасимвола | (АБО):
google \. (ru | com \ .ua | by)
Тут задано відповідність з літералом google, за яким слідує крапка (її необхідно літералізовать, тому що це метасимвол), за якою слідує ru АБО com.ua АБО by.
Так як в вираженні використовуються метасимволу, то його необхідно ввести в поле «пошук відповідного регулярного виразу в розширеному фільтрі (малюнок 2).
Малюнок 2. Розширений фільтр - введення регулярного виразу в Google Analytics
Отримуємо наступну картинку - малюнок 3:
Малюнок 3. Фільтр таблиці з метасимволом АБО
На малюнку 3 ми бачимо, що в звіті присутні також і піддомени Google (рядки 3, 5, 6, 7). Припустимо, що їх треба виключити. Тоді регулярний вираз зміниться на наступне:
^ google \. (ru | com \ .ua | by)
Цьому висловом відповідають тільки реферали, які починаються з підрядка google.
Наступний приклад: ми хочемо вивести в звіті зміст сайт -> всі сторінки - список сторінок у яких в URL є наприклад параметр «status = sent». Регулярний вираз для такого випадку буде наступним:
\? (status) = sent
А результат відпрацювання даного регулярного виразу можна побачити на малюнку 4
Малюнок 4. сторінки з параметром status = sent в url
Поради щодо побудови регулярних виразів
- Робіть регулярні вирази в Google Analytics якомога простішими.
- Постарайтеся не застосовувати метасимвол *, так як він відповідає чого завгодно. Наприклад, якщо треба виявити відповідність будь-який з наступних рядків: index.html, index.htm, index.php, index.aspx, index.py, index.cgi то краще використовувати регулярний вираз index \. (H | p | a | c ) +. + ніж index. *
- При першій-ліпшій можливості гуртуйте зразки, наприклад, якщо потрібно виявити розширення файлу .pdf, .doc або .ppt, то використовуйте \. (Pdf | doc | ppt), а не \ .pdf | \ .doc | \ .ppt
- Не забувайте літералізовать точки в іменах файлів і дужки в тексті.