Урок 10. Продвинутый Power Query — Создание частотного словаря
Десятый урок из курса Максима Уварова «Power Bi для интернет-маркетинга» — Программирование Power Query — Создание частотного словаря
Рабочие файлы:
- ЧастотныйСловарь.pbix
- searchQueriesPrintio.csv
- Робот распознаватель принтио.xlsx
- Принтио-Поисковые-фразы.csv
Полезные ссылки к уроку:
- Пост Дмитрия Тумайкина в фэйсбуке 5 января 2017 года про робота-распознавателя, использующегося в уроке.
- Инструкция от Дмитрия Тумайкина на ютубе
- Робот-распознаватель 8.6
- Утилиты Excel и PowerBI для контекстной рекламы от Дмитрия Тумайкина
Видеолекции
Составление частотного словаря
Лемматизатор DAX
Лемматизатор M (опциональное видео для ценителей)
Домашнее задание
- Скачайте файл со статистикой по поисковым запросам, на которые сработали объявления Яндекс.Директ рекламодателя Printio.ru
Файл: Printio.ru-Поисковые-фразы.csv - Поисковые фразы лемматизируйте удобным вам способом из предложенных на выбор:
- Создайте таблицу «частотный словарь», так, чтобы в ней был столбец «лемма поисковой фразы» и столбец с леммами слов, входящих в поисковую фразу. Для этого разбейте леммы поисковых фраз на леммы слов входящих в поисковые фразы, при помощи функции Text.Split.
На каждую лемму слова должна приходиться отдельная строчка. В столбце «лемма поисковой фразы» — элементы должны дублироваться (в этом столбце «лемма поисковой фразы» должна встречаться столько раз сколько в ней слов).
Возможна проблема с Text.Split Проблема с text split.mp4
- К каждой лемме слова подсчитайте метрики:
- количество визитов
- показатель отказов
- глубина просмотра
- В BI-системе подсчитайте и выведите в качестве визуализации, насколько меньше анализируемых поисковых фраз у нас становится, когда мы применяем лемматизацию.
Чтобы рассчитать этот показатель нужно от количества уникальных поисковых фраз отнять количество уникальных лемм поисковых фраз. Уникальные леммы поисковых фраз (могут содержать больше одного слова), должны быть отсортированы по алфавиту.
- На основе данных из таблицы «Частотный словарь» визуализируйте на точечных диаграммах зависимость между средней глубиной просмотра и средним показателем отказов по каждой лемме слова. В диаграмме должны быть леммы слов, по которым было совершено более 10 визитов.
Эталонное выполнение домашнего задания
Максим Уваров выполняет домашнее задание к десятому уроку