Разведочный анализ данных. Визуализация.#
В отличие от инфографики, которая ближе к дизайну, чем к Data Science, визуализация данных не содержит декоративных элементов, а отражает большие объёмы информации с учетом возможных взаимосвязей.
Но в Data Science визуализация данных используется не только для наглядного представления результатов в виде понятных графиков. Это скорее метод быстрого прототипирования, когда с помощью множества визуальных представлений одних и тех же данных аналитик или Data Scientist пытается обнаружить скрытые взаимосвязи и зависимости.
Этот подход называется разведочный анализ данных (Exploratory Data Analysis, EDA).
Разведочный анализ — это предварительный анализ данных с целью выявления наиболее общих зависимостей, закономерностей и тенденций, характера и свойств анализируемых данных, законов распределения анализируемых величин. Применяется для нахождения связей между переменными в ситуациях, когда отсутствуют (или недостаточны) априорные представления о природе этих связей.
Термин «разведочный анализ» был впервые введен математиком из Принстонского университета Дж. Тьюки. Он также сформулировал основные цели данного анализа:
• Максимальное «проникновение» в данные.
• Выявление основных структур.
• Выбор наиболее важных переменных.
• Обнаружение отклонений и аномалий.
• Проверка основных гипотез (предположений).
• Разработка начальных моделей.
Результаты разведочного анализа не используются для выработки управленческих решений. Их назначение — помощь в разработке наилучшей стратегии углубленного анализа, выдвижение гипотез, уточнение особенностей применения тех или иных математических методов и моделей. Без разведочного анализа углубленный анализ данных будет производиться практически «вслепую».
Основные методы разведочного анализа данных (EDA) включают в себя:
- Визуализация данных:
Она включает графики типа гистограмм, диаграмм рассеивания, ящиковых диаграмм и многих других, которые помогают визуализировать данные и получить представление о распределении и корреляции переменных. - Сводные таблицы:
Сводные таблицы позволяют анализировать данные в виде таблицы, которая включает суммарные результаты и агрегатные статистические показатели, такие как среднее, медиана и стандартное отклонение. - Статистические методы:
Это включает анализ распределения, корреляции и регрессии, и может использоваться для выявления зависимостей и связей между переменными. - Кластерный анализ:
Кластерный анализ может использоваться для выявления группировок или кластеров данных. - Анализ выбросов:
Он используется для выявления необычных значений данных, которые могут искажать результаты анализа. - Анализ пропущенных данных:
Анализ пропущенных данных может использоваться для выявления пропущенных значений данных и принятия решений о способах их обработки. - Машинное обучение:
Методы машинного обучения могут использоваться для анализа данных и создания модели прогнозирования.
Все вышеперечисленные методы используются для анализа данных, так что можно принять решения о том, какие именно данные использовать в дальнейшем анализе, а также о том, какие методы анализа будут наиболее эффективными для достижения нужных результатов.
Процесс визуализации данных для визуального анализа имеет следующие Правила.
Правила визуализации#
Выбирая наиболее подходящий вид графика для визуализации данных, следует, прежде всего, определить цель анализа и/или представления информации, например:
- сравнить разные показатели;
- продемонстрировать распределение данных – какие значения встречаются чаще или реже других;
- показать состав и структуру;
- выявить взаимосвязи между переменными.
Правило 1. Выбор правильного типа графика#
Главная цель визуализации — упростить и ускорить восприятие информации. Выбранный формат и тип графика должны этому способствовать, а не мешать.
Например, если в круговой диаграмме больше трех-пяти значений, график становится нечитабельным. Лучше в таком случае выбрать обычную линейчатую диаграмму.
Еще пример неудачного использования круговой диаграммы, когда сумма категорий не равна 100%. Это грубейшая ошибка, так как данные просто-напросто искажаются.
Не менее важно следить, чтобы не нарушались общепринятые стандарты. Временные оси (года, месяца, кварталы) всегда должны располагаться горизонтально слева направо, это интуитивно понятно. Если же их расположить вертикально сверху вниз, это будет сильно затруднять понимание.
Помните, что неудачно выбранный тип и формат визуализации сразу снижает доверие к представленной информации.
ПРАВИЛО 2. Распологатей данные в логическом порядке#
Обязательно располагайте данные в логическом порядке. Чаще всего это последовательно от большего к меньшему.
Если вы показываете на диаграмме результаты опроса, где есть деление на положительные и отрицательные ответы, то логичнее их выстроить в таком порядке: «Да, Скорее да, Нет, Скорее нет, Затрудняюсь ответить».
Данные можно выстраивать и от меньшего к большему, если это соответствует цели вашего сообщения. Цель всегда первична. Прежде чем приступать к построению графика, четко сформулируйте, какую идею вы хотите донести до читателей, на что хотите обратить внимание.
Правило 3. Легкое сравнение данных#
Одна из главных целей визуализации – удобное и наглядное сравнение двух и более показателей.
Поэтому, чтобы ваши диаграммы были ценными и полезными, показывайте соотношение между данными. Если разбить однотипную информацию на много отдельных графиков, визуализация становится бессмысленной.
Именно быстрое понимание самых высоких и самых низких значений, тенденций и корреляций является главным преимуществом визуализации в сравнении с обычной таблицей или текстом. Диаграммы должны гораздо быстрее и яснее передавать ваши идеи. Если это не так, меняйте тип графика.
Правило 4. Не перегружайте информацией#
Уменьшение шума: визуализация данных должна учитывать наиболее важные и значимые части информации, отсеивая ненужные или неполные данные.
Убирайте с ваших графиков и диаграмм все неинформативные элементы, оставляйте только необходимые.
Загромождение ненужной информацией затрудняет восприятие.
Например, если есть подписи значений, то линии сетки и ось не нужны, так как это дублирование информации и является графическим «мусором». Основные и вспомогательные линии сетки, если они все же необходимы, должны быть простыми и не бросающимися в глаза. Акцент всегда должен быть на основной идее, а не на вспомогательных элементах. Если следовать этому совету, то нужная информация сразу выходит на первый план.
Не пытайтесь уместить на одну диаграмму всю имеющуюся у вас информацию ради того, чтобы ваш график казался умным и значительным. Визуальный ряд не должен быть перегружен сложными и многоярусными диаграммами.
Когда необходимо визуализировать много разных типов данных и категорий, целесообразнее разделять диаграмму на несколько частей. Например, если на линейном графике больше четырех-пяти линий или на столбиковой диаграмме больше двух категорий, не стоит умещать их на одном графике.
Правило 5. Используйте общепринятые цветовые решения#
Визуализация должна использовать соответствующие цветовые коды, чтобы улучшить читабельность и понимание информации, которую она демонстрирует.
Есть несколько основных категорий, которые у нас всегда ассоциируются с определенным цветом:
- Положительные и отрицательные значения: зелёный и красный;
- Да/нет, согласен/не согласен: зелёный и красный;
- Мужчины и женщины: голубой и розовый;
- Прочее/другое/остальное/нет ответа/затрудняюсь ответить — серый цвет.
Если показывать данные категории на диаграммах в ожидаемой цветовой гамме, то пользователю даже не надо смотреть на легенду, без этого ясно, какой цвет что обозначает. Не пренебрегайте этим правилом, оно очень простое и логичное, однако в интернете часто встречаются примеры его игнорирования.
Есть хороший прием использования цвета для сравнения показателей текущего года и прошедшего — делать прошедший год более бледным, а текущий более ярким. При этом оба года лучше показывать в оттенках одного цвета, потому что речь идет про один и тот же показатель.
Обзор графиков#
Ниже приведены описания различных типов графиков, используемых в визуализации данных. Каждый график представлен в отдельном разделе и описывает его назначение, особенности и применение.
Гистограмма#
Гистограмма - это широко используемый график, показывающий распределение количественных (числовых) данных.
Она показывает частоту
значений в данных, обычно в интервалах значений. Частота - это количество раз, когда значение появлялось в данных.
Каждый интервал представлен полосой, расположенной рядом с другими интервалами на числовой прямой.
Интервалы значений часто называют "ячейками". А длина интервала называется "шириной ячейки".
Мы можем выбрать любую ширину. Лучше всего, если ширина ячейки позволяет отображать достаточно деталей, не вызывая путаницы.
Диаграмма рассеяния#
Диаграмма рассеяния
представляет собой график, на котором каждая точка соответствует значениям двух переменных, отображаемых по осям X и Y.
Она используется для определения корреляционной зависимости между двумя переменными
. Диаграмма рассеяния позволяет выявить, существует ли связь между переменными, а также определить её характер:
- Прямая корреляция: при увеличении одной переменной вторая также увеличивается (точки образуют восходящий тренд).
- Обратная корреляция: при увеличении одной переменной вторая уменьшается (точки образуют нисходящий тренд).
- Отсутствие корреляции: точки распределены хаотично, без явного тренда.
Диаграмма рассеяния особенно полезна на этапе разведочного анализа данных (EDA), так как помогает визуально оценить взаимосвязи и выявить возможные аномалии или кластеры данных.
Диаграмма размаха#
Диаграмма ящик с усами (Диаграмма размаха) - хороший способ показать многие важные особенности количественных (числовых) данных.
Показывает медианное
значение данных. Это среднее значение данных и один тип среднего значения.
Он также показывает диапазон
и квартили данных
. Это кое-что говорит нам о разбросе данных.
Медиана - это красная линия
, проходящая через середину поля.
Левая часть поля - это 1-й квартиль
. Это значение, отделяющее первый квартиль или 25%
данных от остальных.
Правая часть поля - это 3-й квартиль
. Это значение, отделяющее первые три квартиля или 75%
данных от остальных.
Расстояние между сторонами поля называется межквартильным интервалом (IQR). Это говорит нам, где находится "средняя половина" значений.
Концы строк из поля слева и справа - это минимальное и максимальное значения в данных. Расстояние между ними называется диапазоном
.
Тепловая матрица#
Тепловая матрица используется для визуализации данных с помощью цветовой шкалы.
Она служит для определения степени связи между двумя переменными и может использоваться во многих областях, таких как маркетинг, финансы, наука и технологии. Также тепловая матрица может использоваться для выявления неожиданных паттернов и аномалий.
Пузырьковая диаграмма#
Пузырьковая диаграмма — это разновидность диаграммы рассеяния, где каждая точка представлена в виде пузырька, а размер пузырька соответствует значению третьей переменной. Она используется для отображения трех переменных на одном графике, где:
- Ось X представляет первую переменную.
- Ось Y представляет вторую переменную.
- Размер пузырька отражает третью переменную.
Пузырьковая диаграмма применяется для:
- Оценки корреляции и тенденций: Она позволяет визуально оценить взаимосвязь между двумя переменными (по осям X и Y) и одновременно учитывать влияние третьей переменной (размер пузырька).
- Выявления закономерностей: Например, можно определить, как связаны ВВП страны (ось X), уровень грамотности (ось Y) и население (размер пузырька).
- Анализа сложных данных: Пузырьковая диаграмма помогает представить многомерные данные в компактной и наглядной форме.
«Особенные данные» : геоданные#
Геоданные (или геопространственные данные) представляют собой информацию, связанную с географическим положением объектов, такую как координаты (широта и долгота), границы территорий, адреса или другие пространственные характеристики. Визуализация геоданных позволяет отображать данные на картах, что делает их особенно полезными для анализа пространственных закономерностей, тенденций и зависимостей.
Методы визуализации геоданных:
- Точечные карты: Используются для отображения отдельных объектов или событий, заданных координатами (например, местоположение магазинов или происшествий). Каждая точка может быть дополнена цветом, размером или формой для отображения дополнительных характеристик (аналогично пузырьковой диаграмме).
- Тепловые карты (Heatmaps): Показывают плотность или интенсивность данных в определённых географических областях с помощью цветовой шкалы. Например, тепловая карта может показать концентрацию населения или уровень преступности в разных районах города.
- Хороплет-карты: Области на карте (например, страны, регионы, города) закрашиваются цветами, интенсивность которых отражает значение определённой переменной (например, уровень дохода или процент голосов на выборах).
- Карты с линиями (потоковые карты): Используются для отображения перемещений или связей между географическими точками, например, маршрутов транспорта или миграционных потоков.
- 3D-карты: Применяются для визуализации данных с учётом высоты или другого третьего измерения, например, высоты зданий или топографии местности.
Фоновая картограмма#
Фоновая картограмма, карта хороплет или choropleth map— часто используемый вид отображения данных, при котором регионы с разными данными окрашены разными цветами. Подвох заключается в том, что карта создает ложное впечатление резких изменений на границах районов. Авторы часто берут за основу административные границы и не учитывают изменения численности населения, из-за чего крупные по площади регионы кажутся важнее. При неудачном выборе палитр самые «проблемные» регионы могут бросаться в глаза, в то время как оставшаяся часть данных
Например, на этой карте продемонстрированы абсолютные значения количества смертей от болезней сердца в США. Внимание сразу привлекают три штата (слева направо): Калифорния, Техас и Флорида. Данные об оставшихся 47 штатах «потеряны». Чтобы показать данные более равномерно, предлагается заменить абсолютные значения на относительные (количество на 10 тыс. чел). Получаем следующую картину:
Тепловые карты#
Тепловые карты — отличный способ отображения плотности данных. Целью карты является отображение общих тенденций, а не конкретных данных в отдельных точках.
На этой карте показаны землетрясения, происходившие в Японии с 1802 года по настоящее время. Точки окрашены в зависимости от интенсивности землетрясения по шкале Рихтера. Они накладываются друг на друга, не позволяя обнаружить какие-либо закономерности.
Линии и изолинии#
Изолиниями соединяют точки с одинаковым значением. Например, на карте ниже изолиниями соединены регионы, в которых одинаковое количество дней шел дождь.
Пространство между изолиниями заполнено цветом, наглядно показывая области с непрерывным распределением (Источник: Australian Government / Bureau of Meteorology).
Роль визуальных акцентов в визуализации данных#
Часть информации опознается человеком на уровне бессознательного, подпорогового восприятия – когда действие раздражителя на органы чувств возникло, а порог восприятия, сознательного опознания еще не пройден.
При визуализации данных важны акценты в виде направления, формы
, размера
, длины
и ширины линии
, цвета
или насыщенности
, чтобы информация, которая имеет наибольшую значимость или релевантность (наиболее заметный стимул), отобралась для дальнейшего и более полного анализа путем сознательной обработки.
При помощи таких акцентов можно визуализировать ключевую информацию и помочь пользователю интерпретировать ее без усилий.
Пример: На гистограмме использование разной длины столбцов автоматически направляет внимание на город с большим объемом продаж. Этот эффект еще больше усиливается за счет применения цвета. Именно на результатах продаж в этом городе можно сосредоточиться, изучая факторы повышения эффективности.
Разные визуальные акценты позволяют анализировать информацию с разной точностью:
- Стандартная гистограмма, где столбцы расположены на одной шкале, позволяет оценивать конкретные значения и делать более точные выводы.
- Пузырьковая диаграмма с пузырьками разного размера или цвета дает лишь общее представление о разнице показателей.
Выбор цветовой палитры#
Цветовая палитра играет ключевую роль в визуализации данных, так как она влияет на восприятие и интерпретацию информации. Выбор палитры зависит от типа данных и целей визуализации. Существует три основных типа цветовых палитр: категориальная (качественная), последовательная и расходящаяся.
Категориальная (качественная) палитра#
Категориальная палитра состоит из разных цветов, которые не имеют упорядоченного или градиентного значения, но обладают близкой яркостью и насыщенностью.
- Назначение: Используется для представления дискретных категорий или классов данных без внутреннего порядка или значений между категориями.
- Применение: Подходит для отображения данных, таких как группы товаров, типы событий, категории пользователей и т.д.
- Особенности: Цвета должны быть достаточно контрастными, чтобы категории легко различались, но при этом гармоничными, чтобы не создавать визуального диссонанса.
- Пример: На диаграмме, показывающей количество продаж по категориям товаров (одежда, электроника, продукты), каждая категория может быть обозначена своим цветом (например, синий, зеленый, оранжевый).
Последовательная палитра#
Последовательная палитра представляет собой градиент одного цвета с разной насыщенностью или яркостью.
- Назначение: Используется для данных с упорядоченной структурой, где есть явная прогрессия или различные уровни значений.
- Применение: Идеально подходит для отображения данных с явным распределением от низких к высоким значениям, например, температурных карт, рейтингов, показателей продаж.
- Особенности: Цвета изменяются плавно, чтобы подчеркнуть постепенное изменение значений. Обычно используются оттенки одного цвета (например, от светло-синего к темно-синему) или монохромная гамма.
- Пример: На тепловой карте, показывающей плотность населения, светлые оттенки могут обозначать низкую плотность, а темные — высокую.
Расходящаяся палитра#
Расходящаяся палитра представляет собой комбинацию двух последовательных палитр с разрывом, где цвета расходятся в разные направления от определенной средней точки.
- Назначение: Подходит для визуализации данных с явным различием между низкими и высокими значениями, где центральное значение играет важную роль.
- Применение: Используется для отображения данных, таких как средняя температура, статистика доходов или другие показатели, где среднее значение является точкой отсчета.
- Особенности: Обычно включает два контрастных цвета (например, синий для низких значений и красный для высоких) с нейтральным цветом (например, белый или серый) в центре.
- Пример: На карте, показывающей отклонение температуры от среднего значения, синий цвет может обозначать значения ниже среднего, красный — выше среднего, а белый — значения, близкие к среднему.
Дополнительные рекомендации:
- Выбор цветовой палитры также зависит от контекста визуализации и эстетических предпочтений. Например, для корпоративных отчетов можно использовать цвета, соответствующие фирменному стилю.
- Важно учитывать доступность: палитры должны быть читаемыми для людей с нарушениями цветового восприятия (например, дальтонизмом). Для этого можно использовать инструменты, такие как ColorBrewer или палитры, протестированные на доступность.
- Следует избегать избыточного количества цветов в категориальной палитре (обычно не более 6–8 категорий), чтобы не перегружать восприятие.