Безопасные взаимосвязи: ищем зависимости данных

Редактор таблиц
Функции КОРЕЛЛ и КОВАР

В нашем блоге уже становится традицией в середине января писать про статистические функции редактора электронных таблиц. Сегодня поговорим по ситуацию, когда у вас есть два набора случайных данных и вы хотите понять, есть ли между ними связь, а если есть, то прямая она или обратная. Вероятно, вы сразу подумали о корреляции. Да. Но мы также напомним о ковариации.

Неслучайные связи: ковариация и корреляция

Откуда могут появиться наборы случайных данных. Конечно, из практики. Это статистика продаж, финансовая информация, результаты экспериментов и многое другое. Если нужно понять, есть ли зависимость между температурой за окном и спросом на варежки, нам помогают специальные функции. Они ничего не объясняют, они ни в коем случае не устанавливают причинно-следственную связь. Они лишь свидетельствуют, что какая-то связь есть. Более того, в интернете можно найти примеры ложных зависимостей между массивами данных, которые точно не связаны между собой напрямую, вроде объемов потребления маргарина и частотой разводов. Корректнее сравнение уровня образования и доходов, средней температуры в помещении и использованием кондиционера. Функции выдают нам результаты, которые показывают направление для углубленного изучения.

Про одну вы точно слышали – это корреляция. Показатель от -1 до 1, который говорит нам о наличии линейной зависимости между двумя наборами данных. Если корреляция равна нулю, то изменение одной переменной никак не соотносится с изменением другой переменной. Если она растет к единице, то изменение одного значения ведет аналогичное прямое изменение второго значения. Отрицательная величина говорит о том, что зависимость обратна: одно значение растет, другое снижается.

Ковариация отличается тем, что показывает нам только направление изменений (прямое или обратное). То есть важен только знак (положительный или отрицательный), а не числовое значение. Иногда этого знания достаточно, например, в сфере инвестиций или ценообразования.

Один синтаксис на всех

Мы уже писали, что формулы большинства статистических функций выглядят одинаково: в скобках указываются два массива, два набора данных, которые сравниваются между собой. Судите сами:

  • =КОРРЕЛ(массив1;массив2)
  • =КОВАР(массив1;массив2)
  • =КОВАРИАЦИЯ.Г(массив1;массив2)
  • =КОВАРИАЦИЯ.В(массив1;массив2)

Во всех случаях оба аргумента обязательны. Если размеры диапазонов различаются, функция выдаст ошибку. При этом текст, логические значения или пустые ячейки игнорируются. Нулевые значения учитываются.

В приведенном списке для корреляции приведена одна формула, а для ковариации сразу три – здесь нет ничего сложного, давайте разбираться на примерах.

Безопасные взаимосвязи: ищем зависимости данных

Функция КОРРЕЛ

Корреляция – это лишь понятие. Строго говоря, функция КОРРЕЛ выдает нам коэффициент корреляции, именно он выражен числовым значением, которое может быть нулевым (слабая корреляция), положительным (при увеличении одной переменной увеличивается другая) или отрицательным (при уменьшении одной переменной снижается вторая). Можно сказать, что ковариация максимально близка к случайным величинам, а корреляция – это ковариация стандартизированных переменных.

Безопасные взаимосвязи: ищем зависимости данных

На снимке экрана выше приведены результаты функции для тестового набора данных с почти нулевой корреляцией (сумма-количество), а на снимке ниже корреляция сильная.

Безопасные взаимосвязи: ищем зависимости данных

Функция КОВАР

Когда-то в старых редакторах электронных таблиц существовала только функция КОВАР, которая со временем была заменена двумя:

  • КОВАРИАЦИЯ.Г (то же самое, что КОВАР) – для генеральной совокупности, то есть всех имеющихся данных.
  • КОВАРИАЦИЯ.В – для выборки, то есть части генеральной совокупности. Кстати, поскольку нам нужны не все данные диапазона, то их вполне можно ввести в виде массива, например, КОВАРИАЦИЯ.В({1;2;3};{100;200;300}).

Функция КОВАР до сих пор сохраняется, чтобы обеспечить поддержку более ранних файлов, но лучше использовать новые варианты.

Ниже на снимке экрана приведены четыре варианта – старая функция КОВАР, новые КОВАРИАЦИЯ.Г и КОВАРИАЦИЯ.В. Последняя в двух версиях: в первой набор данных задан диапазоном (строки 2-20), во втором – массивом ({553756; 7938; 71246; 4350; 18740; 4040; 46096; 25986; 16632; 18590};{70; 50; 34; 28; 54; 32; 14; 15; 61; 36}).

Безопасные взаимосвязи: ищем зависимости данных

Справочно также укажем, что с точки зрения математики за словом ковариация скрывается среднее произведений отклонений для каждой пары в двух наборах данных.


Если вас интересует другие статистические функции редактора электронных таблиц, ознакомьтесь с похожими публикациями:

Вдогонку укажем, что минимальные статистические функции есть даже в таблицах в текстовом документе.


Если вы хотите получить больше информации, то можете воспользоваться рубрикатором и поиском, которые расположены справа от этого текста, посмотреть популярные и похожие статьи. Помимо этого, у нас на сайте есть база знаний в карточках, а еще много увлекательного контента в VK и в Telegram. Там же есть возможность написать нам, поделиться своим опытом и задать вопросы. А еще вы можете задавать свои вопросы нашему боту Лёлику и сразу получать ответы. Попробуйте сами!

Оцените статью
Блог Р7-Офис
Добавить комментарий