Отрицательная зависимость в коррекционном анализе. Значение коэффициента корреляции. Человек в поисках причинно-следственной связи

06.06.2018 17 887 0 Игорь

Психология и общество

Все в мире взаимосвязано. Каждый человек на уровне интуиции пытается найти взаимосвязи между явлениями, чтобы иметь возможность влиять на них и управлять ними. Понятие, которое отражает эту взаимосвязь, называется корреляцией. Что она означает простыми словами?

Содержание:

Понятие корреляции

Корреляция (от латинского «correlatio» – соотношение, взаимосвязь) – математический термин, который означает меру статистической вероятностной зависимости между случайными величинами (переменными).



Пример: возьмем два вида взаимосвязи:

  1. Первый – ручка в руке человека. В какую сторону движется рука, в такую сторону и ручка. Если рука находится в состоянии покоя, то и ручка не будет писать. Если человек чуть сильнее надавит на нее, то след на бумаге будет насыщеннее. Такой вид взаимосвязи отражает жесткую зависимость и не является корреляционным. Это взаимосвязь – функциональная.
  2. Второй вид – зависимость между уровнем образования человека и прочтением литературы. Заранее неизвестно, кто из людей больше читает: с высшим образованием или без него. Эта связь – случайная или стохастическая, ее изучает статистическая наука, которая занимается исключительно массовыми явлениями. Если статистический расчет позволит доказать корреляционную связь между уровнем образованности и прочтением литературы, то это даст возможность делать какие-либо прогнозы, предсказывать вероятностное наступление событий. В этом примере с большой долей вероятности можно утверждать, что больше читают книги люди с высшим образованием, те, кто более образован. Но поскольку связь между данными параметрами не функциональная, то мы можем и ошибиться. Всегда можно рассчитать вероятность такой ошибки, которая будет однозначно невелика и называется уровнем статистической значимости (p).

Примерами взаимосвязи между природными явлениями являются: цепочка питания в природе, организм человека, который состоит из систем органов, взаимосвязанных между собой и функционирующих как единое целое.

Каждый день мы сталкиваемся с корреляционной зависимостью в повседневной жизни: между погодой и хорошим настроением, правильной формулировкой целей и их достижением, положительным настроем и везением, ощущением счастья и финансовым благополучием. Но мы ищем связи, опираясь не на математические расчеты, а на мифы, интуицию, суеверия, досужие домыслы. Эти явления очень сложно перевести на математический язык, выразить в цифрах, измерить. Другое дело, когда мы анализируем явления, которые можно просчитать, представить в виде цифр. В таком случае мы можем определить корреляцию с помощью коэффициента корреляции (r), отражающего силу, степень, тесноту и направление корреляционной связи между случайными переменными.

Сильная корреляция между случайными величинами – свидетельство наличия некоторой статистической связи конкретно между этими явлениями, но эта связь не может переноситься на эти же явления, но для другой ситуации. Часто исследователи, получив в расчетах значительную корреляцию между двумя переменными, основываясь на простоте корреляционного анализа, делают ложные интуитивные предположения о существовании причинно-следственных взаимосвязей между признаками, забывая о том, что коэффициент корреляции носит вероятностный характер.

Пример: количество травмированных во время гололеда и число ДТП среди автотранспорта. Эти величины будут коррелировать между собой, хотя они абсолютно не взаимосвязаны между собой, а имеют только связь с общей причиной этих случайных событий – гололедицей. Если же анализ не выявил корреляционной взаимосвязи между явлениями, это еще не является свидетельством отсутствия зависимости между ними, которая может быть сложной нелинейной, не выявляющейся с помощью корреляционных расчетов.




Первым, кто ввел в научный оборот понятие корреляции, был французский палеонтолог Жорж Кювье . Он в XVIII веке вывел закон корреляции частей и органов живых организмов, благодаря которому появилась возможность восстанавливать по найденным частям тела (останкам) облик всего ископаемого существа, животного. В статистике термин корреляции впервые применил в 1886 году английский ученый Френсис Гальтон . Но он не смог вывести точную формулу для расчета коэффициента корреляции, но это сделал его студент – известнейший математик и биолог Карл Пирсон.

Виды корреляции

По значимости – высокозначимая, значимая и незначимая.

Виды

чему равен r

Высокозначимая

r соответствует уровню статистической значимости p<=0,01

Значимая

r соответствует p<=0,05

Незначимая

r не достигает p>0,1

Отрицательная (уменьшение значения одной переменной ведет к росту уровня другой: чем больше у человека фобий, тем меньше вероятность занять руководящую должность) и положительная (если рост одной величины влечет за собой увеличение уровня другой: чем больше нервничаешь, тем больше вероятность заболеть). Если связи между переменными нет, то тогда такая корреляция называется нулевой.

Линейная (когда одна величина возрастает или убывает, вторая тоже увеличивается или уменьшается) и нелинейная (когда при изменении одной величины характер изменения второй невозможно описать с помощью линейной зависимости, тогда применяются другие математические законы – полиномиальной, гиперболической зависимости).

По силе .

Коэффициенты




В зависимости от того, к какой шкале относятся исследуемые переменные, рассчитываются разные виды коэффициентов корреляции:

  1. Коэффициент корреляции Пирсона, коэффициент парной линейной корреляции или корреляция моментов произведений рассчитывается для переменных с интервальной и количественной шкалой измерения.
  2. Коэффициент ранговой корреляции Спирмена или Кендалла – когда хотя бы одна из величин имеет порядковую шкалу либо не является нормально распределённой.
  3. Коэффициент точечной двухрядной корреляции (коэффициент корреляции знаков Фехнера) – если одна из двух величин является дихотомической.
  4. Коэффициент четырёхполевой корреляции (коэффициент множественной ранговой корреляции (конкордации) – если две переменные дихотомические.

Коэффициент Пирсона относится к параметрическим показателям корреляции, все остальные – к непараметрическим.

Значение коэффициента корреляции находится в пределах от -1 до +1. При полной положительной корреляции r = +1, при полной отрицательной – r = -1.

Формула и расчет





Примеры

Необходимо определить взаимосвязь двух переменных: уровня интеллектуального развития (по данным проведенного тестирования) и количества опозданий за месяц (по данным записей в учебном журнале) у школьников.

Исходные данные представлены в таблице:

Данные по уровню IQ (x)

Данные по количеству опозданий (y)

Сумма

1122

Среднее арифметическое

112,2


Чтобы дать правильную интерпретацию полученному показателю, необходимо проанализировать знак коэффициента корреляции (+ или -) и его абсолютное значение (по модулю).

В соответствии с таблицей классификации коэффициента корреляции по силе делаем вывод о том, rxy = -0,827 – это сильная отрицательная корреляционная зависимость. Таким образом, количество опозданий школьников имеет очень сильную зависимость от их уровня интеллектуального развития. Можно сказать, что ученики с высоким уровнем IQ опаздывают реже на занятия, чем ученики с низким IQ.



Коэффициент корреляции может применяться как учеными для подтверждения или опровержения предположения о зависимости двух величин или явлений и измерения ее силы, значимости, так и студентами для проведения эмпирических и статистических исследований по различным предметам. Необходимо помнить, что этот показатель не является идеальным инструментом, он рассчитывается лишь для измерения силы линейной зависимости и будет всегда вероятностной величиной, которая имеет определенную погрешность.

Корреляционный анализ применяется в следующих областях:

  • экономическая наука;
  • астрофизика;
  • социальные науки (социология, психология, педагогика);
  • агрохимия;
  • металловедение;
  • промышленность (для контроля качества);
  • гидробиология;
  • биометрия и т.д.

Причины популярности метода корреляционного анализа:

  1. Относительная простота расчета коэффициентов корреляции, для этого не нужно специальное математическое образование.
  2. Позволяет рассчитать взаимосвязи между массовыми случайными величинами, которые являются предметом анализа статистической науки. В связи с этим этот метод получил широкое распространение в области статистических исследований.

Надеюсь, теперь вы сможете отличить функциональную взаимосвязь от корреляционной и будете знать, что когда вы слышите по телевидению или читаете в прессе о корреляции, то под ней подразумевают положительную и достаточно значимую взаимозависимость между двумя явлениями.

Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой переменной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют предсказать значение зависимой переменной и определить точность этого предсказания.

Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или графической форме. Однако нас часто интересует не предсказание значения одной переменной по значению другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом.

Эта характеристика называется коэффициентом корреляции, обычно ее обозначают буквой г. Коэффициент корреляции мо-

жет принимать значения от -1 до +1. Знак коэффициента корреляции показывает направление связи (прямая или обратная), а абсолютная величина - тесноту связи. Коэффициент, равный -1, определяет столь же жесткую связь, что и равный 1. В отсутствие связи коэффициент корреляции равен нулю.

На рис. 8.10 приведены примеры зависимостей и соответствующие им значения г. Мы рассмотрим два коэффициента корреляции.

Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регресси
онный анализ, он требует нормальности распределения. Когда говорят просто о «коэффициенте корреляции», почти всегда имеют в виду коэффициент корреляции Пирсона, именно так мы и будем поступать.

Коэффициент ранговой корреляции Спирмена можно использовать, когда связь нелинейна-и не только для количественных, но и для порядковых признаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения.

О количественных, качественных и порядковых признаках мы уже говорили в гл. 5. Количественные признаки - это обычные числовые данные, такие, как рост, вес, температура. Значения количественного признака можно сравнить между собой и сказать, какое из них больше, на сколько и во сколько раз. Например, если один марсианин весит 15 г, а другой 10, то первый тяжелее второго и в полтора раза и на 5 г. Значения порядкового признака тоже можно сравнить, сказав, какое из них больше, но нельзя сказать, ни на сколько, ни во сколько раз. В медицине порядковые признаки встречаются довольно часто. Например, результаты исследования влагалищного мазка по Папаниколау оценивают по такой шкале: 1) норма, 2) легкая дисплазия, 3) умеренная дисплазия, 4) тяжелая дисплазия, 5) рак in situ. И количественные, и порядковые признаки можно расположить по порядку - на этом общем свойстве основана большая группа непараметрических критериев, к которым относится и коэффициент ранговой корреляции Спирмена. С другими непараметрическими критериями мы познакомимся в гл. 10.

Коэффициент корреляции Пирсона

И все же, почему для описания тесноты связи нельзя воспользоваться регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклонение. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и другие показатели регрессионного анализа, будет иным.

Взглянем на рис. 8.11. По известной нам выборке из 10 марсиан построены две линии регрессии. В одном случае вес - зависимая переменная, во втором - независимая. Линии регрессии заметно разли-



20

Если поменять местами х и у, уравнение регрессии получится другим, а коэф- ■ корреляции останется прежним.

чаются. Получается, что связь роста с весом одна, а веса с ростом - другая. Асимметричность регрессионного анализа - вот что мешает непосредственно использовать его для характеристики силы связи. Коэффициент корреляции, хотя его идея вытекает из регрессионного анализа, свободен от этого недостатка. Приводим формулу.

r Y(X - X)(Y - Y)

&((- X) S(y - Y)2"

где X и Y - средние значения переменных X и Y. Выражение для r «симметрично» -поменяв местами Xи Y, мы получим ту же величину. Коэффициент корреляции принимает значения от -1 до +1. Чем теснее связь, тем больше абсолютная величина коэффициента корреляции. Знак показывает направление связи. При r > 0 говорят о прямой корреляции (с увеличением одной переменной другая также возрастает), при r Возьмем пример с 10 марсианами, который мы уже рассматривали с точки зрения регрессионного анализа. Вычислим коэффициент корреляции. Исходные данные и промежуточные результаты вычислений приведены в табл. 8.3. Объем выборки n = 10, средний рост

X = £ X/n = 369/10 = 36,9 и вес Y = £ Y/n = 103,8/10 = 10,38.

Находим Щ- X)(Y- Y) = 99,9, Щ- X)2 = 224,8, £(Y - Y)2 = 51,9.

Подставим полученные значения в формулу для коэффициента корреляции:

224,8 х 51,9 ’ "

Величина r близка к 1, что говорит о тесной связи роста и веса. Чтобы лучше представить себе, какой коэффициент корреляции следует считать большим, а какой незначительным, взгляни-

Таблица 8.3. Вычисление коэффициента корреляции
X Y X -X Y-Y (X -X)(Y-Y) (X -X)2 (Y-Y)2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9


те на табл. 8.4 - в ней приведены коэффициенты корреляции для примеров, которые мы разбирали ранее.

Связь регрессии и корреляции

Все примеры коэффициентов корреляции (табл. 8.4) мы первоначально использовали для построения линий регрессии. Действительно, между коэффициентом корреляции и параметрами регрессионного анализа существует тесная связь, которую мы сейчас продемонстрируем. Разные способы представления коэффициента корреляции, которые мы при этом получим, позволят лучше понять смысл этого показателя.

Вспомним, что уравнение регрессии строится так, чтобы минимизировать сумму квадратов отклонений от линии регрессии.


Обозначим эту минимальную сумму квадратов S (эту величину называют остаточной суммой квадратов). Сумму квадратов отклонений значений зависимой переменной Y от ее среднего Y обозначим S^. Тогда:

Величина г2 называется коэффициентом детерминации - это просто квадрат коэффициента корреляции. Коэффициент детерминации показывает силу связи, но не ее направленность.

Из приведенной формулы видно, что если значения зависимой переменной лежат на прямой регрессии, то S = 0, и тем самым r = +1 или r = -1, то есть существует линейная связь зависимой и независимой переменной. По любому значению независимой переменной можно совершенно точно предсказать значение зависимой переменной. Напротив, если переменные вообще не связаны между собой, то Soci = SofSisi Тогда r = 0.

Видно также, что коэффициент детерминации равен той доле общей дисперсии S^, которая обусловлена или, как говорят, объясняется линейной регрессией.

Остаточная сумма квадратов S связана с остаточной дисперсией s2y\x соотношением Socj = (п - 2) s^, а общая сумма квадратов S^ с дисперсией s2 соотношением S^ = (п - 1)s2 . В таком случае

r2 = 1 _ n _ 2 sy\x п _1 sy

Эта формула позволяет судить о зависимости коэффициента корреляции от доли остаточной дисперсии в полной дисперсии

six/s2y Чем эта доля меньше, тем больше (по абсолютной величине) коэффициент корреляции, и наоборот.

Мы убедились, что коэффициент корреляции отражает тесноту линейной связи переменных. Однако если речь идет о предсказании значения одной переменной по значению другой, на
коэффициент корреляции не следует слишком полагаться. Например, данным на рис. 8.7 соответствует весьма высокий коэффициент корреляции (г = 0,92), однако ширина доверительной области значений показывает, что неопределенность предсказания довольно значительна. Поэтому даже при большом коэффициенте корреляции обязательно вычислите доверительную область значений.


И под конец приведем соотношение коэффициента корреляции и коэффициента наклона прямой регрессии b:

где b - коэффициент наклона прямой регрессии, sx и sY - стандартные отклонения переменных.

Если не брать во внимание случай sx = 0, то коэффициент корреляции равен нулю тогда и только тогда, когда b = 0. Этим фактом мы сейчас и воспользуемся для оценки статистической значимости корреляции.

Статистическая значимость корреляции

Поскольку из b = 0 следует г = 0, гипотеза об отсутствии корреляции равнозначна гипотезе о нулевом наклоне прямой регрессии. Поэтому для оценки статистической значимости корреляции можно воспользоваться уже известной нам формулой для оценки статистической значимости отличия b от нуля:

Здесь число степеней свободы v = n - 2. Однако если коэффициент корреляции уже вычислен, удобнее воспользоваться формулой:

Число степеней свободы здесь также v = п - 2.

При внешнем несходстве двух формул для t, они тождественны. Действительно, из того, что


r 2 _ 1 - n_ 2 Sy]x_

Подставив значение sy^x в формулу для стандартной ошибки

Животный жир и рак молочной железы

В опытах на лабораторных животных показано, что высокое содержание животного жира в рационе повышает риск рака молочной железы. Наблюдается ли эта зависимость у людей? К. Кэррол собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Результат представлен на рис. 8.12А. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молочной железы оказался равен 0,90. Оценим статистическую значимость корреляции.

0,90 1 - 0,902 39 - 2

Критическое значение t при числе степеней свободы v = 39 - 2 = 37 равно 3,574, то Єсть меньше полученного нами. Таким образом, при уровне значимости 0,001 можно утверждать, что существует корреляция между потреблением животных жиров и смертностью от рака молочной железы.

Теперь проверим, связана ли смертность с потреблением растительных жиров? Соответствующие данные приведены на рис. 8.12Б. Коэффициент корреляции равен 0,15. Тогда

1 - 0,152 39 - 2

Даже при уровне значимости 0,10 вычисленное значение t меньше критического. Корреляция статистически не значима.

Коэффициент корреляции - это степень связи между двумя переменными. Его расчет дает представление о том, есть ли зависимость между двумя массивами данных. В отличие от регрессии, корреляция не позволяет предсказывать значения величин. Однако расчет коэффициента является важным этапом предварительного статистического анализа. Например, мы установили, что коэффициент корреляции между уровнем прямых иностранных инвестиций и темпом роста ВВП является высоким. Это дает нам представление о том, что для обеспечения благосостояния нужно создать благоприятный климат именно для зарубежных предпринимателей. Не такой уж и очевидный вывод на первый взгляд!

Корреляция и причинность

Пожалуй, нет ни одной сферы статистики, которая бы так прочно вошла в нашу жизнь. Коэффициент корреляции используется во всех областях общественных знаний. Основная его опасность заключается в том, что зачастую его высокими значениями спекулируют для того, чтобы убедить людей и заставить их поверить в какие-то выводы. Однако на самом деле сильная корреляция отнюдь не свидетельствует о причинно-следственной зависимости между величинами.

Коэффициент корреляции: формула Пирсона и Спирмана

Существует несколько основных показателей, которые характеризуют связь между двумя переменными. Исторически первым является коэффициент линейной корреляции Пирсона. Его проходят еще в школе. Он был разработан К. Пирсоном и Дж. Юлом на основе работ Фр. Гальтона. Этот коэффициент позволяет увидеть взаимосвязь между рациональными числами, которые изменяются рационально. Он всегда больше -1 и меньше 1. Отрицательно число свидетельствует об обратно пропорциональной зависимости. Если коэффициент равен нулю, то связи между переменными нет. Равен положительному числу - имеет место прямо пропорциональная зависимость между исследуемыми величинами. Коэффициент ранговой корреляции Спирмана позволяет упростить расчеты за счет построения иерархии значений переменных.

Отношения между переменными

Корреляция помогает найти ответ на два вопроса. Во-первых, является ли связь между переменными положительной или отрицательной. Во-вторых, насколько сильна зависимость. Корреляционный анализ является мощным инструментом, с помощью которого можно получить эту важную информацию. Легко увидеть, что семейные доходы и расходы падают и растут пропорционально. Такая связь считается положительной. Напротив, при росте цены на товар, спрос на него падает. Такую связь называют отрицательной. Значения коэффициента корреляции находятся в пределах между -1 и 1. Нуль означает, что зависимости между исследуемыми величинами нет. Чем ближе полученный показатель к крайним значениям, тем сильнее связь (отрицательная или положительная). Об отсутствии зависимости свидетельствует коэффициент от -0,1 до 0,1. Нужно понимать, что такое значение свидетельствует только об отсутствии линейной связи.

Особенности применения

Использование обоих показателей сопряжено с определенными допущениями. Во-первых, наличие сильной связи, не обуславливает того факта, что одна величина определяет другую. Вполне может существовать третья величина, которая определяет каждую из них. Во-вторых, высокий коэффициент корреляции Пирсона не свидетельствует о причинно-следственной связи между исследуемыми переменными. В-третьих, он показывает исключительно линейную зависимость. Корреляция может использоваться для оценки значимых количественных данных (например, атмосферного давления, температуры воздуха), а не таких категорий, как пол или любимый цвет.

Множественный коэффициент корреляции

Пирсон и Спирман исследовали связь между двумя переменными. Но как действовать в том случае, если их три или даже больше. Здесь на помощь приходит множественный коэффициент корреляции. Например, на валовый национальный продукт влияют не только прямые иностранные инвестиции, но и монетарная и фискальная политика государства, а также уровень экспорта. Темп роста и объем ВВП - это результат взаимодействия целого ряда факторов. Однако нужно понимать, что модель множественной корреляции основывается на целом ряде упрощений и допущений. Во-первых, исключается мультиколлинеарность между величинами. Во-вторых, связь между зависимой и оказывающими на нее влияние переменными считается линейной.

Области использования корреляционно-регрессионного анализа

Данный метод нахождения взаимосвязи между величинами широко применяется в статистике. К нему чаще всего прибегают в трех основных случаях:

  1. Для тестирования причинно-следственных связей между значениями двух переменных. В результате исследователь надеется обнаружить линейную зависимость и вывести формулу, которая описывает эти отношения между величинами. Единицы их измерения могут быть различными.
  2. Для проверки наличия связи между величинами. В этом случае никто не определяет, какая переменная является зависимой. Может оказаться, что значение обеих величин обуславливает какой-то другой фактор.
  3. Для вывода уравнения. В этом случае можно просто подставить в него числа и узнать значения неизвестной переменной.

Человек в поисках причинно-следственной связи

Сознание устроено таким образом, что нам обязательно нужно объяснить события, которые происходят вокруг. Человек всегда ищет связь между картиной мира, в котором он живет, и получаемой информацией. Часто мозг создает порядок из хаоса. Он запросто может увидеть причинно-следственную связь там, где ее нет. Ученым приходится специально учиться преодолевать эту тенденцию. Способность оценивать связи между данными объективно необходима в академической карьере.

Предвзятость средств массовой информации

Рассмотрим, как наличие корреляционной связи может быть неправильно истолковано. Группу британских студентов, отличающихся плохим поведением, опросили относительно того, курят ли их родители. Потом тест опубликовали в газете. Результат показал сильную корреляцию между курением родителей и правонарушениями их детей. Профессор, который проводил это исследование, даже предложил поместить на пачки сигарет предупреждение об этом. Однако существует целый ряд проблем с таким выводом. Во-первых, корреляция не показывает, какая из величин является независимой. Поэтому вполне можно предположить, что пагубная привычка родителей вызвана непослушанием детей. Во-вторых, нельзя с уверенностью сказать, что обе проблемы не появились из-за какого-то третьего фактора. Например, низкого дохода семей. Следует отметить эмоциональный аспект первоначальных выводов профессора, который проводил исследование. Он был ярым противником курения. Поэтому нет ничего удивительного в том, что он интерпретировал результаты своего исследования именно так.

Выводы

Неправильное толкование корреляции как причинно-следственной связи между двумя переменными может стать причиной позорных ошибок в исследованиях. Проблема состоит в том, что оно лежит в самой основе человеческого сознания. Многие маркетинговые трюки построены именно на этой особенности. Понимание различия между причинно-следственной связью и корреляцией позволяет рационально анализировать информацию как в повседневной жизни, так и в профессиональной карьере.

Коэффициент корреляции – это величина, которая может варьировать в пределах от +1 до –1. В случае полной положительной корреляции этот коэффициент равен плюс 1 (говорят о том, что при увеличении значения одной переменной увеличивается значение другой переменной), а при полной отрицательной – минус 1 (свидетельствуют об обратной связи, т.е. При увеличении значений одной переменной, значения другой уменьшаются).

Пр1.:

График зависимости застенчивости и дипресивности. Как видим, точки (испытуемые) расположены не хаотично, а выстраиваются вокруг одной линии, причём, глядя на эту линию можно сказать, что чем выше у человека выражена застенчивость, тем больше депрессивность, т. е. эти явления взаимосвязаны.

Пр2.: График для Застенчивости и Общительности. Мы видим, что с увеличением застенчивости общительность уменьшается. Их коэффициент корреляции -0,43. Таким образом, коэффициент корреляции больший от 0 до 1 говорит о прямопропорциональной связи (чем больше… тем больше…), а коэффициент от -1 до 0 о обратнопропорциональной (чем больше… тем меньше…)

В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.

Корреляционная связь - это связь, где воздействие отдельных факторов проявляется только как тенденция (в среднем) при массовом наблюдении фактических данных. Примерами корреляционной зависимости могут быть зависимости между размерами активов банка и суммой прибыли банка, ростом производительности труда и стажем работы сотрудников.

Используется две системы классификации корреляционных связей по их силе: общая и частная.

Общая классификация корреляционных связей:1) сильная, или тесная при коэффициенте корреляции r>0,70;2) средняя при 0,500,70, а не просто корреляция высокого уровня значимости.

В следующей таблице написаны названия коэффициентов корреляции для различных типов шкал.

Дихотомическая шкала (1/0) Ранговая (порядковая) шкала
Дихотомическая шкала (1/0) Коэфициент ассоциации Пирсона, коэффициент четырехклеточной сопряженности Пирсона. Бисериальная корреляция
Ранговая (порядковая) шкала Рангово-бисериальная корреляция. Ранговый коэффициент корреляции Спирмена или Кендалла.
Интервальная и абсолютная шкала Бисериальная корреляция Значения интервальной шкалы переводятся в ранги и используется ранговый коэффициент Коэффициент корреляции Пирсона (коэффициент линейной корреляции)

При r =0 линейная корреляционная связь отсутствует. При этом групповые средние переменных совпадают с их общи­ми средними, а линии регрессии параллельны осям координат.

Равенство r =0 говорит лишь об отсутствии линейной корреляционной зависимости (некоррелирован­ности переменных), но не вообще об отсутствии корреляционной, а тем более, статистической зависимости.

Иногда вывод об отсутствии корреляции важнее наличия сильной корреляции. Нулевая корреляция двух переменных может свидетельствовать о том, что никакого влияния одной переменной на другую не существует, при условии, что мы доверяем результатам измерений.

В SPSS: 11.3.2 Коэффициенты корреляции

До сих пор мы выясняли лишь сам факт существования статистической зависимости между двумя признаками. Далее мы попробуем выяснить, какие заключения можно сделать о силе или слабости этой зависимости, а также о ее виде и направленности. Критерии количественной оценки зависимости между переменными называются коэффициентами корреляции или мерами связанности. Две переменные коррелируют между собой положительно, если между ними существует прямое, однонаправленное соотношение. При однонаправленном соотношении малые значения одной переменной соответствуют малым значениям другой переменной, большие значения - большим. Две переменные коррелируют между собой отрицательно, если между ними существует обратное, разнонаправленное соотношение. При разнонаправленном соотношении малые значения одной переменной соответствуют большим значениям другой переменной и наоборот. Значения коэффициентов корреляции всегда лежат в диапазоне от -1 до +1.

В качестве коэффициента корреляции между переменными, принадлежащими порядковой шкале применяется коэффициент Спирмена, а для переменных, принадлежащих к интервальной шкале - коэффициент корреляции Пирсона (момент произведений). При этом следует учесть, что каждую дихотомическую переменную, то есть переменную, принадлежащую к номинальной шкале и имеющую две категории, можно рассматривать как порядковую.

Для начала мы проверим существует ли корреляция между переменными sex и psyche из файла studium.sav. При этом мы учтем, что дихотомическую переменную sex можно считать порядковой. Выполните следующие действия:

· Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

· Перенесите переменную sex в список строк, а переменную psyche - в список столбцов.

· Щелкните на кнопке Statistics... (Статистика). В диалоге Crosstabs: Statistics установите флажок Correlations (Корреляции). Подтвердите выбор кнопкой Continue.

· В диалоге Crosstabs откажитесь от вывода таблиц, установив флажок Supress tables (Подавлять таблицы). Щелкните на кнопке ОК.

Будут вычислены коэффициенты корреляции Спирмена и Пирсона, а также проведена проверка их значимости:

/ Теория. Коэффициент корреляции

Коэффициент корреляции - двумерная описательная статистика, количественная мера взаимосвязи (совместной изменчивости) двух переменных.

К настоящему времени разработано великое множество различных коэффициентов корреляции. Однако самые важные меры связи - Пирсона, Спирмена и Кендалла . Их общей особенностью является то, что они отражают взаимосвязь двух признаков , измеренных в количественной шкале - ранговой или метрической .

Вообще говоря, любое эмпирическое исследование сосредоточено на изучении взаимосвязей двух или более переменных .

Если изменение одной переменной на одну единицу всегда приводит к изменению другой переменной на одну и ту же величину, функция является линейной (график ее представляет прямую линию); любая другая связь - нелинейная . Если увеличение одной переменной связано с увеличением другой, то связь - положительная ( прямая ) ; если увеличение одной переменной связано с уменьшением другой, то связь - отрицательная ( обратная ) . Если направление изменения одной переменной не меняется с возрастанием (убыванием) другой переменной, то такая функция - монотонная ; в противном случае функцию называют немонотонной .

Функциональные связи являются идеализациями. Их особенность заключается в том, что одному значению одной переменной соответствует строго определенное значение другой переменной. Например, такова взаимосвязь двух физических переменных - веса и длины тела (линейная положительная). Однако даже в физических экспериментах эмпирическая взаимосвязь будет отличаться от функциональной связи в силу неучтенных или неизвестных причин: колебаний состава материала, погрешностей измерения и пр.

При изучении взаимосвязи признаков из поля зрения исследователя неизбежно выпадает множество возможных причин изменчивости этих признаков. Результатом является то, что даже существующая в реальности функциональная связь между переменными выступает эмпирически как вероятностная (стохастическая): одному и тому же значению одной переменной соответствует распределение различных значений другой переменной (и наоборот).

Простейшим примером является соотношение роста и веса людей. Эмпирические результаты исследования этих двух признаков покажут, конечно, положительную их взаимосвязь. Но несложно догадаться, что она будет отличаться от строгой, линейной, положительной - идеальной математической функции, даже при всех ухищрениях исследователя по учету стройности или полноты испытуемых. Вряд ли на этом основании кому-то придет в голову отрицать факт наличия строгой функциональной связи между длиной и весом тела.

Итак, функциональная взаимосвязь явлений эмпирически может быть выявлена только как вероятностная связь соответствующих признаков.

Наглядное представление о характере вероятностной связи дает диаграмма рассеивания - график, оси которого соответствуют значениям двух переменных, а каждый испытуемый представляет собой точку. В качестве числовой характеристики вероятностной связи используются коэффициенты корреляции.

Можно ввести три градации величин корреляции по силе связи:

r < 0,3 - слабая связь (менее 10% от общей доли дисперсии);

0,3 < r < 0,7 - умеренная связь (от 10 до 50% от общей доли дисперсии);

r > 0,7 - сильная связь (50% и более от общей доли дисперсии).

Частная корреляция

Часто бывает так, что две переменные коррелируют друг с другом только за счет того, что обе они меняются под влиянием некоторой третьей переменной. То есть, на самом деле связь между соответствующими свойствами этих двух переменных отсутствует, но проявляется в статистической взаимосвязи, или корреляции, под влиянием общей причины третьей переменной).

Таким образом, если корреляция между двумя переменными уменьшается, при фиксируемой третьей случайной величине, то это означает, что их взаимозависимость возникает частично через воздействие этой третьей переменной. Если же частная корреляция равна нулю или очень мала, то можно сделать вывод о том, что их взаимозависимость целиком обусловлена собственным воздействием и никак не связана с третьей переменной.

Также, если частная корреляция больше первоначальной корреляции между двумя переменными, то можно сделать вывод о том, что другие переменные ослабили связь, или "скрыли" корреляцию.

К тому же необходимо помнить о том, что корреляция не есть причинность . Исходя из этого, мы не имеем права безапелляционно говорить о наличии причинной связи: некоторая совершенно отличная от рассматриваемых в анализе переменная может быть источником этой корреляции. Как при обычной корреляции, так и при частных корреляциях предположение о причинности должно всегда иметь собственные внестатистические основания.

Коэффициент корреляции Пирсона

r- Пирсона применяется для изучения взаимосвязи двух метрических переменных , измеренных на одной и той же выборке . Существует множество ситуаций, в которых уместно его применение. Влияет ли интеллект на успеваемость на старших курсах университета? Связан ли размер заработной платы работника с его доброжелательностью к коллегам? Влияет ли настроение школьника на успешность решения сложной арифметической задачи? Для ответа на подобные вопросы исследователь должен измерить два интересующих его показателя у каждого члена выборки.

На величину коэффициента корреляции не влияет то, в каких единицах измерения представлены признаки. Следовательно, любые линейные преобразования признаков (умножение на константу, прибавление константы) не меняют значения коэффициента корреляции. Исключением является умножение одного из признаков на отрицательную константу: коэффициент корреляции меняет свой знак на противоположный.

Корреляция Пирсона есть мера линейной связи между двумя переменными . Она позволяет определить , насколько пропорциональна изменчивость двух переменных . Если переменные пропорциональны друг другу, то графически связь между ними можно представить в виде прямой линии с положительным (прямая пропорция) или отрицательным (обратная пропорция) наклоном.

На практике связь между двумя переменными, если она есть, является вероятностной и графически выглядит как облако рассеивания эллипсоидной формы. Этот эллипсоид, однако, можно представить (аппроксимировать) в виде прямой линии, или линии регрессии. Линия регрессии - это прямая, построенная методом наименьших квадратов: сумма квадратов расстояний (вычисленных по оси Y) от каждой точки графика рассеивания до прямой является минимальной.

Особое значение для оценки точности предсказания имеет дисперсия оценок зависимой переменной. По сути, дисперсия оценок зависимой переменной Y - это та часть ее полной дисперсии, которая обусловлена влиянием независимой переменной X. Иначе говоря, отношение дисперсии оценок зависимой переменной к ее истинной дисперсии равно квадрату коэффициента корреляции.

Квадрат коэффициента корреляции зависимой и независимой переменных представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерминации . Коэффициент детерминации, таким образом, показывает, в какой степени изменчивость одной переменной обусловлена (детерминирована) влиянием другой переменной.

Коэффициент детерминации обладает важным преимуществом по сравнению с коэффициентом корреляции. Корреляция не является линейной функцией связи между двумя переменными. Поэтому, среднее арифметическое коэффициентов корреляции для нескольких выборок не совпадает с корреляцией, вычисленной сразу для всех испытуемых из этих выборок (т.е. коэффициент корреляции не аддитивен). Напротив, коэффициент детерминации отражает связь линейно и поэтому является аддитивным: допускается его усреднение для нескольких выборок.

Дополнительную информацию о силе связи дает значение коэффициента корреляции в квадрате - коэффициент детерминации: это часть дисперсии одной переменной, которая может быть объяснена влиянием другой переменной. В отличие от коэффициента корреляции коэффициент детерминации линейно возрастает с увеличением силы связи.

Коэффициенты корреляции Спирмена и τ-Кендалла (ранговые корреляции). Если обе переменные, между которыми изучается связь, представлены в порядковой шкале, или одна из них - в порядковой, а другая - в метрической, то применяются ранговые коэффициенты корреляции: Спирмена или τ - Кенделла . И тот , и другой коэффициент требует для своего применения предварительного ранжирования обеих переменных .

Коэффициент ранговой корреляции Спирмена - это непараметрический метод , который используется с целью статистического изучения связи между явлениями . В этом случае определяется фактическая степень параллелизма между двумя количественными рядами изучаемых признаков и дается оценка тесноты установленной связи с помощью количественно выраженного коэффициента.

Если члены группы численностью были ранжированы сначала по переменной x, затем – по переменной y, то корреляцию между переменными x и y можно получить, просто вычислив коэффициент Пирсона для двух рядов рангов. При условии отсутствия связей в рангах (т.е. отсутствия повторяющихся рангов) по той и другой переменной, формула для Пирсона может быть существенно упрощена в вычислительном отношении и преобразована в формулу, известную как Спирмена .

Мощность коэффициента ранговой корреляции Спирмена несколько уступает мощности параметрического коэффициента корреляции .

Коэффицент ранговой корреляции целесообразно применять при наличии небольшого количества наблюдений . Данный метод может быть использован не только для количественно выраженных данных , но также и в случаях , когда регистрируемые значения определяются описательными признаками различной интенсивности .

Коэффициент ранговой корреляции Спирмена при большом количестве одинаковых рангов по одной или обеим сопоставляемым переменным дает огрубленные значения. В идеале оба коррелируемых ряда должны представлять собой две последовательности несовпадающих значений

Альтернативу корреляции Спирмена для рангов представляет корреляция τ-Кендалла . В основе корреляции, предложенной М.Кендаллом, лежит идея о том, что о направлении связи можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых изменение по x совпадает по направлению с изменением по y, то это свидетельствует о положительной связи, если не совпадает - то об отрицательной связи.

Коэффициенты корреляции были специально разработаны для численного определения силы и направления связи между двумя свойствами, измеренными в числовых шкалах (метрических или ранговых).

Как уже упоминалось, максимальной силе связи соответствуют значения корреляции +1 (строгая прямая или прямо пропорциональная связь) и -1 (строгая обратная или обратно пропорциональная связь), отсутствию связи соответствует корреляция, равная нулю.

Дополнительную информацию о силе связи дает значение коэффициента детерминации: это часть дисперсии одной переменной, которая может быть объяснена влиянием другой переменной.

Тема 12 Корреляционный анализ

Функциональная зависимость и корреляция . Еще Гиппократ в VI в. до н. э. обратил внимание на наличие связи между телосложением и темпераментом людей, между строением тела и предрасположенностью к тем или иным заболеваниям. Определенные виды подобной связи выявлены также в животном и растительном мире. Так, существует зависимость между телосложением и продуктивностью у сельскохозяйственных животных; известна связь между качеством семян и урожайностью культурных растений и т.д. Что же касается подобных зависимостей в экологии, то существуют зависимости между содержанием тяжелых металлов в почве и снежном покрове от их концентрации в атмосферном воздухе и т.п. Поэтому естественно стремление использовать эту закономерность в интересах человека, придать ей более или менее точное количественное выражение.

Как известно, для описания связей между переменными величинами применяют математические понятие функции f , которая ставит в соответствие каждому определенному значению независимой переменной x определенное значение зависимой переменной y , т.е. . Такого рода однозначные зависимости между переменными величинамиx и y называют функциональными . Однако такого рода связи в природных объектах встречаются далеко не всегда. Поэтому зависимость между биологическими, а также и экологическими признаками имеет не функциональный, а статистический характер, когда в массе однородных индивидов определенному значению одного признака, рассматриваемого в качестве аргумента, соответствует не одно и то же числовое значение, а целая гамма распределяющихся в вариационный ряд числовых значений другого признака, рассматриваемого в качестве зависимой переменной, или функции. Такого рода зависимость между переменными величинами называется корреляционной или корреляцией..

Функциональные связи легко обнаружить и измерить на единичных и групповых объектах, однако этого нельзя проделать с корреляционными связями, которые можно изучать только на групповых объектах методами математической статистики. Корреляционная связь между признаками бывает линейной и нелинейной, положительной и отрицательной. Задача корреляционного анализа сводится к установлению направления и формы связи между варьирующими признаками, измерению ее тесноты и, наконец, к проверке достоверности выборочных показателей корреляции.

Зависимость между переменными X и Y можно выразить аналитически (с помощью формул и уравнений) и графически (как геометрическое место точек в системе прямоугольных координат). График корреляционной зависимости строят по уравнению функции или , которая называетсярегрессией . Здесь и – средние арифметические, найденные при условии, чтоX или Y примут некоторые значения x или y . Эти средние называются условными .

11.1. Параметрические показатели связи

Коэффициент корреляции . Сопряженность между переменными величинами x и y можно установить, сопоставляя числовые значения одной из них с соответствующими значениями другой. Если при увеличении одной переменной увеличивается другая, это указывает на положительную связь между этими величинами, и наоборот, когда увеличение одной переменной сопровождается уменьшением значения другой, это указывает на отрицательную связь .

Для характеристики связи, ее направления и степени сопряженности переменных применяют следующие показатели:

    линейной зависимость – коэффициент корреляции ;

    нелинейный – корреляционной отношение .

Для определения эмпирического коэффициента корреляции используют следующую формулу:

. (1)

Здесь s x и s y – средние квадратические отклонения.

Коэффициент корреляции можно вычислить, не прибегая к расчету средних квадратических отклонений, что упрощает вычислительную работу, по следующей аналогичной формуле:

. (2)

Коэффициент корреляции – безразмерное число, лежащее в пределах от –1 до +1. При независимом варьировании признаков, когда связь между ними полностью отсутствует, . Чем сильнее сопряженность между признаками, тем выше значение коэффициента корреляции. Следовательно, при этот показатель характеризует не только наличие, но и степень сопряженности между признаками. При положительной или прямой связи, когда большим значениям одного признака соответствуют большие же значения другого, коэффициент корреляции имеет положительный знак и находится в пределах от 0 до +1, при отрицательной или обратной связи, когда большим значениям одного признака соответствуют меньшие значения другого, коэффициент корреляции сопровождается отрицательным знаком и находится в пределах от 0 до –1.

Коэффициент корреляции нашел широкое применение в практике, но он не является универсальным показателем корреляционных связей, так как способен характеризовать только линейные связи, т.е. выражаемые уравнением линейной регрессии (см. тему 12). При наличии нелинейной зависимости между варьирующими признаками применяют другие показатели связи, рассмотренных ниже.

Вычисление коэффициента корреляции . Это вычисление производят разными способами и по-разному в зависимости от числа наблюдений (объема выборки). Рассмотрим отдельно специфику вычисления коэффициента корреляции при наличии малочисленных выборок и выборок большого объема.

Малые выборки . При наличии малочисленных выборок коэффициент корреляции вычисляют непосредственно по значениям сопряженных признаков, без предварительной группировки выборочных данных в вариационные ряды. Для этого служат приведенные выше формулы (1) и (2). Более удобными, особенно при наличии многозначных и дробных чисел, которыми выражаются отклонения вариант х i и y i от средних и , служат следующие рабочие формулы:

где ;

;

Здесь x i и y i – парные варианты сопряженных признаков x и y ; и –средние арифметические; – разность между парными вариантами сопряженных признаковx и y ; n – общее число парных наблюдений, или объем выборочной совокупности.

Эмпирический коэффициент корреляции, как и любой другой выборочный показатель, служит оценкой своего генерального параметра ρ и как величина случайная сопровождается ошибкой:

Отношение выборочного коэффициента корреляции к своей ошибке служит критерием для проверки нулевой гипотезы – предположения о том, что в генеральной совокупности этот параметр равен нулю, т.е. . Нулевую гипотезу отвергают на принятом уровне значимостиα , если

Значения критических точек t st для разных уровней значимости α и чисел степеней свободы приведены в табл.1 Приложений.

Установлено, что при обработке малочисленных выборок (особенно когда n < 30 ) расчет коэффициента корреляции по формулам (1) – (3) дает несколько заниженные оценки генерального параметра ρ , т.е. необходимо внести следующую поправку:

z-преобразование Фишера . Правильное применение коэффициента корреляции предполагает нормальное распределение двумерной совокупности сопряженных значений случайных величин x и y . Из математической статистики известно, что при наличии значительной корреляции между переменными величинами, т.е. когда R xy > 0,5 выборочное распределение коэффициента корреляции для большего числа малых выборок, взятых из нормально распределяющейся генеральной совокупности, значительно отклоняются от нормальной кривой.

Учитывая это обстоятельство, Р. Фишер нашел более точный способ оценки генерального параметра по значению выборочного коэффициента корреляции. Этот способ сводится к замене R xy преобразованной величиной z, которая связана с эмпирическим коэффициентом корреляции, следующим образом:

Распределение величины z является почти неизменным по форме, так как мало зависит от объема выборки и от значения коэффициента корреляции в генеральной совокупности, и приближается к нормальному распределению.

Критерием достоверности показателя z является следующее отношение:

Нулевая гипотеза отвергается на принятом уровне значимости α и числе степеней свободы . Значения критических точекt st приведены в табл.1 Приложений.

Применение z-преобразования позволяет с большей уверенностью оценивать статистическую значимость выборочного коэффициента корреляции, а также и разность между эмпирическими коэффициентами , когда в этом возникает необходимость.

Минимальный объем выборки для точной оценки коэффициента корреляции. Можно рассчитать объем выборки для заданного значения коэффициента корреляции, который был бы достаточен для опровержения нулевой гипотезы (если корреляция между признаками Y и X действительно существует). Для этого служит следующая формула:

где n – искомый объем выборки; t – величина, заданная по принятому уровню значимости (лучше для α = 1%); z – преобразованный эмпирический коэффициент корреляции.

Большие выборки . При наличии многочисленных исходных данных их приходится группировать в вариационные ряды и, построив корреляционную решетку, разность по ее клеткам (ячейкам) общие частоты сопряженных рядов. Корреляционная решетка образуется пересечением строк и столбцов, число которых равно числу групп или классов коррелируемых рядов. Классы располагаются в верхней строке и в первой (слева) столбце корреляционной таблицы, а общие частоты, обозначаемые символом f xy , – в клетках корреляционной решетки, составляющей основную часть корреляционной таблицы.

Классы, помещенные в верхней строке таблицы, обычно располагаются слева направо в возрастающем порядке, а в первом столбце таблицы – сверху вниз в убывающем порядке. При таком расположении классов вариационных рядов их общие частоты (при наличии положительной связи между признаками Y и X ) будут распределяться по клеткам решетки в виде эллипса по диагонали от нижнего левого угла к верхнему правому углу решетки или (при наличии отрицательной связи между признаками) в направлении от верхнего левого угла к нижнему правому углу решетки. Если же частоты f xy распределяются по клеткам корреляционной решетки более или менее равномерно, не образуя фигуры эллипса, это будет указывать на отсутствие корреляции между признаками.

Распределение частот f xy по клеткам корреляционной решетки дает лишь общее представление о наличии или отсутствии связи между признаками. Судить о тесноте или менее точно лишь по значению и знаку коэффициента корреляции . При вычислении коэффициента корреляции с предварительной группировки выборочных данных в интервальные вариационные ряды не следует брать слишком широкие классовые интервалы. Грубая группировка гораздо сильнее сказывается на значении коэффициента корреляции, чем это имеет место при вычислении средних величин и показателей вариации.

Напомним, что величина классового интервала определяется по формуле

где x max , x min – максимальная и минимальная варианты совокупности; К – число классов, на которые следует разбить вариацию признака. Опыт показал, что в области корреляционного анализа величину К можно поставить в зависимость от объема выборки примерно следующим образом (табл.1).

Таблица 1

Объем выборки

Значение К

50 ≥ n > 30

100 ≥ n > 50

200 ≥ n > 100

300 ≥ n > 200

Как и другие статистические характеристики, вычисляемые с предварительной группировкой исходных данных в вариационные ряды, коэффициент корреляции определяют разными способами, дающими совершенно идентичные результаты.

Способ произведений . Коэффициент корреляции можно вычислить используя основные формулы (1) или (2), внеся в них поправку на повторяемость вариант в димерной совокупности. При этом, упрощая символику, отклонения вариант от их средних обозначим через а , т.е. и . Тогда формула (2) с учетом повторяемости отклонений примет следующее выражение:

Достоверность этого показателя оценивается с помощью критерия Стьюдента, который представляет отношение выборочного коэффициента корреляции к своей ошибке, определяемой по формуле

Отсюда и если эта величина превышает стандартное значение критерия Стьюдентаt st для степени свободы и уровне значимостиα (см. Таблицу 2 Приложений), то нулевую гипотезу отвергают.

Способ условных средних . При вычислении коэффициента корреляции отклонения вариант (“классов”) можно находить не только от средних арифметических и , но и от условных средних А х и A y . При этом способе в числитель формулы (2) вносят поправку и формула приобретает следующий вид:

где f xy – частоты классов одного и другого рядов распределения; и , т.е. отклонения классов от условных средних, отнесенные к величине классовых интерваловλ ; n – общее число парных наблюдений, или объем выборки; и – условные моменты первого порядка, гдеf x – частоты ряда Х , аf y – частоты ряда Y ; s x и s y – средние квадратические отклонения рядов X и Y , вычисляемые по формуле .

Способ условных средних имеет преимущество перед способом произведений, так как позволяет избегать операции с дробными числами и придавать один и тот же (положительный) знак отклонениям a x и a y , что упрощает технику вычислительной работы, особенно при наличии многозначных чисел.

Оценка разности между коэффициентами корреляции . При сравнении коэффициентов корреляции двух независимых выборок нулевая гипотеза сводится к предположению о том, что в генеральной совокупности разница между этими показателями равна нулю. Иными словами, следует исходить из предположения, что разница, наблюдаемая между сравниваемыми эмпирическими коэффициентами корреляции, возникла случайно.

Для проверки нулевой гипотезы служит t-критерий Стьюдента, т.е. отношение разности между эмпирическими коэффициентами корреляции R 1 и R 2 к своей статистической ошибке, определяемой по формуле:

где s R1 и s R2 – ошибки сравниваемых коэффициентов корреляции.

Нулевая гипотеза опровергается при условии, что для принятого уровне значимостиα и числе степеней свободы .

Известно, что более точную оценку достоверности коэффициента корреляции получают при переводе R xy в число z . Не является исключением и оценка разности между выборочными коэффициентами корреляции R 1 и R 2 , особенно в тех случаях, когда последние вычислены на выборках сравнительно небольшого объема (n < 100 ) и по своему абсолютному значению значительно превышают 0,50.

Разность оценивают с помощью t-критерия Стьюдента, который строят по отношению этой разности к своей ошибке, вычисляемой по формуле

Нулевую гипотезу отвергают, если для и принятого уровня значимостиα.

Корреляционное отношение . Для измерения нелинейной зависимости между переменными x и y используют показатель, который называют корреляционным отношением , который описывает связь двусторонне. Конструкция корреляционного отношения предполагает сопоставление двух видов вариации: изменчивости отдельных наблюдений по отношению к частным средним и вариации самих частных средних по сравнению с общей средней величиной. Чем меньшую часть составит первый компонент по отношению ко второму, тем теснота связи окажется большей. В пределе, когда никакой вариации отдельных значений признака возле частных средних не будет наблюдаться, теснота связи окажется предельно большой. Аналогичным образом, при отсутствии изменчивости частных средних теснота связи окажется минимальной. Так как это соотношение вариации может быть рассмотрено для каждого из двух признаков, получается два показателя тесноты связи – h yx и h xy . Корреляционное отношение является величиной относительной и может принимать значения от 0 до 1. При этом коэффициенты корреляционного отношения обычно не равны друг другу, т.е. . Равенство между этими показателями осуществимо только при строго линейной зависимости между признаками. Корреляционное отношение является универсальным показателем: оно позволяет характеризировать любую форму корреляционной связи – и линейную, и нелинейную.

Коэффициенты корреляционного отношения h yx и h xy определяют рассмотренными выше способами, т.е. способом произведений и способом условных средних.

Способ произведений . Коэффициенты корреляционного отношения h yx и h xy определяют по следующим формулам:

где и – групповые дисперсии,

а и – общие дисперсии.

Здесь и – общие средние арифметические, а и – групповые средние арифметические;f yi – частоты ряда Y , а f xi – частоты ряда X ; k – количество классов; n – количество варьирующих признаков.

Рабочие формулы для расчета коэффициентов корреляционного отношения следующие:

Способ условных средних . Определяя коэффициенты корреляционного отношения по формулам (15), отклонения классовых вариант x i и y i можно брать не только от средних арифметических и , но и от условных средних А х и A y . В таких случаях групповые и общие девиаты рассчитываются по формулам и , а также, и , где и .

В развернутом виде формулы (15) выглядят следующим образом:

;

. (17)

В этих формулах и – отклонения классов от условных средних, сокращенные на величину классовых интервалов; значенияa y и a x выражаются числами натурального ряда: 0, 1, 2, 3, 4, … .Остальные символы объяснены выше.

Сравнивая способ произведений со способом условных средних, нельзя не заметить преимущество первого способа, особенно в тех случаях, когда приходится иметь дело с многозначными числами. Как и другие выборочные показатели, корреляционное отношение является оценкой своего генерального параметра и, как величина случайная, сопровождается ошибкой, определяемой по формуле

Достоверность оценки корреляционного отношения можно проверить по t-критерию Стьюдента. H 0 -гипотеза исходит из предположения, что генеральный параметр равен нулю, т.е. должно выполнятся следующее условие:

для числа степеней свободы и уровня значимостиα.

Коэффициент детерминации . Для истолкования значений, принимаемых показателями тесноты корреляционной связи, используют коэффициенты детерминации , которые показывают, какая доля вариации одного признака зависит от варьирования другого признака. При наличии линейной связи коэффициентом детерминации служит квадрат коэффициента корреляции R2 xy , а при нелинейной зависимости между признаками y и x – квадрат корреляционного отношения h2 yx . Коэффициенты детерминации дают основание построить следующую примерную шкалу, позволяющую судить о тесноте связи между признаками: при связь считается средней; указывает на слабую связь и лишь при можно судить о сильной связи, когда около 50 % вариации признакаY зависит от вариации признака X .

Оценка формы связи . При строго линейной зависимости между переменными величинами y и x осуществляется равенство . В таких случаях коэффициенты корреляционного отношения совпадают со значением коэффициента корреляции. Совпадут при этом по своему значению и коэффициенты детерминации, т.е. . Следовательно, по разности между этими величинами можно судить о форме корреляционной зависимости между переменнымиy и x :

Очевидно, что при линейной связи между переменными y и x показатель γ будет равен нулю; если же связь между переменными y и x нелинейная, γ > 0.

Показатель γ является оценкой генерального параметра и, как величина случайная, нуждается в проверке достоверности. При этом исходят из предположения о том, что связь между величинами y и x линейна (нулевая гипотеза). Проверить эту гипотезу позволяет F-критерий Фишера:

где a – численность групп, или классов вариационного ряда; N – объем выборки. Нулевую гипотезу отвергают, если для (находят по горизонтали табл.2 Приложений), (находят в первом столбце той же таблицы) и принятого уровня значимостиα.

Определение значимости корреляции

Классификации коэффициентов корреляции

Коэффициенты корреляции характеризуются силой и значимостью.

Классификация коэффициентов корреляции по силе.

Классификация коэффициентов корреляции по значимости.

Не следует путать 2 этих классификации, так как они определяют разные характеристики. Сильная корреляция может оказаться случайной и, стало быть, недостоверной. Особенно часто это случается в выборке с малым объемом. А в большой выборке даже слабая корреляция может оказаться высокозначимой.

После вычисления коэффициента корреляции необходимо выдвинуть статистические гипотезы:

Н 0: показатель корреляции значимо не отличается от нуля (является случайным).

Н 1: показатель корреляции значимо отличается от нуля (является неслучайным).

Проверка гипотез осуществляется сравнением полученных эмпирических коэффициентов с табличными критическими значениями. Если эмпирическое значение достигает критического или превышает его, то нулевая гипотеза отвергается: r эмп ≥ r кр Но, Þ Н 1 . В таких случаях делают вывод, что обнаружена достоверность различий.

Если эмпирическое значение не превышает критического, то нулевая гипотеза не отвергается: r эмп < r кр Þ Н 0 . В таких случаях делают вывод, что достоверность различий не установлена.

/ Статистика / Корреляция

Вычисление матрицы парных коэффициентов

корреляции

Для расчета матрицы парных коэффициентов корреляции следует вызвать меню Корреляционные матрицы модуля Основ ные статистики .

Рис. 1 Панель модуля основные статистики

Основные этапы проведения корреляционного анализа в системе SТАТІSТІСА рассмотрим на данных примера (см. рис. 2). Исходные данные представляют собой результаты наблюдений за деятельностью 23 предприятий одной из отрас-лей промышленности.

Рис.2 Исходные данные

Графы таблицы содержат следующие показатели:

РЕНТАБЕЛ - рентабельность, %;

ДОЛЯ РАБ - удельный вес рабочих в составе ППП, ед.;

ФОНДООТД - фондоотдача, ед.;

ОСНФОНДЫ - среднегодовая стоимость основных производственных фондов, млн руб.;

НЕПРРАСХ - непроизводственные расходы, тыс. руб. Требуется исследовать зависимость рентабельности от дрУ"

гих показателей.

Предположим, что рассматриваемые признаки в генераль-ной совокупности подчиняются нормальному закону распределения, а данные наблюдений представляют собой выборку из совокупности.

Вычислим парные коэффициенты корреляции между всеми переменными. После выбора строки Корреляционные матрицы на экране появится диалоговое окно Корреляции Пирсона . Название обусловлено тем, что впервые этот коэффициент был Пирсоном, Эджвортом и Велдоном.

Выберем переменные для анализа. Для этого в диалоговом окне имеются две кнопки: Квадр. матрица (один список) и Прямоуг. матрица (два списка).


Рис. 3 Диалоговое окно корреляционного анализа

Первая кнопка предназначена для вычисления матрицы обыч. ного симметричного вида с парными коэффициентами корреля-ции всех сочетаний переменных. Если при анализе используют-ся все показатели, то в диалоговом окне выбора переменных можно нажать кнопку Выбрать все. (Если переменные идут не подряд, их можно выбрать щелчком мыши с одновременно нажатой клавишей Ctrl )


Если нажать кнопку Подроб. диалогового окна, то для каж-дой переменной будут отображаться длинные имена. Щелкнув эту кнопку еще раз (она примет название Кратко ), получим короткие имена.

Кнопка Информация открывает окно для выбранной пере-менной, в котором можно просмотреть ее характеристики: длинное имя, формат отображения, отсортированный список значе-ний, описательные статистики (количество значений, среднее, стандартное отклонение).

После выбора переменных нажмем ОК или кнопку Корре ляции диалогового окна Корреляции Пирсона . На экране появится рассчитанная корреляционная матрица.

Значимые коэффициенты корреляции на экране выделяются красным цветом.

В нашем примере показатель рентабельности оказался наиболее связан с показателями фондоотдача (связь прямая) и производственные расходы (обратная связь, предполагающая реньшение V с увеличением X). Но насколько тесно взаимоязаны признаки? Тесной считается связь при значениях коэфциента по модулю больше чем 0.7 и слабой - меньше 0.3. таким образом, при дальнейшем построении уравнения регрессии следует ограничиться показателями «Фондоотдача» и «Непроизводственные расходы» как наиболее информативными.

Однако в нашем примере наблюдается явление мультиколшрности, когда существует связь между самими независимыми переменными (парный коэффициент корреляции по модулю больше чем 0.8).

Опция прямоугольная матрица (два списка переменных) открывает диалоговое окно выбора двух списков переменных. Поместим как на рисунке


В результате получаем прямоугольную корреляционную матрицу, содержащую лишь коэффициенты корреляции с зависимой переменной.


Если установлена опция Корр. Матрицу (выдел. значимые), то после нажатия кнопкиКорреляция будет построена матрица с коэф., выделенными на уровне значимостир .


Если выбрана опция Подробная таблица результатов , то, на-жав кнопку Корреляции , получим таблицу, которая содержит не только коэффициенты корреляции, но также средние, стан-дартные отклонения, коэффициенты уравнения регрессии, сво-бодный член в уравнении регрессии и другие статистики


Когда переменные имеют небольшую относительную вариацию (отношение стандартного отклонения к среднему меньше чем 0.0000000000001), требуется более высокая степень оценки. Ее можно задать, пометив галочкой опцию Вычисления с повы-шенной точностью диалогового окна Корреляции Пирсона.

Режим работы с пропущенными данными определяется оп-цией Построчное удаление ПД. Если ее выбрать, то SТАТІSТІСА проигнорирует все наблюдения, имеющие пропуски. В против-ном случае производится их попарное удаление.

Помеченный галочкой режим Отображать длинные имена переменных приведет к получению таблицы с длинными имена-ми переменных.

Графическое изображение корреляционных зависимостей

Диалоговое окно Корреляции Пирсона содержит ряд кнопок для получения графического изображения корреляционных зависимостей.

Опция 2М рассеяния строит последовательность диаграмм Рассеяния для каждой выбранной переменной. Окно для их выбора идентично рисунку 6. Слева следует указать висимые переменные, справа независимую - РЕНТАБЕЛ. Нажав ОК, получим график, на котором будет изображена одогнанная регрессионная прямая и доверительные границы рогноза.

Линейный коэффициент корреляции дает наиболее объективную оценку тесноты связи, если расположение точек в системе координат напоминает прямую линию или вытянутый эллипс, если же точки расположены в виде кривой, то коэффициент орреляции дает заниженную оценку.

На основе графика мы можем еще раз подтвердить взаимосвязь между показателями рентабельности и фондоотдачи, как данные наблюдений расположились в виде наклонного эллипса. Надо сказать, что связь считается тем теснее, чем бли-же точки к главной оси эллипса.

В нашем примере изменение показателя фондоотдачи на единицу приведет к изменению рентабельности на 5.7376%.

Посмотрим влияние показателя непроизводственных расходов на значение рентабельности. Для этого построим аналогичный график

Анализируемые данные уже меньше напоминают по своей форме эллипс, да и коэффициент корреляции несколько ниже. Найденное значение коэффициента регрессии показывает, что при увеличении непроизводственных расходов на 1 тысячу рублей рентабельность уменьшается на 0.7017%.

Следует заметить, что построение множественной регрессии (рассмотренное в последующих главах), когда уравнение со-держит одновременно оба признака, приводит к другим значе-ниям коэффициентов регрессии, что объясняется взаимодействи-ем объясняющих переменных между собой.

При использовании кнопки С именами точки на диаграмме рассеяния приобретут соответствующие им номера или имена, если они предварительно заданы.

Следующая опция с указанием графика Матричный строит атрицу диаграмм рассеяния для выбранных переменных.

ждый графический элемент этой матрицы содержит корреля-яонные поля, образуемые соответствующими переменными с

поженной на них линией регрессии.

При анализе матрицы диаграмм рассеяния следует обратить внимание на те графики, линии регрессии которых имеют суще-ственный наклон к оси X, что позволяет предположить суще-ствование взаимозависимости между соответствующими при-знаками.

Опция ЗМ рассеяния строит трехмерное корреляционное поле для выбранных переменных. Если использована кнопка С именами, точки на диаграмме рассеяния будут помечены номерами или именами соответствующих наблюдений, если они их имеют.

Графическая опция Поверхность строит ЗМ диаграмму рассеяния для выбранной тройки переменных вместе с подогнанной поверхностью второго порядка.

Опция Категор. диаграммы рассеяния в свою очередь строит каскад корреляционных полей для выбранных показателей.

После нажатия соответствующей кнопки программа попросит пользователя составить два их набора из отобранных ранее с помощью кнопки Переменные. Затем на экране появится новое

окно запроса для задания группирующей переменной, на основе которой будут классифицированы все имеющиеся наблюдения.

Результатом является построение корреляционных полей в резе групп наблюдений для каждой пары переменных, отне-яных к разным спискам

3.4. Расчет частных и множественных коэффици ентов корреляции

Для расчета частных и множественных коэффициентов кор. реляции вызовем модуль Множественная регрессия , используя кнопку переключателя модулей. На экране появится следующее диалоговое окно:

Нажав кнопку Переменные , выберем переменные для анализа: слева зависимую - рентабельность , а справа независимые - фондоотдача и непроизводственные расходы . Остальные переменные не будут участвовать в дальнейшем анализе - на основе проведения корреляционного анализа они признаны не-информативными для регрессионной модели.

В поле Файл ввода в качестве входных данных предлагаются обычные исходные данные, представляющие собой таблицу с переменными и наблюдениями, или корреляционная матрица. Корреляционную матрицу можно предварительно создать в самом модуле Множественная регрессия или вычислить с помо-щью опции Быстрые основные статистики.

При работе с файлом исходных данных можно задать ре-жим работы с пропусками:

    Построчное удаление. При выборе этой опции в анализе используются только те наблюдения, которые не имеют пропущенных значений во всех выбранных переменных.

    Замена средним. Пропущенные значения в каждой переменной заменяются средним, вычисленным по имеющимся комплектным наблюдениям.

    Попарное удаление пропущенных данных. Если выбрана эта опция, то при вычислении парных корреляций удаля-ются наблюдения, имеющие пропущенные значения в соответствующих парах переменных.

В поле Тип регрессии пользователь может выбрать стандартную или фиксированную нелинейную регрессию. По умолчачанию выбирается стандартный анализ множественной регрессии, при котором вычисляется стандартная корреляционная матрица всех выбранных переменных.

Режим Фиксированная нелинейная регрессия позволяет осуществить различные преобразования независимых переменных. Опция Провести анализ по умолчанию использует установки, соответствующие определению стандартной регрессионной рдели, включающей свободный член. Если эта опция отменена, то при щелчке мышью по кнопке ОК стартовой панели эется диалоговое окно Определение модели, в котором вы эжете выбрать как тип регрессионного анализа (например, пошаговый, гребневый и др.), так и другие опции.

Установив флажок строки опции Показывать описательные описательные , корр. матрицы и щелкнув ОК, получим диалоговое окно со статистическими характеристиками данных.

В нем вы можете просмотреть подробные описательные статистики (в том числе количество наблюдений, по которым был вычислен коэффициент корреляции для каждой пары переменных). Чтобы продолжить анализ и открыть диалоговое окно Определители модели, нажмите ОК.

Если анализируемые показатели имеют чрезвычайно малую относительную дисперсию, вычисляемую как общая дисперсия, деленная на среднее, то следует установить флажок около опции Вычисления с повышенной точностью для получения более точных значений элементов корреляционной матрицы.

Установив все необходимые параметры в диалоговом окне Множественная регрессия , нажмем ОК и получим результаты требуемых вычислений.

По данным нашего примера множественный коэффициент корреляции получился равным 0.61357990 и соответственно коэффициент детерминации - 0.37648029. Таким образом, лишь 37,6% дисперсии показателя «рентабельность» объясняется из-менением показателей «фондоотдачи» и «непроизводственных расходов». Такое низкое значение свидетельствует о недостаточ-ном числе факторов, введенных в модель. Попробуем изменить количество независимых переменных, дополнив список пере-менной «Основные фонды» (введение в модель показателя «доля рабочих в ППП» приводит к мультиколлениарности, что явля-ется недопустимым). Коэффициент детерминации несколько повысился, но не настолько, чтобы существенно улучшить результаты - его значение составило около 41%. Очевидно, наша дача требует дополнительных исследований по выявлению факторов, влияющих на рентабельность.

Значимость множественного коэффициента корреляции про-ряется по таблице Ф-критерия Фишера. Гипотеза о его значимости отвергается, если значение вероятности отклонения превышает заданный уровень (чаще всего берут а=0.1, 0.05; 0.01 0.001). В нашем примере р=0.008882 < 0.05, что свидетельствует о значимости коэффициента.

Таблица результатов содержит следующие графы:

    Коэффициент Бета (в) - стандартизованный коэффициент регрессии ддя соответствующей переменной;

    Частная корреляция - частные коэффициенты корреля-ции между соответствующей переменной и зависимой, при фиксировании влияния остальных, входящих в модель.

Частный коэффициент корреляции между рентабельностью и фондоотдачей в нашем примере равен 0.459899. Это означает, после ввода в модель показателя непроизводственных рас-эв влияние фондоотдачи на рентабельность несколько сни-пось - с 0.49 (значение парного коэффициента корреляции) 0.46. Аналогичный коэффициент для показателя непроизвод-аенных расходов также снизился - с 0.46 (значение парного коэффициента корреляции) до 0.42 (берут значение по модулю), характеризует изменение связи с зависимой переменной че ввода в модель показателя фондоотдачи.

    Получастная корреляция - корреляция между нескорректированной зависимой переменной и соответствующей не-зависимой с учетом влияния остальных, включенных в модель.

    Толерантность (определяется как 1 минус квадрат множественной корреляции между соответствующей переменной и всеми независимыми переменными в уравнении регрес- сии).

    Коэффициент детерминации - квадрат коэффициента множественной корреляции между соответствующей независимой переменной и всеми остальными переменными, входящими в регрессионное уравнение.

    1-значения - расчетное значение критерия Стьюдента для проверки гипотезы о значимости частного коэффициента корреляции с указанным (в скобках) числом степеней свободы.

    р-уровень! - вероятность отклонения гипотезы о значимости частного коэффициента корреляции.

В нашем случае полученное значение р для первого коэффициента (0.031277) меньше выбранного =0.05. Значение вто-рого коэффициента его несколько превышает (0.050676), что говорит о его незначимости на этом уровне. Но он значим, например, при =0.1 (в десяти случаях из ста гипотеза окажется все-таки неверна).

Корреляционная модель (КМ) - это программа вычислений, обеспечивающая получение математического уравнения, в котором результативный показатель количественно определен в зависимости от одного или нескольких показателей.

ух= ао+а1х1

где: у - результативный показатель, зависящий от фактора х;

х - факторный признак;

а1 - параметр КМ, показывающий на сколько изменится результативный показатель у при изменении фактора х на единицу, если при этом все остальные факторы, влияющие на у, остаются неизменными;

ао- параметр КМ, который показывает влияние всех остальных факторов на результативный показатель у, кроме факторного признака х

При выборе результативного и факторных показателей модели необходимо учитывать то, что результативный показатель в цепочке причинно-следственных связей стоит на более высоком уровне, чем факторные показатели.

Характеристики корреляционной модели

После расчета параметров корреляционной модели рассчитывают коэффициент корреляции.

р - коэффициент парной корреляции, -1 ≤ р ≤ 1, показывает силу и направление влияния факторного показателя на результативный. Чем ближе к 1, тем связь сильнее, чем ближе к 0, тем связь слабее. Если коэффициент корреляции имеет положительное значение, то связь прямая, если отрицательное - обратная.

Коэффициент корреляции формула: рху=(ху-х*1/у)/эх*эу

эх=хх2-(х)2 ; эу=у2-(у)2

Если КМ линейная многофакторная, имеющая вид:

ух= ао+а1х1+ а2х2+…+ апхп

то для нее рассчитывают множественный коэффициент корреляции.

0 ≤ Р ≤ 1 и показывает силу влияния всех вместе взятых факторных показателей на результативный.

Р= 1-((ух-уи)2/(уи -уср)2)

Где: ух - результативный показатель - расчетное значение;

уи - фактическое значение;

уср- значение фактическое, среднее.

Расчетное значение ух получается в результате подстановки в корреляционную модель вместо х1 , х2 и т.д. их фактических значений.

Для однофакторных и многофакторных нелинейных моделей рассчитывают корреляционное отношение:

1 ≤ м ≤ 1;

Считается, что связь между результативным и включенными в модель факторными показателями слабая, если значение коэффициента тесноты связи (м) в пределах 0-0,3; если 0,3-0,7 - теснота связи - средняя; выше 0,7-1 - связь сильная.

Так как коэффициент корреляции (парной) р, коэффициент корреляции (множественный) Р, корреляционное отношение м - величины вероятностные, то для них рассчитывают коэффициенты их существенности (определяются по таблицам). Если эти коэффициенты будут больше, чем их табличное значение, то коэффициенты тесноты связи являются причинами существенными. Если же коэффициенты существенности тесноты связи меньше табличных значений или если сам коэффициент связи меньше, чем 0,7, то в модель включены не все факторные показатели, существенно влияющие на результат.

Коэффициент детерминации наглядно демонстрирует, на сколько процентов включенные в модель факторные показатели определяют формирование результата.

Если коэффициент детерминации больше 50, то модель адекватно описывает исследуемый процесс, если меньше 50, то надо вернуться к первому этапу построения и пересмотреть отбор факторных показателей для включения их в модель.

Коэффициент Фишера или критерий Фишера характеризует эффективность модели в целом. Если расчетное значение коэффициента превышает табличное, то построенная модель годится для анализа, а также планирования показателей, расчетов на перспективу. Ориентировочно табличное значение =1,5. Если расчетное значение меньше табличного, необходимо построить модель сначала, включив существенно влияющие на результат факторы. Кроме эффективности модели в целом на существенность влияет каждый коэффициент регрессии. Если расчетное значение данного коэффициента превзошло по величине табличное, то коэффициент регрессии будет существенен, если меньше, то факторный показатель, для которого рассчитан данный коэффициент, изымают из выборки, расчеты начинают сначала, но уже без этого фактора.

Понравилось? Лайкни нас на Facebook