Инновации и эксперимент в образовании

Критерии результативности в эксперименте
Добавил(а) Тимофеева О.Ю.   
19.07.09 22:41

Критерии результативности в эксперименте: применение методов математической статистики1

Статистические гипотезы

Статистический метод расчета определенного числа также обозначают и называют статистическим критерием. Статистический критерий – это решающее правило, обеспечивающее надежное поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью (Суходольский Г.В., 1972, С.291).

Когда мы говорим, что достоверность различий определялась по критерию χ2, то имеем в виду, что использовали метод χ2 для расчета определенного числа. Когда мы говорим, далее, что χ2= 12,676, то имеем в виду определенное число, рассчитанное по методу χ2. Это число обозначается как эмпирическое значение критерия.

По соотношению эмпирического и критического значений критерия мы можем судить о том, подтверждается ли или опровергается нулевая гипотеза. Например, если χ2эмп > χ2кр, Н0 отвергается. В большинстве случаев для того, чтобы мы признали различия значимыми, необходимо, чтобы эмпирическое значение критерия превышало критическое, хотя есть критерии (например, критерий Манна – Уитни или критерий знаков), в которых мы должны придерживаться противоположного правила. Правила для каждого критерия свои и оговариваются в руководстве метода.

{mosregread}В некоторых случаях расчетная формула критерия включает в себя количество наблюдений в исследуемой выборке, обозначаемое как n. В этом случае эмпирическое значение критерия одновременно является тестом для проверки статистических гипотез. По специальной таблице мы определяем, какому уровню статистической значимости различий соответствует данная эмпирическая величина. Примером такого критерия является критерий φ, вычисляемый на основе углового преобразования Фишера.

В большинстве случаев, однако, одно и то же эмпирическое значение критерия может оказаться значимым или незначимым в зависимости от количества наблюдений в исследуемой выборке (n) или от так называемого количества степеней свободы, которое обозначается как v или как d f.

Число степеней свободы v равно числу классов вариационного ряда минус число условий, при которых он был сформирован (Ивантер Э.В., Коросов А.В., 1992, С.56). К числу таких условий относятся объем выборки (n), средние и дисперсии. Если мы расклассифицировали наблюдения по классам какой-либо номинативной шкалы и подсчитали количество наблюдений в каждой ячейке классификации, то мы получаем так называемый частотный вариационный ряд. Единственное условие, которое соблюдается при его формировании – объем выборки n. Например: допустим, у нас 3 класса: «Умеет работать на компьютере – умеет выполнять лишь определенные операции – не умеет работать на компьютере.» Выборка состоит из 50 человек. Если в первый класс отнесены 20 испытуемых, во второй – тоже 20, то в третьем классе должны оказаться все остальные 10 испытуемых. Мы ограничены одним условием – объемом выборки. Поэтому даже если мы потеряли данные о том, сколько человек не умеют работать на компьютере, мы можем определить это, зная, что в первом и втором классах – по 20 испытуемых. Мы не свободны в определении количества испытуемых в третьем разряде, «свобода» простирается только на первые две ячейки классификации:

v = с – 1 = 3 – 1=2

Аналогичным образом, если бы у нас была классификация из 10 разрядов, то мы были свободны только в 9 из них, если бы у нас было 100 классов – то в 99 из них и т.д.

Зная n и I или число степеней свободы, мы по специальным таблицам можем определить критические значения критерия и сопоставить с ними полученное эмпирическое значение. Обычно это записывается так: «при n = 22 критические значения критерия составляют…» или «при v = 2 критические значения критерия составляют…» и т.д. [6 С.24-27].

Объем выборки n в математической статистике называется генеральной совокупностью, статистической совокупностью в зависимости от цели эксперимента. Так, генеральной совокупностью называют всю совокупность реально существующих объектов, из которых тем или иным способом извлекается выборочная совокупность. Статистическая совокупность – множество объектов, явлений, объединенных какими-либо общими свойствами (признаками) и подвергающихся статистическому исследованию [9 С.455].

Критерии делятся на параметрические и непараметрические. И те, и другие имеют свои преимущества и недостатки. На основании нескольких руководств можно составить таблицу, позволяющую оценить возможности и ограничения тех и других (Рунион Р.,1982; McCall R.,1970; J. Greene, M.D Olivera, 1989).

Таблица 1

Возможности и ограничения параметрических и непараметрических критериев

Параметрические критерии

Непараметрические критерии

1. Позволяют прямо оценить различия в средних, полученных в двух выборках (t – критерий Стьюдента)

1. Позволяют оценить лишь средние тенденции, например, ответить на вопрос, чаще ли в выборке А встречаются более высокие, а в выборке Б – более низкие значения признака (критерии Q, U, φ и др.)

2. Позволяют прямо оценить различия в дисперсиях (критерий Фишера).

2. Позволяют оценить лишь различия в диапазонах вариативности признака (критерий φ).

3. Позволяют выявить тенденции изменения признака при переходе от условия к условию (дисперсионный однофакторный анализ), но лишь при условии нормального распределения признака.

3. Позволяют выявить тенденции изменения признака при переходе от условия к условию при любом распре делении признака (критерии тенденций L и S).

4. Позволяют оценить взаимодействие двух и более факторов в их влиянии на изменения признака (двухфакторный дисперсионный анализ).

4. Эта возможность отсутствует.

5. Экспериментальные данные должны отвечать двум, а иногда, трем,
условиям:

а) значения признака из мерены по интервальной шкале;

б) распределение признака является нормальным;

в) в дисперсионном анализе должно соблюдаться требование равенства
дисперсий в ячейках комплекса.

5. Экспериментальные данные могут не отвечать ни одному из этих условий:

а) значения признака могут быть представлены в любой шкале, начиная от шкалы наименований;

б) распределение признака может быть любым и совпадение его с каким-либо теоретическим законом распределения необязательно и не нуждается в проверке;

в) требование равенства дисперсий отсутствует.

6. Математические расчеты довольно сложны.

6. Математические расчеты по большей части просты и занимают мало времени (за исключением критериев χ2 и λ).

7. Если условия, перечисленные в п.5, выполняются, параметрические критерии оказываются несколько более мощными, чем непараметрические.

7. Если условия, перечисленные в п.5, не выполняются, непараметрические
критерии оказываются более мощными, чем параметрические, так как они менее чувствительны к «засорениям».

Из таблицы 1 мы видим, что параметрические критерии могут оказаться несколько мощными, чем непараметрические, но только в том случае, если признак измерен по интервальной шкале и нормально распределен. Мощность критерия – это его способность выявлять различия, если они есть. Иными словами, это его способность отклонить нулевую гипотезу об отсутствии различий, если она неверна. Мощность критерия – это его способность не допустить ошибку 2 рода (ошибка, состоящая в том, что мы приняли нулевую гипотезу, в то время как она неверна), поэтому:

мощность = 1 – β.

Мощность критерия определяется эмпирическим путем. Одни и и те же задачи могут быть решены с помощью разных критериев, при этом обнаруживается, что некоторые критерии позволяют выявить различия там, где другие оказываются неспособными сделать это, или выявляют более высокий уровень значимости различий. Возникает вопрос: «А зачем же тогда использовать менее мощные критерии?» Дело в том, что основанием для выбора критерия может быть не только мощность, но и другие его характеристики, а именно:

  • простота;
  • более широкий диапазон использования (например, по отношению к данным, определенным по номинативной шкале, или по отношению к большому объему выборки);
  • применимость по отношению к неравным по объему выборки;
  • большая информативность результатов.

С интервальной шкалой есть определенные проблемы. Лишь с некоторой натяжкой мы можем считать данные, представленные в нестандартизированных оценках, как интервальные. Кроме того, проверка распределения «на нормальность» требует достаточно сложных расчетов, результат которых заранее неизвестен. Может оказаться, что распределение признака отличается от нормального, и нам так или иначе все равно придется обратиться к непараметрическим критериям.{/mosregread}

Непараметрические критерии лишены всех этих ограничений и не требуют таких длительных и сложных расчетов. По сравнению с параметрическими критериями они ограничены лишь в одном – с их помощью невозможно оценить взаимодействие двух или более условий или факторов, влияющих на изменение признака. Эту задачу может решить только дисперсионный двухфакторный анализ [6 С.29].

Очень важно, на наш взгляд, разобраться с уровнем статистической значимости, который показывает вероятность того, что мы сочли различия существенными, а они на самом деле случайны. Когда мы указываем, что различия достоверны на 5%-ом уровне значимости, или при p ≤ 0,05, то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,05. Когда мы указываем, что различия достоверны на 1%-ом уровне значимости, или при p ≤ 0,01, то мы имеем в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01. Если перевести на более формализованный язык, то уровень значимости – это вероятность отклонения нулевой гипотезы, в то время как она верна. Ошибка, состоящая в том, что мы отклонили нулевую гипотезу, в то время как она верна, называется ошибкой 1 рода.

Вероятность такой ошибки обычно обозначается как α, В сущности, мы должны были бы указать в скобках не p ≤ 0,05 или p ≤ 0,01, а α ≤ 0,05 или α ≤ 0,01.

Если вероятность ошибки – это α, то вероятность правильного решения: 1 – α. Чем меньше α, тем больше вероятность правильного решения. Исторически сложилось так, что в психологии и педагогике принято считать уровнем статистической значимости 5%-ый уровень (p ≤ 0,05): достаточным – 1%-ый уровень (p ≤ 0,01) и высшим 0,1%-ый уровень (p ≤ 0,001), поэтому в таблицах критических значений обычно приводятся значения критериев, соответствующих уровням статистической значимости p ≤ 0,05 и p ≤ 0,01, иногда p ≤ 0,001.Для некоторых критериев в таблицах указан точный уровень значимости их разных эмпирических значений. До тех пор, однако, пока уровень статистической значимости не достигнет p = 0,05, мы еще не имеем права отклонить нулевую гипотезу. Вслед за Р. Рунионом (1982), мы будем придерживаться следующего правила отклонения гипотезы об отсутствии различий (Н0) и принятия гипотезы о статистической достоверности различий (Н1).

Правило отклонения Н0 и принятия Н1

Если эмпирическое значение критерия равняется критическому значению, соответствующему p ≤ 0,05 или превышает его, то Н0 отклоняется, но мы еще не можем определенно принять Н1. Если эмпирическое значение критерия равняется критическому значению, соответствующему p ≤ 0,01 или превышает его, то отклоняется Н0 и принимается Н1.

Исключения: критерий знаков G, критерий Т Вилкоксона и критерий U Манна-Уитни. Для них устанавливаются обратные соотношения.

{mosregread}Уровень статистической значимости или критические значения критериев определяются по-разному при проверке направленных и ненаправленных статистических гипотез. При направленной статистической гипотезе используется односторонний критерий, при ненаправленной гипотезе – двусторонний критерий. Двусторонний критерий более строг, поскольку он проверяет различия в обе стороны, и поэтому то эмпирическое значение критерия, которое ранее соответствовало уровню значимости p ≤ 0,05, теперь соответствует лишь уровню p ≤ 0,10. Проверка статистических гипотез с помощью непараметрических критериев осуществляется на основе сравнения результатов, полученных в выборках, каждая из которых составлена из членов одной из рассматриваемых совокупностей. В то же время использование того или иного способа проверки статистических гипотез зависит не только от характера измерений, но и от особенностей выборок. А именно существуют два вида выборок: зависимые и независимые. Если результаты измерения некоторого свойства у объектов первой выборки не оказывают влияния на результаты измерения этого свойства у объектов второй выборки, то такие выборки считаются независимыми. В тех случаях, когда результаты одной выборки влияют на результаты другой выборки, выборки считаются зависимыми.

Таблица 2

Классификация задач и методов их решения
(приведенных Сидоренко Е.В.)

Задачи Условия Методы
1. Выявление различий в уровне исследуемого признака а) 2 выборки испытуемых Q – критерий Розенбаума
U – критерий Манна-Уитни
φ – критерий (угловое преобразование Фишера)
б) 3 и более выборок испытуемых S – критерий тенденций Джонкира
Н – критерий Крускала-Уоллиса
2. Оценка сдвига значений исследуемого признака а) 2 замера на одной и той же выборке испытуемых Т – критерий Вилкоксона
G – критерий знаков
φ – критерий (угловое преобразование Фишера)
б) 3 и более замеров на одной и той же выборке испытуемых χх2 – критерий Фридмана
L – критерий тенденций Пейджа
3. Выявление различий в распределении признака а) при сопоставлении эмпирического распределения с теоретическим χ2 – критерий Пирсона (хи-квадрат)
λ – критерий Колмогорова-Смирнова
m – биномиальный критерий
б) при сопоставлении двух эмпирических распределений χ2 – критерий Пирсона ( хи-квадрат)
λ – критерий Колмогорова-Смирнова
φ – критерий (угловое преобразование Фишера)
4. Выявление степени согласованности изменений а) двух признаков rs – коэффициент ранговой корреляции Спирмена
б) двух иерархий или профилей rs – коэффициент ранговой корреляции Спирмена
5. Анализ изменения признака под влиянием контролируемых условий а) под влиянием одного фактора S – критерий тенденций Джонкира
L – критерий тенденций Пейджа
Однофакторный дисперсионный анализ Фишера
б) под влиянием двух факторов одновременно Двухфакторный дисперсионный анализ Фишера

 

Для проверки статистических гипотез на основе результатов измерений некоторых свойств объектов зависимых и независимых выборок в математической статистике разработаны специальные методы.{/mosregread}

Для сравнения результатов двух зависимых выборок используют следующие непараметрические критерии:

  • критерий Макнамары;
  • критерий знаков;
  • критерий Вилкоксона.

Для сравнения результатов двух независимых выборок применяют такие непараметрические критерии, как:

  • медианный критерий;
  • критерий Вилкоксона-Манна-Уитни;
  • критерий χ2 (хи-квадрат);
  • критерий Колмогорова-Смирнова.

Тимофеева О.Ю.,
кандидат педагогических наук,
доцент ФГОУ АПК и ППРО,
учитель экологии ГОУ СОШ
с углубленным изучением экологии №446
г. Москва


1 Тимофеева О.Ю. Критерии результативности в эксперименте: применение методов математической статистики: Учебно-методическое пособие. – М.: АПКиППРО, 2008. – 36 с.