Инновации и эксперимент в образовании

Практическое применение непараметрического метода математической статистики – критерия хи-квадрата..
Добавил(а) Тимофеева О.Ю.   
20.08.09 12:00

Практическое применение непараметрического метода математической статистики – критерия хи-квадрата для прверки достоверности результатов эксперимента1

(на примере диссертации О.Ю. Тимофеевой)

В изложенном ниже примере по статистической достоверности результатов эксперимента из диссертационного исследования Тимофеевой О.Ю. «Организационно-педагогические условия формирования экологической культуры школьников (на примере изучения местной экологической ситуации)» по специальности 13.00.01 – общая педагогика, история педагогики и образования применен непараметрический метод математической статистики. Он рассматривался нами для проверки гипотезы 4-ого типа, т.е. гипотезы о принадлежности наблюдаемых двух выборок к одной и той же совокупности, имеющим различный закон распределения изучаемого свойства. Следует отметить, что «непараметрическим критерием» называется тот критерий, который не опирается на предположение о конкретном типе распределения генеральных совокупностей и не использует параметры этих совокупностей. Этот термин впервые введен И.Вольфовицем (1942). В отличие от параметрических критериев, непараметрические критерии можно применять и в тех случаях, когда результаты выборок измерены с помощью шкал наименований и порядка. Достоинством непараметрических критериев является относительная простота вычислительных процедур, связанных с практическим применением этих критериев.

{mosregread}Для доказательства достоверности полученных результатов в ходе формирующего эксперимента нами был применён непараметрический метод математической статистики в педагогических исследованиях, который называется критерием χ2 (хи-квадрата). Критерий χ2 (хи-квадрат), с помощью которого проверяется статистическая гипотеза, позволяет формулировать достаточно обоснованные выводы только при условии, что исходные данные, используемые для вычисления статистики критерия, объективны.

Критерий χ2 (хи-квадрат) применяется для сравнения распределений объектов двух совокупностей по состоянию некоторого свойства на основе измерений по шкале наименований этого свойства в двух независимых выборках из рассматриваемых совокупностей [3, С. 96].

Применение критерия χ2 (хи-квадрат) возможно и в том случае, когда объекты двух выборок из двух совокупностей по состоянию изучаемого свойства распределяются более чем на две категории [3, С.100]. В нашем исследовании объекты двух выборок (экспериментальная и контрольная группы) по состоянию изучаемого свойства (уровень формирования компонентов экологической культуры) распределяются на четыре категории в соответствии со значимостью выбранных ответов самими респондентами.

Данные. Из двух совокупностей сделаны выборки №1 (э) и №2 (к) (соответствуют экспериментальной и контрольной группе) объёмом n1 и n2 , которые определяются по следующим формулам:

n1 = О11 + О12 + О131314 , n221222324 , где

О11 – число учащихся первой выборки (экспериментальной группы), выбравшие ответ №2,

О12 – число учащихся первой выборки, выбравших ответ №15,

О13 – число учащихся первой выборки, выбравших ответ №12,

О13 – число учащихся первой выборки, выбравших ответ №3,

О21 – число учащихся второй выборки (контрольной группы), выбравших ответ №2,

О22 – число учащихся второй выборки, выбравшие ответ №15,

О23 – число учащихся второй выборки, выбравших ответ №12,

О24 – число учащихся второй выборки, выбравших ответ №3.

Результаты измерения состояния изучаемого свойства у объекта (уровень сфоримированности компонента экологической культуры) каждой выборки (выборка №1 (э) и №2 (к)) распределяются на категории 1,2,3,4 (по степени значимости выбранного ответа респондентами). На основе этих данных составляется таблица 2 Х С, в которой два ряда (по числу рассматриваемых совокупностей, т.е. экспериментальная и контрольная) и 4 колонки (по числу различных категорий состояния изучаемого свойства, принятых в исследовании) (табл. 1).

Допущения. Для применения критерия хи-квадрата необходимо выполнение следующих требований, которых мы придерживались в нашем исследовании:

  • 1) обе выборки случайные;
  • 2) выборки независимы, и члены каждой выборки независимы между собой;
  • 3) шкала измерений может быть не выше шкалы наименований с несколькими категориями (С).

Рассмотрим на отдельном примере достоверность полученных результатов формирующего эксперимента при формировании у старшеклассников экспериментальной и контрольной групп состояния изучаемого свойства - экологического поведения как компонента экологической культуры [7, С.121-125].

Гипотеза критерия. Обозначим р1 - вероятность того, что уровень сформированности компонента экологической культуры – экологического поведения у десятиклассников экспериментальной группы, изучающих местные экологические проблемы по программе факультативного курса (кружка) «Изучение местной экологической обстановки» будет выше, чем у десятиклассников контрольной группы, изучающих местные экологические проблемы по программе факультативного курса «Экологический мониторинг» обозначим р2 . На основании данных табл. 4 следует проверить нулевую гипотезу Н0 : р1= р2 для всех категорий С=4 – при альтернативной гипотезе Н1 : р1 > р2 хотя бы для одной из категорий С=4.{/mosregread}

Статистика критерия. Результаты формирующего эксперимента по формированию уровня экологического поведения запишем в виде таблицы 2 Х 4 (таблица 4).

Таблица 4

Категория 1 Категория 2 Категория 3 Категория 4
О11 =19 О12 =15 О13 =12 О14 =11
О21 =19 О22 =7 О23 =7 О24 =16

В таблице 4 к категории 1 относится ответ №2, к категории 2 – ответ №15, к категории 3 – ответ №12, к категории 4 – ответ №3. В выборке №1 объём n1 = О11+ О12 + О13 + О14 и составил 57. Объём n2 = О21 + О22 2324 и составил 49. Для проверки гипотезы подсчёт значения статистики критерия χ2 (хи-квадрат) производится по следующей формуле, учитывая число категорий С=4:

Т= 1/ n1 * n2 * [ (n1* О21 - n2 * О11 ) 2 / (О11 + О21) + (n1* О22 - n2 * О12 ) 2 / (О12 + О22 ) + n1* О23 - n2 / О13 ) 2 / (О13 + О23 ) + (n1* О24 - n2 * О14 ) 2 / (О14 + О24 ) ].

В результате математических вычислений значения статистики критерия хи-квадрат по представленной формуле получаем значение Т = 4,573. По таблице «χ 2 с С-1 степенью свободы»2 для L = 0,05 (принятый уровень значимости) и числа степеней свободы v=С-1=4-1=3 находим критическое значение статистически критерия Т (х2 ): χ1–L = 7,815 отсюда верно неравенство Тнаблюд. < Ткритич. ( 4,573 < 7,815), т.е. в соответствии с правилом принятия решения полученные результаты не дают достаточных оснований для отклонения нулевой гипотезы Н0 : р1 = р2. Нулевая гипотеза также рассматривается и доказывается при вычислении двух других состояний изучаемых свойств (уровня сформированности экологического мышления и экологических знаний). Чтобы не перегружать статью математическими выкладками при подсчёте критического значения статистически критерия хи-квадрата, приведем окончательные результаты значения Т (в полном объеме математические вычисления приведены в Приложении 5 диссертации) [7, С.174-178].

Значение Тнаблюд.(ответы респондентов, определяющие уровень сформированности экологического мышления) равно 1,406, а Тнаблюд. (ответы респондентов, определяющие уровень сформированности экологических знаний) равно 7,458.

Четвёртое значение Т, полученное на основании экспериментальных данных по уровню сформированности у старшеклассников личной ответственности как составляющей культуры чувств равно 16,418. Сравнивая значение Тнаблюд. с Ткритич. по таблице «χ2 с С-1 степенью свободы» [3, С.130] видим, что выполняется неравенство Тнаблюд > Ткритич. ( 16,418 > 7,815). Таким образом, нулевая гипотеза отклоняется на уровне L и принимается альтернативная гипотеза р1 > р2 . Это означает, что распределение объектов (экспериментальная и контрольная группы) на четыре категории по состоянию изучаемого свойства (уровня сформированности компонентов экологической культуры) различно в двух рассматриваемых совокупностях (выборка №1 и №2).

Таким образом, нахождение критерия хи-квадрат выявило, что уровень сформированности компонентов экологической культуры у десятиклассников экспериментальной группы, изучающих местные экологические проблемы по программе факультативного курса (кружка) «Изучение местной экологической обстановки» будет выше, чем у десятиклассников контрольной группы, изучающих местные экологические проблемы по программе факультативного курса «Экологический мониторинг».

2.2. Применение критерия рандомизации Фишера (на примере диссертации А.В. Яшуковой)

 

Рассмотрим еще один пример доказательства статистической достоверности полученного результата в ходе педагогического эксперимента на основе критерия рандомизации Фишера из диссертационного исследования Яшуковой А.В. «Разработка и использование системы частично-поисковых заданий как средства формирования у учащихся приемов умственной деятельности» по специальности 13.00.01 – общая педагогика, история педагогики и образования [10].

Критерий рандомизации Фишера известен под названием «рандомизированного анализа». В нем вероятностная основа вывода обеспечивается самой рандомизацией. При формировании вывода учитываются все возможные исходы эксперимента, и на этой основе определяется, насколько случаен полученный результат.

{mosregread}Разобраться детально в теории данного критерия педагогам-экспериментаторам поможет сопоставление условий своего эксперимента с интересной историей о «леди, которая дегустирует чай», изложенной в первой главе книги Фишера по планированию эксперимента. Именно такая история лежит в основе рандомизированного анализа, которая наиболее полно и ясно раскрывает его суть.

Итак, вот эта история: «….некая леди заявила, что она может определить, как приготовлен чай с молоком – что наливали в начале: чай (ЧМ) или молоко (МЧ). Как проверить это утверждение? Казалось бы, можно предложить леди продегустировать одну чашку с молоком, приготовленным одним из этих двух способов.

Однако, даже если леди правильно распознает технологию приготовления чая, достоверность выводов невелика, потому что имеется пятидесятипроцентный шанс случайно сделать правильное распознавание.

Для получения обоснованного решения этой задачи Фишер предложил схему планирования эксперимента и процедуру обработки данных, которые послужили основой рандомизированного анализа. Во-первых, было предложено число чашек и подавать их для дегустации в случайном порядке, во-вторых, при формировании вывода учесть все возможные исходы эксперимента и на этой основе определить, насколько случаен полученный результат.

Прежде чем признать способности леди распознавать две различные технологии приготовления чая, ее подвергли следующему эксперименту. Были приготовлены восемь чашек, четыре «чай-молоко» и четыре «молоко-чай». Чашки совершенно одинаковые и располагаются на столе в случайном порядке. Леди сообщает, что четыре из них приготовлены по первой технологии, а четыре других – по второй. Ёе задача – разделить восемь чашек на две группы, по четыре чашки в каждом, в соответствии с технологией приготовления чая. Вероятность случайного распознавания здесь очень мала. Существует всего C84 =8*7*6*5/ (1*2*3*4)=70 способов разбиения восьми чашек по четыре и только один из них правильный. Поэтому вероятность случайного распознавания равна 1/70=0,0143. Следовательно, если леди правильно определит чашки, то вывод о том, что она обладает способностью распознавать две технологии приготовления чая с молоком, будет вполне надежным».

В рассматриваемой задаче возможен конфликт между двумя точками зрения – точкой зрения жюри и точкой зрения леди. В статистических терминах это формулируется следующим образом. Гипотеза H0 заключается в том, что леди не обладает способностью к распознаванию двух технологий приготовления чая с молоком, альтернативная гипотеза H1 – леди обладает такой способностью. Для жюри важно избежать ошибки признания ее способностей, когда в действительности их нет. Это ошибка первого рода: отклоняется H0 и приминается H1, когда верна H0. Но для леди самое главное избежать ошибки, состоящей не в признании ее способностей, когда в действительности они есть. Это ошибка второго рода: не отклоняется гипотеза H0, когда верна H1. Эту ошибку стремиться минимизировать леди.

По условию задачи леди должна правильно классифицировать все восемь чашек, тогда ошибка первого рода будет равняться 1/70, что меньше уровня значимости α=0,05. С точки зрения жюри эксперимент запланирован хорошо, но с точки зрения леди он может вызвать возражения. Ведь леди поставлена в жесткие условия без права даже на одну ошибку. Она может потребовать, чтобы ей дали это право. Будет или не будет удовлетворено ее требование, зависит от того, как понимать способности к дегустации. Если эти способности заключаются не в том, что испытуемая должна совершенно точно определять разницу в технологии, а в том, что она чаще определяет разницу правильно, чем неправильно, то она имеет право на ошибку. Описывая свою задачу, Фишер сам обращает на это внимание и указывает, что эксперимент должен продолжаться долго, чтобы дать леди возможность показать, действительно ли количество ее правильных ответов превосходит число ошибок. Если леди предложить 12 чашек, то можно допустить с ее стороны одну ошибку, не ставя под сомнение ее способности на уровне значимости α=0,05 [4, С. 91-93].

Опираясь па приведенную выше теорию критерия рандомизации Фишера, рассмотрим его применение на результатах педагогического эксперимента исследователя А.В. Яшуковой.

Автор А.В. Яшукова пишет в своем исследовании, «….в результате эксперимента нам необходимо было установить, есть ли значимое различие между двумя системами заданий, используемых для формированием приемов умственной деятельности: экспериментальной а1 и традиционной а2, и выбрать ту систему заданий, которая наиболее эффективна.

Гипотеза Н0 заключалась в том, что Δа1 а2 = 0, т.е. нет разницы между традиционной и разработанной системами заданий. Для проверки данной гипотезы мы использовали оценку элементарного контраста (S):

S = ?1 - ?2 ,

где ?1 - среднее значение отклика3 для экспериментальной обработки, ?2 - среднее значение отклика для контрольной обработки.

Альтернативная гипотеза Н1имеет вид Δа1 а2 > 0, т.е. разработанная система заданий эффективнее традиционной.

После проведения эксперимента для каждого из восьми классов было получено экспериментальное значение отклика, вычислены среднее значение отклика для экспериментальной обработки (?1 ), среднее значение отклика для контрольной обработки (?2 ), оценка элементарного контраста (S) для приемов сравнения, обобщения и классификации по каждому из этапов эксперимента. Результаты этой работы отражены в 64 стоке таблиц 1-15 в приложении 5.

При справедливости гипотезы Н0 значения откликов (у1 , у2 , у3 , ..., у8 ) определяются только неоднородностью самих классов, и не зависят от того, какая система заданий использовалась: экспериментальная или традиционная. В этом случае значение статистики S зависит от исхода рандомизации (от того, как распределены классы по экспериментальной и традиционной обработкам).

В рандомизированном анализе мы определяли вероятность случайного получения значения элементарного контраста S не меньшего, чем в проведенном эксперименте.

В нашем эксперименте число всех возможных исходов рандомизации М, определяющих размещение экспериментальных единиц в плане эксперимента, равно 70. При проведении гипотетического эксперимента в каждый план, помещенный в таблицах 1-15 (см приложение 5), мы подставляли значения откликов у1 , у2* , у3 , ..., у8 и вычислили статистику S. В столбцах 4 и 5 находятся средние значения для экспериментальных (?1 ) и контрольных (?2 ) классов соответственно, в столбце 6 - разность между этими значениями (S = ?1 - ?2 ).

Затем мы определили для каждого из рассматриваемых приемов по каждому этапу проведения эксперимента число исходов K, у которых значение статистики S не меньше полученного в эксперименте и вычислили уровень значимости aR = К/М, при котором отбрасывается гипотеза Н0.

Таким образом, на уровне значимости aR = 0,014, определенном для каждого уровня сформированности приемов умственной деятельности у учащихся, можно сделать вывод о том, что разработанная нами система заданий, используемая в процессе обучения, обеспечивает значимо лучшее формирование приемов умственной деятельности, чем традиционная….». Данные обработки результатов эксперимента А.В. Яшуковой по изучаемому критерию приведены в Приложении 2-4 настоящего пособия.

Итак, статистические методы помогают исследователям описывать данные, делать выводы в отношении больших массивов данных и изучать причинные зависимости. Знание статистики становится необходимым для успешной деятельности в любой эмпирической области.

Используемая литература

  1. Вентцель Е.С. Теория вероятностей. М.: Наука, 1969. - 519 (02) В - 296*
  2. Гласс Дж., Дж. Стенли. Статистические методы в педагогике и психологии . М.: Прогресс., 1976. – 496 с. - 37 (01) Г 527*
  3. . Грабарь М.И., Краснянская К.А. Применение математи-ческой статистики в педагогических исследованиях. Непараметрические методы. М.: Педагогика, 1977. – 136 с. – 37 (01) Г 7511*
  4. Маслак А.А. Основы планирования и анализа сравнительного эксперимента в педагогике и психологии. – Курск: РОСИ, 1998. - 167с. – 37 М – 314*
  5. Пиотровский Р.Г., Бектаев Б.К., Пиотровская А.А. Математическая лингвистика. М.: Высшая школа, 1977. – 383 с. - 40 (02) П 328*
  6. Сидоренко Е.В. Методы математической обработки в психологии. – Санкт-Петербург: Речь, 2000. – 349 с. - 15 / С – 347*
  7. Тимофеева О.Ю. Организационно-педагогические условия формирования экологической культуры школьников (на примере изучения местной экологической ситуации): Дис. канд. пед. наук. : 13.00.01 / Ин-т повышения квалификации и переподгот. работников нар. образования Моск. обл. – М., 2002. – 181 с.
  8. Сиденко А.С., Новикова Т.Г. Эксперимент в образовании. Учебное пособие для директоров инновационных учебных заведений, заместителей директоров по научной и экспериментальной работе, учителей-экспериментаторов. – М.: АПК и ПРО, 2002. – 94 с.
  9. Статистический словарь / гл ред. М.А. Королев. – 2-е изд., перераб. и доп. – М.: Финансы и статистика. – 1989. – 623 с.
  10. Яшукова А.В. Разработка и использование системы частично-поисковых заданий как средства формирования у учащихся приемов умственной деятельности: Автореф. дис. ... канд. пед. наук : 13.00.01 /Ин-т повышения квалификации и переподгот. работников нар. образования Моск. обл. - М., 2002. - 21 с.

Рекомендуемая литература по математической статистике для оценки педагогического эксперимента

  1. Архангельский С.И., Михеев В.И., Машников С.А. О моделировании и методике обработке данных педагогического эксперимента. – М.,1974. - 37 (01) А-872*
  2. Архангельский С.И. Вопросы измерения, анализа и оценки результатов в практике педагогических исследований. – М.: Знание, 1975. – 37 (01) А – 872*
  3. Бронштейн И.Н.,Семендяев К.А. Справочник по математике. – М.: Наука, 1986. – 544 с. - 51 (083) Б 886*
  4. Измерение знаний при проведении массовых обследований. – М., 1984. – 107 с. – 373-11 И-374*
  5. Ительсон Л.Б. Математические методы в педагогике и педагогической психологии. Вып. 1-3- М.: Знание, 1969. – 37 (01) И-924*
  6. Кыверялг А.А. Методы исследования в профессиональной педагогике. – Таллин: Валтус, 1980. – 34 с. – 37 (01) К-978*
  7. Михеев В.И. Моделирование и методы теории измерений в педагогике: Науч.-метод. Пособие для педагогов-исследователей, математиков, аспирантов и науч. работников, занимающихся вопросами методики пед. исследований. – М.: Высшая школа, 1987. – 200 с.
  8. Объективные характеристики, критерии, оценки и измерения педагогических явлений и процессов: Тезисы докладов VI сессии семинара по методологии педагогики и методике педагогических исследований / под ред. Г.В. Воробьева. – М., 1973. – 27 с. – 37 (01) О-294*
  9. Фридман Л.М. О корректном применении статистических методов в психолого-педагогических исследованиях // Советская педагогика. – 1971. - №3. – С.64-74.
  10. Холлендер М., Вулф Д.А. Непараметрические методы статистики Пер. с англ. – М.: Финансы и статистика, 1983. – 518 с.

 

Фрагменты приложения

Приложение 1

Таблица 5

Критические значения статистик, имеющих распределение χ2 с числом степеней свободы ν, для уровней значимости α

(по М.И.Грабарь, К.А.Краснянская 1977)

Число степеней свободы, ν α = 0,10 1-α = 0,90 α = 0,05 1-α = 0,95 α = 0,025 1-α = 0,975 α = 0,01 1-α = 0,99
1 2,706 3,841 5,024 6,635
2 4,605 5,991 7,378 9,210
3 6,251 7,815 9,348 11,34
4 7,779 9,488 11,14 13,28
5 9,236 11,07 12,83 15,09
6 10,64 12,59 14,45 16,81
7 12,02 14,07 16,01 18,48
8 13,36 15,51 17,53 20,09
9 14,68 16,92 19,02 21,67
10 15,99 18,31 20,48 23,21
11 17,28 19,68 21,92 24,73
12 18,55 21,03 23,34 26,22
13 19,81 22,36 24,74 27,69
14 21,06 23,68 26,12 29,14
15 22,31 25,00 27,49 30,58
16 23,54 26,30 28,85 32,00
17 24,77 27,59 30,19 33,41
18 25,99 28,87 31,53 34,81
19 27,20 30,14 32,85 36,19
20 28,41 31,41 34,17 37,57
21 29,62 32,67 35,48 38,93
22 30,81 33,92 36,78 40,29
23 32,01 35,17 38,08 41,64
24 33,20 36.42 39,37 42,98
25 34,38 37,65 40,65 44,31
26 35,56 38,89 41,92 45,64
27 36,74 40,11 43,19 46,96
28 37,92 41,34 44,46 48,28
29 39,09 42,56 45,72 49,59
30 40,26 43,77 46,98 50,89
40 51,81 55,76 59,34 63,69
50 63,17 67,50 71,42 76,15
60 74,40 79,08 83,30 88,38
70 85,53 90,53 95,02 100,4
80 96,58 101,9 106,6 112,3
90 107,6 113,1 118,1 124,1
100 118,5 124,3 129,6 135,8

{/mosregread}

Приложение 2

Обработка результатов констатирующего эксперимента с помощью критерия рандомизации Фишера

(по А.В. Яшуковой, 2002)

Таблица 6  

Результаты констатирующего эксперимента (прием сравнения)

Критерии сформированности приема Экспериментальные классы Контрольные классы
1
2
3
4
5
6
7
8
1-й уровень (среднее значение)
42,39
Знают сущность и значение приема 40,75 41,38 41,67 42,32 42,86 44,00 44,45 41,67
1-й уровень (среднее значение)
37,15
Определяют задания, в которых необходимо использовать прием 37,04 34,49 37,50 34,62 39,29 36,00 40,75 37,50
1-й уровень (среднее значение)
30,96
Знают структуру приема 33,34 31,04 33,34 26,93 32,15 28,00 33,34 33,34
2-й уровень (среднее значение)
27,62
Самостоятельно правильно выполняют задания 29,63 27,59 20,84 26,93 25,00 32,00 29,63 29,17
3-й уровень (среднее значение)
7,62
Самостоятельно правильно сотавляют и выполняют задания 7,45 10,35 4,17 7,70 10,72 8,00 7,41 4,17

Тимофеева Оксана Юрьевна,
кандидат педагогических наук,
доцент кафедры экспериментальной деятельности
в образовании ФГОУ АПКиППРО,
учитель экологии ГОУ СОШ
с углубленным изучением экологии № 446
г. Москва
e-mail: Данный адрес e-mail защищен от спам-ботов, Вам необходимо включить Javascript для его просмотра.


1 Тимофеева О.Ю. Критерии результативности в эксперименте: применение методов математической статистики: Учебно-методическое пособие. – М.: АПКиППРО, 2008. – 36 с.

2 Данные можно найти в Приложении 1 «Критические значения статистик, имеющих распределение c2 с числом степеней свободы ν, для уровней значимости α (по М.И.Грабарь, К.А.Краснянская, 1977)».

3 Отклик – это среднее число заданий (в % от общего числа учащихся), правильно выполненных учащимися.

* 40 (02) П 328 коды литературы, находящейся в ГНПБ им. К.Д. Ушинского