Статическая значимость. Как определить значимость линии тренда? Что делать с незначительными прорывами линии тренда

Проверка гипотез проводится с помощью статистического анализа. Статистическую значимость находят с помощью Р-значения, которое соответствует вероятности данного события при предположении, что некоторое утверждение (нулевая гипотеза) истинно. Если Р-значение меньше заданного уровня статистической значимости (обычно это 0,05), экспериментатор может смело заключить, что нулевая гипотеза неверна, и перейти к рассмотрению альтернативной гипотезы. С помощью t-критерия Стьюдента можно вычислить Р-значение и определить значимость для двух наборов данных.

Шаги

Часть 1

Постановка эксперимента

    Определите свою гипотезу. Первый шаг при оценке статистической значимости состоит в том, чтобы выбрать вопрос, ответ на который вы хотите получить, и сформулировать гипотезу. Гипотеза - это утверждение об экспериментальных данных, их распределении и свойствах. Для любого эксперимента существует как нулевая, так и альтернативная гипотеза. Вообще говоря, вам придется сравнивать два набора данных, чтобы определить, схожи они или различны.

    • Нулевая гипотеза (H 0) обычно утверждает, что между двумя наборами данных нет разницы. Например: те ученики, которые читают материал перед занятиями, не получают более высокие оценки.
    • Альтернативная гипотеза (H a) противоположна нулевой гипотезе и представляет собой утверждение, которое нужно подтвердить с помощью экспериментальных данных. Например: те ученики, которые читают материал перед занятиями, получают более высокие оценки.
  1. Установите уровень значимости, чтобы определить, насколько распределение данных должно отличаться от обычного, чтобы это можно было считать значимым результатом. Уровень значимости (его называют также α {\displaystyle \alpha } -уровнем) - это порог, который вы определяете для статистической значимости. Если Р-значение меньше уровня значимости или равно ему, данные считаются статистически значимыми.

    Решите, какой критерий вы будете использовать: односторонний или двусторонний. Одно из предположений в t-критерии Стьюдента гласит, что данные распределены нормальным образом. Нормальное распределение представляет собой колоколообразную кривую с максимальным количеством результатов посередине кривой. t-критерий Стьюдента - это математический метод проверки данных, который позволяет установить, выпадают ли данные за пределы нормального распределения (больше, меньше, либо в “хвостах” кривой).

    • Если вы не уверены, находятся ли данные выше или ниже контрольной группы значений, используйте двусторонний критерий. Это позволит вам определить значимость в обоих направлениях.
    • Если вы знаете, в каком направлении данные могут выйти за пределы нормального распределения, используйте односторонний критерий. В приведенном выше примере мы ожидаем, что оценки студентов повысятся, поэтому можно использовать односторонний критерий.
  2. Определите объем выборки с помощью статистической мощности. Статистическая мощность исследования - это вероятность того, что при данном объеме выборки получится ожидаемый результат. Распространенный порог мощности (или β) составляет 80%. Анализ статистической мощности без каких-либо предварительных данных может представлять определенные сложности, поскольку требуется некоторая информация об ожидаемых средних значениях в каждой группе данных и об их стандартных отклонениях. Используйте для анализа статистической мощности онлайн-калькулятор, чтобы определить оптимальный объем выборки для ваших данных.

    • Обычно ученые проводят небольшое пробное исследование, которое позволяет получить данные для анализа статистической мощности и определить объем выборки, необходимый для более расширенного и полного исследования.
    • Если у вас нет возможности провести пробное исследование, постарайтесь на основании литературных данных и результатов других людей оценить возможные средние значения. Возможно, это поможет вам определить оптимальный объем выборки.

    Часть 2

    Вычислите стандартное отклонение
    1. Запишите формулу для стандартного отклонения. Стандартное отклонение показывает, насколько велик разброс данных. Оно позволяет заключить, насколько близки данные, полученные на определенной выборке. На первый взгляд формула кажется довольно сложной, но приведенные ниже объяснения помогут понять ее. Формула имеет следующий вид: s = √∑((x i – µ) 2 /(N – 1)).

      • s - стандартное отклонение;
      • знак ∑ указывает на то, что следует сложить все полученные на выборке данные;
      • x i соответствует i-му значению, то есть отдельному полученному результату;
      • µ - это среднее значение для данной группы;
      • N - общее число данных в выборке.
    2. Найдите среднее значение в каждой группе. Чтобы вычислить стандартное отклонение, необходимо сначала найти среднее значение для каждой исследуемой группы. Среднее значение обозначается греческой буквой µ (мю). Чтобы найти среднее, просто сложите все полученные значения и поделите их на количество данных (объем выборки).

      • Например, чтобы найти среднюю оценку в группе тех учеников, которые изучают материал перед занятиями, рассмотрим небольшой набор данных. Для простоты используем набор из пяти точек: 90, 91, 85, 83 и 94.
      • Сложим вместе все значения: 90 + 91 + 85 + 83 + 94 = 443.
      • Поделим сумму на число значений, N = 5: 443/5 = 88,6.
      • Таким образом, среднее значение для данной группы составляет 88,6.
    3. Вычтите из среднего каждое полученное значение. Следующий шаг заключается в вычислении разницы (x i – µ). Для этого следует вычесть из найденной средней величины каждое полученное значение. В нашем примере необходимо найти пять разностей:

      • (90 – 88,6), (91- 88,6), (85 – 88,6), (83 – 88,6) и (94 – 88,6).
      • В результате получаем следующие значения: 1,4, 2,4, -3,6, -5,6 и 5,4.
    4. Возведите в квадрат каждую полученную величину и сложите их вместе. Каждую из только что найденных величин следует возвести в квадрат. На этом шаге исчезнут все отрицательные значения. Если после данного шага у вас останутся отрицательные числа, значит, вы забыли возвести их в квадрат.

      • Для нашего примера получаем 1,96, 5,76, 12,96, 31,36 и 29,16.
      • Складываем полученные значения: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
    5. Поделите на объем выборки минус 1. В формуле сумма делится на N – 1 из-за того, что мы не учитываем генеральную совокупность, а берем для оценки выборку из числа всех студентов.

      • Вычитаем: N – 1 = 5 – 1 = 4
      • Делим: 81,2/4 = 20,3
    6. Извлеките квадратный корень. После того как вы поделите сумму на объем выборки минус один, извлеките из найденного значения квадратный корень. Это последний шаг в вычислении стандартного отклонения. Есть статистические программы, которые после введения начальных данных производят все необходимые вычисления.

      • В нашем примере стандартное отклонение оценок тех учеников, которые читают материал перед занятиями, составляет s =√20,3 = 4,51.

    Часть 3

    Определите значимость
    1. Рассчитайте дисперсию между двумя группами данных. До этого шага мы рассматривали пример лишь для одной группы данных. Если вы хотите сравнить две группы, очевидно, следует взять данные для обеих групп. Вычислите стандартное отклонение для второй группы данных, а затем найдите дисперсию между двумя экспериментальными группами. Дисперсия вычисляется по следующей формуле: s d = √((s 1 /N 1) + (s 2 /N 2)).

В любой научно-практической ситуации эксперимента (обследования) исследователи могут исследовать не всех людей (генеральную совокупность, популяцию), а только определенную выборку. Например, даже если мы исследуем относительно небольшую группу людей, например страдающих определенной болезнью, то и в этом случае весьма маловероятно, что у нас имеются соответствующие ресурсы или необходимость тестировать каждого больного. Вместо этого обычно тестируют выборку из популяции, поскольку это удобнее и занимает меньше времени. В таком случае, откуда нам известно, что результаты, полученные на выборке, представляют всю группу? Или, если использовать профессиональную терминологию, можем ли мы быть уверены, что наше исследование правильно описывает всю популяцию , выборку из которой мы использовали?

Чтобы ответить на этот вопрос, необходимо определить статистическую значимость результатов тестирования. Статистическая значимость {Significant level , сокращенно Sig.), или /7-уровень значимости (p-level) - это вероятность того, что данный результат правильно представляет популяцию, выборка из которой исследовалась. Отметим, что это только вероятность - невозможно с абсолютной гарантией утверждать, что данное исследование правильно описывает всю популяцию. В лучшем случае по уровню значимости можно лишь заключить, что это весьма вероятно. Таким образом, неизбежно встает следующий вопрос: каким должен быть уровень значимости, чтобы можно было считать данный результат правильной характеристикой популяции?

Например, при каком значении вероятности вы готовы сказать, что таких шансов достаточно, чтобы рискнуть? Если шансы будут 10 из 100 или 50 из 100? А что если эта вероятность выше? Что можно сказать о таких шансах, как 90 из 100, 95 из 100 или 98 из 100? Для ситуации, связанной с риском, этот выбор довольно проблематичен, ибо зависит от личностных особенностей человека.

В психологии же традиционно считается, что 95 или более шансов из 100 означают, что вероятность правильности результатов достаточна высока для того, чтобы их можно было распространить на всю популяцию. Эта цифра установлена в процессе научно-практической деятельности - нет никакого закона, согласно которому следует выбрать в качестве ориентира именно ее (и действительно, в других науках иногда выбирают другие значения уровня значимости).

В психологии оперируют этой вероятностью несколько необычным образом. Вместо вероятности того, что выборка представляет популяцию, указывается вероятность того, что выборка не представляет популяцию. Иначе говоря, это вероятность того, что обнаруженная связь или различия носят случайный характер и не являются свойством совокупности. Таким образом, вместо того чтобы утверждать, что результаты исследования правильны с вероятностью 95 из 100, психологи говорят, что имеется 5 шансов из 100, что результаты неправильны (точно так же 40 шансов из 100 в пользу правильности результатов означают 60 шансов из 100 в пользу их неправильности). Значение вероятности иногда выражают в процентах, но чаще его записывают в виде десятичной дроби. Например, 10 шансов из 100 представляют в виде десятичной дроби 0,1; 5 из 100 записывается как 0,05; 1 из 100 - 0,01. При такой форме записи граничным значением является 0,05. Чтобы результат считался правильным, его уровень значимости должен быть ниже этого числа (вы помните, что это вероятность того, что результат неправильно описывает популяцию). Чтобы покончить с терминологией, добавим, что «вероятность неправильности результата» (которую правильнее называть уровнем значимости) обычно обозначается латинской буквой р. В описание результатов эксперимента обычно включают резюмирующий вывод, такой как «результаты оказались значимыми на уровне достоверности (р) менее 0,05 (т.е. меньше 5%).

Таким образом, уровень значимости (р ) указывает на вероятность того, что результаты не представляют популяцию. По традиции в психологии считается, что результаты достоверно отражают общую картину, если значение р меньше 0,05 (т.е. 5%). Тем не менее это лишь вероятностное утверждение, а вовсе не безусловная гарантия. В некоторых случаях этот вывод может оказаться неправильным. На самом деле, мы можем подсчитать, как часто это может случиться, если посмотрим на величину уровня значимости. При уровне значимости 0,05 в 5 из 100 случаев результаты, вероятно, неверны. 11а первый взгляд кажется, что это не слишком часто, однако если задуматься, то 5 шансов из 100 - это то же самое, что 1 из 20. Иначе говоря, в одном из каждых 20 случаев результат окажется неверным. Такие шансы кажутся не особенно благоприятными, и исследователи должны остерегаться совершения ошибки первого рода. Так называют ошибку, которая возникает, когда исследователи считают, что обнаружили реальные результаты, а на самом деле их нет. Противоположные ошибки, состоящие в том, что исследователи считают, будто они не обнаружили результата, а на самом деле он есть, называют ошибками второго рода.

Эти ошибки возникают потому, что нельзя исключить возможность неправильности проведенного статистического анализа. Вероятность ошибки зависит от уровня статистической значимости результатов. Мы уже отмечали, что, для того чтобы результат считался правильным, уровень значимости должен быть ниже 0,05. Разумеется, некоторые результаты имеют более низкий уровень, и нередко можно встретить результаты с такими низкими /?, как 0,001 (значение 0,001 говорит о том, что результаты могут быть неправильными с вероятностью 1 из 1000). Чем меньше значение р, тем тверже наша уверенность в правильности результатов .

В табл. 7.2 приведена традиционная интерпретация уровней значимости о возможности статистического вывода и обосновании решения о наличии связи (различий).

Таблица 7.2

Традиционная интерпретация уровней значимости, используемых в психологии

На основе опыта практических исследований рекомендуется: чтобы по возможности избежать ошибок первого и второго рода, при ответственных выводах следует принимать решения о наличии различий (связи), ориентируясь на уровень р п признака.

Статистический критерий (Statistical Test) - это инструмент определения уровня статистической значимости. Это решающее правило, обеспечивающее принятие истинной и отклонение ложной гипотезы с высокой вероятностью .

Статистические критерии обозначают также метод расчета определенного числа и само это число. Все критерии используются с одной главной целью: определить уровень значимости анализируемых с их помощью данных (т.е. вероятность того, что эти данные отражают истинный эффект, правильно представляющий популяцию, из которой сформирована выборка).

Некоторые критерии можно использовать только для нормально распределенных данных (и если признак измерен по интервальной шкале) - эти критерии обычно называют параметрическими. С помощью других критериев можно анализировать данные практически с любым законом распределения - их называют непараметрическими.

Параметрические критерии - критерии, включающие в формулу расчета параметры распределения, т.е. средние и дисперсии (^-критерий Стью- дента, F-критерий Фишера и др.).

Непараметрические критерии - критерии, не включающие в формулу расчета параметров распределения и основанные на оперировании частотами или рангами (критерий Q Розенбаума, критерий U Манна - Уитни

Например, когда мы говорим, что достоверность различий определялась по ^-критерию Стьюдента, то имеется в виду, что использовался метод ^-критерия Стьюдента для расчета эмпирического значения, которое затем сравнивается с табличным (критическим) значением.

По соотношению эмпирического (нами вычисленного) и критического значений критерия (табличного) мы можем судить о том, подтверждается или опровергается наша гипотеза. В большинстве случаев для того, чтобы мы признали различия значимыми, необходимо, чтобы эмпирическое значение критерия превышало критическое, хотя есть критерии (например, критерий Манна - Уитни или критерий знаков), в которых мы должны придерживаться противоположного правила.

В некоторых случаях расчетная формула критерия включает в себя количество наблюдений в исследуемой выборке, обозначаемое как п. По специальной таблице мы определяем, какому уровню статистической значимости различий соответствует данная эмпирическая величина. В большинстве случаев одно и то же эмпирическое значение критерия может оказаться значимым или незначимым в зависимости от количества наблюдений в исследуемой выборке (п ) или от так называемого количества степеней свободы , которое обозначается как v (г>) или как df (иногда d).

Зная п или число степеней свободы, мы по специальным таблицам (основные из них приводятся в приложении 5) можем определить критические значения критерия и сопоставить с ними полученное эмпирическое значение. Обычно это записывается так: «при п = 22 критические значения критерия составляют t St = 2,07» или «при v (d ) = 2 критические значения критерия Стьюдента составляют = 4,30» и т.н.

Обычно предпочтение оказывается все же параметрическим критериям, и мы придерживаемся этой позиции. Считается, что они более надежны, и с их помощью можно получить больше информации и провести более глубокий анализ. Что касается сложности математических вычислений, то при использовании компьютерных программ эта сложность исчезает (но появляются некоторые другие, впрочем, вполне преодолимые).

  • В настоящем учебнике мы подробно не рассматриваем проблему статистических
  • гипотез (нулевой - Я0 и альтернативной - Нj) и принимаемые статистические решения,поскольку студенты-психологи изучают это отдельно по дисциплине «Математическиеметоды в психологии». Кроме того, необходимо отметить, что при оформлении исследовательского отчета (курсовой или дипломной работы, публикации) статистические гипотезыи статистические решения, как правило, не приводятся. Обычно при описании результатовуказывают критерий, приводят необходимые описательные статистики (средние, сигмы,коэффициенты корреляции и т.д.), эмпирические значения критериев, степени свободыи обязательно р-уровень значимости. Затем формулируют содержательный вывод в отношении проверяемой гипотезы с указанием (обычно в виде неравенства) достигнутого илинедостигнутого уровня значимости.

В каких случаях вы принимаете научное открытие всерьез? Когда оно «значимо»?

Паранормальные события по определению являются экстраординарными и выходят за рамки мира обычной науки. Если вы делаете ошибочный вывод о том, что результат не случаен, а имеет конкретную причину, то это ошибка I рода. (Ошибочный вывод в том, что реальный неслучайный эффект - всего лишь результат случайности, называется ошибкой II рода.) Говоря проще, ошибка 1 рода - это когда вы считаете, что «происходит что-то необычное», тогда как на самом деле все идет своим чередом. В данном тексте мы рассмотрим процедуру сверки с реальностью, призванную выявлять ошибки I рода.

Пусть ученый проводит эксперимент с целью определить, стоит ли за неким явлением - скажем, необычайной способно стью выигрывать в лотерею, читать мысли или предсказывать результаты выборов - какая-то конкретная причина или это чистая случайность. Пусть далее наш ученый получит подряд несколько позитивных результатов. В конце концов игрок в покер может иногда получить удачные карты, в этом нет ничего таинственного. Да и в лотерею люди иногда выигрывают.

К счастью, существуют статистические процедуры для оценки вероятности ошибки I рода. К примеру, мы считаем, что выигрыши в лотерее распределяются совершенно случайно и честно, так что выигрыш каждого человека зависит исключительно от удачи. При этом некоторым людям все же выпадают выигрыши. Если выигрышей больше, чем можно было ожидать, мы можем заподозрить, что лотерея работает не совсем случайно. Возможно, кто-нибудь жульничает или здесь работают паранормальные силы. Чтобы разобраться в происходящем, статистики вычисляют, сколько выигрышных билетиков должно быть предъявлено, чтобы мы сделали вывод о том, что происходит нечто странное. Может быть, по законам случайности на один миллион участников должно приходиться 10, 100 или даже 1000 выигрышей. Любое число, превышающее 10, 100 или 1000, вызовет подозрения. Но как выбрать допустимое число выигрышей? Все зависит от того, чем вы готовы рискнуть. Насколько вы боитесь совершить ошибку I рода.

«Уровень риска» совершения ошибки I рода называется a-уровнем. Традиционно многие ученые ориентируются на а-уровень 5 % (0,05), но иногда используются и другие уровни (1 % (0,01) и 0,1 % (0,001)). Так, а-уровень 5 % означает, что лотерея становится по-настоящему подозрительной. Если же уровень уверенности не превышает 5 %, т. е. вероятность ошибки не превышает 1/20. Иногда уровень вероятности для краткости называют p-величиной. В научных докладах можно часто встретить следующие утверждения (не забывайте, что при этом р лучше, т. е. меньше, 0,05, и, соответственно, результаты эксперимента значимы):



Мы сравнили уровень успешности предсказания пятидесяти экстрасенсов и пятидесяти людей без заявленных паранормальных способностей. Предсказания экстрасенсов оправдывались в 45 % случаев, предсказания обычных людей - в 41 % случаев.

Предсказания экстрасенсов были точны значительно чаще, чем предсказания обычных людей (р = 0,02). Вывод: результаты эксперимента свидетельствуют о том, что экстрасенсы могут предсказывать будущее.

Если эксперимент не подтвердил точности предсказаний экстрасенсов, отчет может выглядеть примерно так:

Мы сравнили уровень успешности предсказания пятидесяти экстрасенсов и пятидесяти людей без заявленных паранормальных способностей. Предсказания экстрасенсов оправдывались в 44 % случаев, предсказания обычных людей - в 43 % случаев. Превышение успешности предсказаний экстрасенсов по отношению к предсказаниям обычных людей не было статистически значимым (р = 0,12). Вывод: результаты эксперимента не подтверждают вывод о том, что экстрасенсы могут предсказывать будущее.

Обратите внимание: ученые говорят о «статистической значимости» явления, если полученная в ходе эксперимента «-величина не превышает принятого в эксперименте уровня значимости (a-уровня)». Утверждение «Этот результат является статистически значимым, р = 0,02» можно перевести примерно так: «Мы уверены, что этот результат - не просто удача или случайность. Наша статистика показывает, что вероятность ошибки составляет всего 2 шанса из 100, а это лучше, чем уровень 5/100, принятый большинством ученых».

Способ, при помощи которого вычисляется а-уровень для статистических данных, останется за пределами этой книги. Однако заметим, что эта задача может оказаться весьма сложной. К примеру, многократное повторение одного и того же эксперимента может создавать совершенно особую проблему, о которой иногда забывают исследователи паранормального. Любой эксперимент сам по себе напоминает бросание монетки. Со временем при многократном повторении вы можете по чистой случайности получить желаемый результат. В гипотетическом исследовании предсказаний экстрасенсов и обычных людей, о котором мы говорили выше, некоторые участники (как экстрасенсы, так и неэкстрасенсы), вполне воз можно, сделали удачное предсказание случайно. Мы уже объяснили, что статистики умеют оценивать уровень вероятности и учитывать его при обработке результатов. Точно так же, если повторить этот эксперимент сотни раз, исследуя каждый раз по 50 экстрасенсов и неэкстрасенсов, в некоторых случаях доля успешных предсказаний у экстрасенсов обязательно окажется выше - по чистой случайности. Минимум, что вы должны сделать, - это изменить a-уровень так, чтобы учесть возросший риск ложноположительного решения.



Исследователи, которые многократно повторяют один и тот же эксперимент (или учитывают большое количество параметров водном эксперименте), вынуждены принимать дополнительные меры, чтобы исключить ложноположительное решение. Некоторые из них пользуются тестом, придуманным Карло Эмилио Бонферрони (Bonferroni, 1935), и делят а-уровень (0,05 или 0,01) на число экспериментов (или параметров), чтобы скомпенсировать тем самым возросшую вероятность ошибочного результата. Новый a-уровень отражает более жесткие критерии, при помощи которых придется в этом случае оценивать достоверность проведенного исследования. Ведь, если провести аналогию с бросанием костей, вы увеличиваете вероятность выигрыша за счет большого количества бросков. К примеру, если вы провели 100 экспериментов по экстрасенсорному предсказанию будущего (или один эксперимент, в котором попросили участников предсказать поведение 100 отдельных трупп объектов, таких как спортивные матчи, номера лотерейных билетов, природные события и т. д.), то новый a-уровень у вас будет 0,0005 (0,05/100). Таким образом, если после статистической обработки результатов вашего исследования окажется, что уровень достоверности составляет всего 0,05. В данном случае это будет означать, что значимых результатов вам получить не удалось.

Возможно, вы плохо разбираетесь в статистике и с трудом понимаете, о чем идет речь. Тем не менее Бонферрони снабдил нас очень удобным инструментом оценки, пользоваться которым совсем не трудно. При помощи этого инструмента вы всегда можете понять, не возбуждают ли результаты того или иного исследования ложных надежд. Сосчитайте число экспериментов, о которых идет речь. Или число различных «исходящих» переменных, которые подвергались исследованию. Разделите 0,05 на число экспериментов или переменных и получите новое пороговое значение. Уровень достоверности исследования, о котором идет речь, должен быть не выше этого значения (т. е. меньше или равен ему). Только тогда вы можете быть уверены в значимости полученных результатов. Ниже приведен гипотетический отчет об исследовании зеленого чая. Можете ли вы определить, почему он вводит читателя в заблуждение?

Мы проверили действие зеленого чая на успеваемость. В двойном слепом исследовании с применением плацебо, 20 учащихся получали зеленый чай, а еще 20 - подкрашенную воду, похожую на зеленый чай. Участники эксперимента пили чай каждый день в течение месяца. Мы проверяли 5 переменных: средний балл, экзаменационные оценки, оценки за письменные работы, оценки за работу в классе и посещаемость. За письменные работы те, кто пил зеленый чай, получили в среднем «5», а те, кто пил воду, - в среднем «4». Это значимая разница, р = 0,02. Вывод: зеленый чай повышает успеваемость.

А вот тот же отчет с поправкой на тест Бонферрони:

Мы проверили действие зеленого чая на успеваемость. В двойном слепом исследовании с применением плацебо, 20 учащихся получали зеленый чай, а еще 20 - подкрашенную воду, похожую на зеленый чай. Участники эксперимента пили чай каждый день в течение месяца. Мы проверяли 5 переменных: средний балл, экзаменационные оценки, оценки за письменные работы, оценки за работу в классе и посещаемость. Лучше всего зеленый чай сказался на качестве письменных работ. Здесь те, кто пил зеленый чай, получили в среднем «5», а те, кто пил воду, - в среднем «4». Разница в оценках дает нам р = 0,02. Однако этот результат не удовлетворяет а-уровню с поправкой Бонферрони (0,01). Вывод: зеленый чай не повышает успеваемость.

В конце нашего сотрудничества мы с Гэри Кляйном все же пришли к согласию, отвечая на основной поставленный вопрос: в каких случаях стоит доверять интуиции эксперта? У нас сложилось мнение, что отличить значимые интуитивные заявления от пустопорожних все же возможно. Это можно сравнить с анализом подлинности предмета искусства (для точного результата лучше начинать его не с осмотра объекта, а с изучения прилагающихся документов). При относительной неизменности контекста и возможности выявить его закономер ности ассоциативный механизм распознает ситуацию и быстро вырабатывает точный прогноз (решение). Если эти условия удовлетворяются, интуиции эксперта можно доверять.
К сожалению, ассоциативная память также порождает субъективно веские, но ложные интуиции. Всякий, кто следил за развитием юного шахматного таланта, знает, что умения приобретаются не сразу и что некоторые ошибки на этом пути делаются при полной уверенности в своей правоте. Оценивая интуицию эксперта, всегда следует проверить, было ли у него достаточно шансов изучить сигналы среды – даже при неизменном контексте.
При менее устойчивом, малодостоверном контексте активируется эвристика суждения. Система 1 может давать скорые ответы на трудные вопросы, подменяя понятия и обеспечивая когерентность там, где ее не должно быть. В результате мы получаем ответ на вопрос, которого не задавали, зато быстрый и достаточно правдоподобный, а потому способный проскочить снисходительный и ленивый ко нтроль Системы 2. Допустим, вы хотите спрогнозировать коммерческий успех компании и считаете, что оцениваете именно это, тогда как на самом деле ваша оценка складывается под впечатлением от энергичности и компетентности руководства фирмы. Подмена происходит автоматически – вы даже не понимаете, откуда берутся суждения, которые принимает и подтверждает ваша Система 2. Если в уме рождается единственное суждение, его бывает невозможно субъективно отличить от значимого суждения, сделанного с профессиональной уверенностью. Вот почему субъективную убежденность нельзя считать показателем точности прогноза: с такой же убежденностью высказываются суждения-ответы на другие вопросы.
Должно быть, вы удивитесь: как же мы с Гэри Кляйном сразу не додумались оценивать экспертную интуицию в зависимости от постоянства среды и опыта обучения эксперта, не оглядываясь на его веру в свои слова? Почему сразу не нашли ответ? Это было бы дельное замечание, ведь решение с самого начала мая чило перед нами. Мы заранее знали, что значимые интуитивные предчувствия командиров пожарных бригад и медицинских сестер отличны от значимых предчувствий биржевых аналитиков и специалистов, чью работу изучал Мил.
Теперь уже трудно воссоздать то, чему мы посвятили годы труда и долгие часы дискуссий, бесконечные обмены черновиками и сотни электронных писем. Несколько раз каждый из нас был готов все бросить. Однако, как всегда случается с успешными проектами, стоило нам понять основной вывод, и он стал казаться очевидным изначально.
Как следует из названия нашей статьи, мы с Кляйном спорили реже, чем ожидали, и почти по всем важным пунктам приняли совместные решения. Тем не менее мы также выяснили, что наши ранние разногласия носили не только интеллектуальный характер. У нас были разные чувства, вкусы и взгляды применительно к одним и тем же вещам, и с годами они на удивление мало изменились. Это наглядно проявляется в том, что каждому из нас ка жется занятным и интересным. Кляйн до сих пор морщится при слове «искажение» и радуется, узнав, что некий алгоритм или формальная методика выдают бредовый результат. Я же склонен видеть в редких ошибках алгоритмов шанс их усовершенствовать. Опять-таки я радуюсь, когда так называемый эксперт изрекает прогнозы в контексте с нулевой достоверностью и получает заслуженную взбучку. Впрочем, для нас в конечном итоге стало важнее интеллектуальное согласие, а не эмоции, нас разделяющие.

Статистика давно уже стала неотъемлемой частью жизни. С ней люди сталкиваются всюду. На основе статистики делаются выводы о том, где и какие заболевания распространены, что более востребовано в конкретном регионе или среди определенного слоя населения. На основываются даже построения политических программ кандидатов в органы власти. Ими же пользуются и торговые сети при закупке товаров, а производители руководствуются этими данными в своих предложениях.

Статистика играет важную роль в жизни общества и влияет на каждого его отдельного члена даже в мелочах. Например, если по , большинство людей предпочитают темные цвета в одежде в конкретном городе или регионе, то найти яркий желтый плащ с цветочным принтом в местных торговых точках будет крайне затруднительно. Но из каких величин складываются эти данные, оказывающие такое влияние? К примеру, что представляет собой «статистическая значимость»? Что именно понимается под этим определением?

Что это?

Статистика как наука складывается из сочетания разных величин и понятий. Одним из них и является понятие «статистическая значимость». Так называется значение переменных величин, вероятность появления других показателей в которых ничтожно мала.

К примеру, 9 из 10 человек надевают на ноги резиновую обувь во время утренней прогулки за грибами в осенний лес после дождливой ночи. Вероятность того что в какой-то момент 8 из них обуются в парусиновые мокасины - ничтожно мала. Таким образом, в данном конкретном примере число 9 является величиной, которая и называется «статистическая значимость».

Соответственно, если развивать далее приведенный практический пример, обувные магазины закупают к концу летнего сезона резиновые сапожки в большом количестве, чем в другое время года. Так, величина статистического значения оказывает влияние на обычную жизнь.

Разумеется, в сложных подсчетах, допустим, при прогнозе распространения вирусов, учитывается большое число переменных. Но сама суть определения значимого показателя статистических данных - аналогична, вне зависимости от сложности подсчетов и количества непостоянных величин.

Как вычисляют?

Используются при вычислении значения показателя «статистическая значимость» уравнения. То есть можно утверждать, что в этом случае все решает математика. Самым простым вариантом вычисления является цепь математических действий, в которой участвуют следующие параметры:

  • два типа результатов, полученных при опросах или изучении объективных данных, к примеру, сумм на которые совершаются покупки, обозначаемые а и b;
  • показатель для обеих групп - n;
  • значение доли объединенной выборки - p;
  • понятие «стандартная ошибка» - SE.

Следующим этапом определяется общий тестовый показатель - t, его значение сравнивается с числом 1,96. 1,96 - это усредненное значение, передающее диапазон в 95 %, согласно функции t-распределения Стьюдента.

Часто возникает вопрос о том, в чем отличие значений n и p. Этот нюанс просто прояснить при помощи примера. Допустим, вычисляется статистическая значимость лояльности к какому-либо товару или бренду мужчин и женщин.

В этом случае за буквенными обозначениями будет стоять следующее:

  • n - число опрошенных;
  • p - число довольных продуктом.

Численность опрошенных женщин в этом случае будет обозначено, как n1. Соответственно, мужчин - n2. То же значение будут иметь цифры «1» и «2» у символа p.

Сравнение тестового показателя с усредненными значениями расчетных таблиц Стьюдента и становится тем, что называется «статистическая значимость».

Что понимается под проверкой?

Результаты любого математического вычисления всегда можно проверить, этому учат детей еще в начальных классах. Логично предположить, что раз статистические показатели определяются при помощи цепи вычислений, то и проверяются.

Однако проверка статистической значимости - не только математика. Статистика имеет дело с большим количеством переменных величин и различных вероятностей, далеко не всегда поддающихся расчету. То есть если вернутся к приведенному в начале статьи примеру с резиновой обувью, то логичное построение статистических данных, на которые станут опираться закупщики товаров для магазинов, может быть нарушено сухой и жаркой погодой, которая не типична для осени. В результате этого явления число людей, приобретающих резиновые сапоги, снизится, а торговые точки потерпят убытки. Предусмотреть погодную аномалию математическая формула, разумеется, не в состоянии. Этот момент называется - «ошибка».

Вот как раз вероятность таких ошибок и учитывает проверка уровня вычисленной значимости. В ней учитываются как вычисленные показатели, так и принятые уровни значимости, а также величины, условно называемые гипотезами.

Что такое уровень значимости?

Понятие «уровень» входит в основные критерии статистической значимости. Используется оно в прикладной и практической статистике. Это своего рода величина, учитывающая вероятность возможных отклонений или ошибок.

Уровень основывается на выявлении различий в готовых выборках, позволяет установить их существенность либо же, наоборот, случайность. У этого понятия есть не только цифровые значения, но и их своеобразные расшифровки. Они объясняют то, как нужно понимать значение, а сам уровень определяется сравнением результата с усредненным индексом, это и выявляет степень достоверности различий.

Таким образом, можно представить понятие уровня просто - это показатель допустимой, вероятной погрешности или же ошибки в сделанных из полученных статистических данных выводах.

Какие уровни значимости используются?

Статистическая значимость коэффициентов вероятности допущенной ошибки на практике отталкивается от трех базовых уровней.

Первым уровнем считается порог, при котором значение равно 5 %. То есть вероятность погрешности не превышает уровня значимости в 5 %. Это означает, что уверенность в безупречности и безошибочности выводов, сделанных на основе данных статистических исследований, составляет 95 %.

Вторым уровнем является порог в 1 %. Соответственно, эта цифра означает, что руководствоваться полученными при статистических расчетах данными можно с уверенностью в 99 %.

Третий уровень - 0,1 %. При таком значении вероятность наличия ошибки равна доле процента, то есть погрешности практически исключаются.

Что такое гипотеза в статистике?

Ошибки как понятие разделяются по двум направлениям, касающимся принятия или же отклонения нулевой гипотезы. Гипотеза - это понятие, за которым скрывается, согласно определению, набор иных данных или же утверждений. То есть описание вероятностного распределения чего-либо, относящегося к предмету статистического учета.

Гипотез при простых расчетах бывает две - нулевая и альтернативная. Разница между ними в том, что нулевая гипотеза берет за основу представление об отсутствии принципиальных отличий между участвующими в определении статистической значимости выборками, а альтернативная ей полностью противоположна. То есть альтернативная гипотеза основана на наличии весомой разницы в данных выборок.

Какими бывают ошибки?

Ошибки как понятие в статистике находятся в прямой зависимости от принятия за истинную той или иной гипотезы. Их можно разделить на два направления или же типа:

  • первый тип обусловлен принятием нулевой гипотезы, оказавшейся неверной;
  • второй - вызван следованием альтернативной.

Первый тип ошибок называется ложноположительным и встречается достаточно часто во всех сферах, где используются статистические данные. Соответственно, ошибка второго типа называется ложноотрицательной.

Для чего нужна регрессия в статистике?

Статистическая значимость регрессии в том, что с ее помощью можно установить, насколько соответствует реальности вычисленная на основе данных модель различных зависимостей; позволяет выявить достаточность или же нехватку факторов для учета и выводов.

Определяется регрессивное значение с помощью сравнения результатов с перечисленными в таблицах Фишера данными. Или же при помощи дисперсионного анализа. Важное значение показатели регрессии имеют при сложных статистических исследованиях и расчетах, в которых участвует большое количество переменных величин, случайных данных и вероятных изменений.