Надёжность психодиагностических методик: шкалы, Ликерт и альфа Кронбаха

Каждый раз, когда мы используем психологический инструмент, мы неявно принимаем два предположения: во-первых, что он измеряет то, что нам нужно (валидность), во-вторых — что он делает это стабильно, воспроизводимо (надёжность).

Психометрические свойства: с чего начинать

Психометрические свойства — показатели качества методики. Первое, на что смотрят при выборе инструмента, — репрезентативность норм: насколько выборка стандартизации (люди, на которых методику апробировали) похожа на ту популяцию, где вы будете её применять.

  • Минимум для апробации — 100–200 человек.
  • 500–1000 — уже хорошая база.
  • Чем больше выборка и чем она ближе к вашей аудитории (возраст, пол, контекст), тем надёжнее нормы.

Данные о репрезентативности, надёжности и валидности публикуют в научных статьях (разделы «материалы и методы», «результаты»). Искать их удобно через Google Scholar по названию методики и словам «validation», «psychometric», «адаптация».

Надёжность — необходимое, но не достаточное условие качества методики. Опросник может надёжно измерять что-то — но не то, что нам нужно. Однако если он ненадёжен, разговор о его полезности заканчивается.

Что такое надёжность

Надёжность (reliability) — это степень стабильности измерений: насколько одни и те же результаты воспроизводятся при повторном применении инструмента в сходных условиях.

Если сегодня опросник показал у человека высокий уровень тревоги, а завтра — низкий, без объективных изменений в состоянии, инструмент ненадёжен.

Надёжность никогда не бывает идеальной: всегда есть случайная ошибка измерения. Задача — её минимизировать.

Типы шкал

Прежде чем говорить о надёжности, важно понять, что именно мы измеряем и какова природа шкалы.

Номинальная шкала

Числа (или метки) — только имена категорий без упорядоченности. Нельзя складывать, вычитать, ранжировать.

Пример: Вид профессии, пол, диагноз (F32.0, F40.0 и т.д.).

Порядковая (ординальная) шкала

Позиции упорядочены, но расстояния между ними не равны.

Пример: Ранги («занял первое место»), оценки в баллах (1–5), уровни тревоги («нет / умеренная / выраженная»).

Сложение порядковых данных — некорректная операция, хотя в психологии к ней прибегают постоянно. Ответы «согласен» и «не согласен» не имеют гарантированно равного расстояния.

Интервальная шкала

Равные расстояния между значениями, но нет абсолютного нуля.

Пример: Шкала Цельсия (0° — не означает «нет температуры»), большинство психологических шкал условно относят сюда при достаточном числе пунктов.

Шкала отношений

Есть абсолютный ноль. Можно говорить «в два раза больше».

Пример: Время реакции, вес, рост.


Шкала Ликерта

Шкала Ликерта — наиболее распространённый формат в психологических опросниках. Испытуемый оценивает степень своего согласия с утверждением.

Классический вид: 5 позиций — «Совершенно не согласен», «Не согласен», «Ни то ни другое», «Согласен», «Полностью согласен».

Могут использоваться варианты с 4, 6, 7 позициями. Чётное число убирает нейтральный вариант, вынуждая человека склониться в ту или иную сторону.

Почему Ликерт?

  • Просто объяснить и понять.
  • Даёт градации, а не бинарный выбор.
  • Накопленные баллы по нескольким пунктам образуют шкалу с более высокой надёжностью, чем отдельные вопросы.

Ограничения:

  • Центральная тенденция: испытуемые склонны выбирать средние значения.
  • Аквиесценция (соглашательство): некоторые люди склонны отвечать «согласен» вне зависимости от содержания.
  • Технически — порядковая шкала, но в психометрике часто обращаются с ней как с интервальной.

Пример: шкала субъективного благополучия (SWLS)

Satisfaction With Life Scale — пять утверждений про удовлетворённость жизнью, ответы по семибалльной шкале (от «определённо не согласен» до «определённо согласен»). Итог — сумма баллов.

ПунктО чём спрашивает
В целом моя жизнь близка к идеалуИнтегральная оценка жизни
Условия моей жизни прекрасныеОценка обстоятельств
Я удовлетворён жизньюУдовлетворение потребностей
К настоящему моменту я получил от жизни всё, чего хотелДостижение целей
Если бы мог прожить заново, не изменил бы почти ничегоОбщее ощущение счастья

SWLS показывает, как из нескольких однотипных пунктов собирают шкалу с измеримой внутренней согласованностью. В русскоязычных адаптациях для оценки связей иногда используют ранговую корреляцию Спирмена.

Типы надёжности

Тест-ретест надёжность

Тест применяется дважды на одной и той же группе с интервалом времени. Вычисляется корреляция между двумя наборами результатов.

Проблема: Если интервал короткий — испытуемые помнят свои ответы. Если длинный — само состояние могло измениться.

Надёжность параллельных форм

Два разных набора пунктов, измеряющих тот же конструкт, применяются к одной группе. Корреляция между ними — показатель надёжности.

Проблема: Разработать две действительно эквивалентные формы — трудоёмкая задача.

Надёжность-согласованность

Степень, в которой пункты одного теста (или субшкалы) измеряют одно и то же. Не требует повторного применения.

  • Метод расщепления пополам (split-half) — опросник делят на две части; если суммы баллов близки, согласованность высокая.
  • Альфа Кронбаха (α) — самый распространённый показатель внутренней согласованности.

Важно: надёжность считают отдельно для каждой шкалы методики. Узкоспециализированный тест (например, на знание языка программирования) должен быть надёжнее, чем широкий личностный опросник.

Абсолютно стабильных психических свойств не существует: у взрослых они могут меняться за полгода, у детей — за пару недель. Задача — отличить реальное изменение от шума измерения.


Альфа Кронбаха

Альфа Кронбаха — мера внутренней согласованности теста: насколько его пункты «тянут в одну сторону».

Формально: α = N · r̄ / (1 + (N-1) · r̄), где N — число пунктов, r̄ — средняя попарная корреляция между пунктами.

Интерпретация:

  • α ≥ 0,9 — отличная согласованность (используется в клинических решениях).
  • 0,8 ≤ α < 0,9 — хорошая.
  • 0,7 ≤ α < 0,8 — приемлемая (для исследований).
  • α < 0,7 — сомнительная.
  • α < 0,6 — неприемлемая.

Что важно понимать:

  • Альфа растёт при увеличении числа пунктов — даже если они слабо связаны с конструктом. Длинный тест может иметь высокую α по арифметическим, а не содержательным причинам.
  • Альфа предполагает однородность шкалы: все пункты измеряют одно. Если конструкт многомерный, α будет занижена — и это правильно: она сигнализирует, что шкалу нужно делить на субшкалы.
  • Высокая α не означает валидность. Шкала может быть внутренне согласована — и при этом измерять не то.

Корреляция и надёжность

Корреляция — мера связи двух переменных (не причинности!). Для надёжности её считают между:

  • первым и вторым измерением (тест-ретест);
  • двумя половинами опросника (split-half);
  • парами пунктов (основа α Кронбаха).
Тип шкалыКоэффициент корреляции
Номинальная (да/нет)Четырёхклеточная корреляция Гилфорда
Порядковая (Ликерт, SWLS)Ранговая корреляция Спирмена
ИнтервальнаяЛинейная корреляция Пирсона

Коэффициент корреляции — от −1 до +1. Для надёжности в психодиагностике ориентир — не ниже 0,5–0,7; 0,3 может быть приемлемо в фундаментальной науке, но слабо для клинических решений.

Корреляцию всегда смотрят вместе с уровнем значимости (p-value): p < 0,05 — связь статистически значима; без этого цифра мало что значит.


Прямые и обратные пункты

Обратный пункт — формулировка, где согласие означает низкий балл по шкале (например, «Моя жизнь — сущий ад» в SWLS рядом с «Условия моей жизни прекрасные»).

Балл за обратный пункт пересчитывают: (сумма крайних значений шкалы) − (балл за пункт). На семибалльной шкале: 8 − ответ.

Обратные пункты повышают достоверность (отсекают «на отвал» и соглашательство), но могут слегка снижать α — это нормальный компромисс.


Как читать статью валидации

В разделе «материалы и методы» ищите:

  • Выборку — N, возраст, пол, контекст; сравните с вашей аудиторией.
  • α Кронбаха по шкалам — не ниже 0,7 для исследований.
  • Корреляции — r и p < 0,05; без значимости цифра мало что значит.
  • EFA/CFA — структура конструкта и индексы RMSEA, CFI, TLI.

Если данных нет — методику для серьёзных решений лучше не брать.


Надёжность интерэкспертная

Отдельный тип — для методик с интерпретационным суждением специалиста (проективные тесты, наблюдение, интервью).

Интерэкспертная надёжность (inter-rater reliability) — степень согласия между разными специалистами при оценке одного испытуемого.

Измеряется коэффициентами Каппа Коэна (κ) или ICC (Intraclass Correlation Coefficient).

Низкая интерэкспертная надёжность — основная критика в адрес ряда проективных методов.


Запомнить

  • Репрезентативность норм (100–200+ человек) — первый фильтр при выборе методики.
  • Надёжность — стабильность измерения; для каждой шкалы — свой показатель.
  • SWLS и шкала Ликерта — типичные примеры порядковых шкал; α ≥ 0,7 — рабочий минимум.
  • Корреляцию интерпретируют только вместе с p < 0,05; обратные пункты защищают от случайных ответов.

См. также

Надёжность психодиагностических методик: шкалы, Ликерт и альфа Кронбаха