Надёжность психодиагностических методик: шкалы, Ликерт и альфа Кронбаха
Каждый раз, когда мы используем психологический инструмент, мы неявно принимаем два предположения: во-первых, что он измеряет то, что нам нужно (валидность), во-вторых — что он делает это стабильно, воспроизводимо (надёжность).
Психометрические свойства: с чего начинать
Психометрические свойства — показатели качества методики. Первое, на что смотрят при выборе инструмента, — репрезентативность норм: насколько выборка стандартизации (люди, на которых методику апробировали) похожа на ту популяцию, где вы будете её применять.
- Минимум для апробации — 100–200 человек.
- 500–1000 — уже хорошая база.
- Чем больше выборка и чем она ближе к вашей аудитории (возраст, пол, контекст), тем надёжнее нормы.
Данные о репрезентативности, надёжности и валидности публикуют в научных статьях (разделы «материалы и методы», «результаты»). Искать их удобно через Google Scholar по названию методики и словам «validation», «psychometric», «адаптация».
Надёжность — необходимое, но не достаточное условие качества методики. Опросник может надёжно измерять что-то — но не то, что нам нужно. Однако если он ненадёжен, разговор о его полезности заканчивается.
Что такое надёжность
Надёжность (reliability) — это степень стабильности измерений: насколько одни и те же результаты воспроизводятся при повторном применении инструмента в сходных условиях.
Если сегодня опросник показал у человека высокий уровень тревоги, а завтра — низкий, без объективных изменений в состоянии, инструмент ненадёжен.
Надёжность никогда не бывает идеальной: всегда есть случайная ошибка измерения. Задача — её минимизировать.
Типы шкал
Прежде чем говорить о надёжности, важно понять, что именно мы измеряем и какова природа шкалы.
Номинальная шкала
Числа (или метки) — только имена категорий без упорядоченности. Нельзя складывать, вычитать, ранжировать.
Пример: Вид профессии, пол, диагноз (F32.0, F40.0 и т.д.).
Порядковая (ординальная) шкала
Позиции упорядочены, но расстояния между ними не равны.
Пример: Ранги («занял первое место»), оценки в баллах (1–5), уровни тревоги («нет / умеренная / выраженная»).
Сложение порядковых данных — некорректная операция, хотя в психологии к ней прибегают постоянно. Ответы «согласен» и «не согласен» не имеют гарантированно равного расстояния.
Интервальная шкала
Равные расстояния между значениями, но нет абсолютного нуля.
Пример: Шкала Цельсия (0° — не означает «нет температуры»), большинство психологических шкал условно относят сюда при достаточном числе пунктов.
Шкала отношений
Есть абсолютный ноль. Можно говорить «в два раза больше».
Пример: Время реакции, вес, рост.
Шкала Ликерта
Шкала Ликерта — наиболее распространённый формат в психологических опросниках. Испытуемый оценивает степень своего согласия с утверждением.
Классический вид: 5 позиций — «Совершенно не согласен», «Не согласен», «Ни то ни другое», «Согласен», «Полностью согласен».
Могут использоваться варианты с 4, 6, 7 позициями. Чётное число убирает нейтральный вариант, вынуждая человека склониться в ту или иную сторону.
Почему Ликерт?
- Просто объяснить и понять.
- Даёт градации, а не бинарный выбор.
- Накопленные баллы по нескольким пунктам образуют шкалу с более высокой надёжностью, чем отдельные вопросы.
Ограничения:
- Центральная тенденция: испытуемые склонны выбирать средние значения.
- Аквиесценция (соглашательство): некоторые люди склонны отвечать «согласен» вне зависимости от содержания.
- Технически — порядковая шкала, но в психометрике часто обращаются с ней как с интервальной.
Пример: шкала субъективного благополучия (SWLS)
Satisfaction With Life Scale — пять утверждений про удовлетворённость жизнью, ответы по семибалльной шкале (от «определённо не согласен» до «определённо согласен»). Итог — сумма баллов.
| Пункт | О чём спрашивает |
|---|---|
| В целом моя жизнь близка к идеалу | Интегральная оценка жизни |
| Условия моей жизни прекрасные | Оценка обстоятельств |
| Я удовлетворён жизнью | Удовлетворение потребностей |
| К настоящему моменту я получил от жизни всё, чего хотел | Достижение целей |
| Если бы мог прожить заново, не изменил бы почти ничего | Общее ощущение счастья |
SWLS показывает, как из нескольких однотипных пунктов собирают шкалу с измеримой внутренней согласованностью. В русскоязычных адаптациях для оценки связей иногда используют ранговую корреляцию Спирмена.
Типы надёжности
Тест-ретест надёжность
Тест применяется дважды на одной и той же группе с интервалом времени. Вычисляется корреляция между двумя наборами результатов.
Проблема: Если интервал короткий — испытуемые помнят свои ответы. Если длинный — само состояние могло измениться.
Надёжность параллельных форм
Два разных набора пунктов, измеряющих тот же конструкт, применяются к одной группе. Корреляция между ними — показатель надёжности.
Проблема: Разработать две действительно эквивалентные формы — трудоёмкая задача.
Надёжность-согласованность
Степень, в которой пункты одного теста (или субшкалы) измеряют одно и то же. Не требует повторного применения.
- Метод расщепления пополам (split-half) — опросник делят на две части; если суммы баллов близки, согласованность высокая.
- Альфа Кронбаха (α) — самый распространённый показатель внутренней согласованности.
Важно: надёжность считают отдельно для каждой шкалы методики. Узкоспециализированный тест (например, на знание языка программирования) должен быть надёжнее, чем широкий личностный опросник.
Абсолютно стабильных психических свойств не существует: у взрослых они могут меняться за полгода, у детей — за пару недель. Задача — отличить реальное изменение от шума измерения.
Альфа Кронбаха
Альфа Кронбаха — мера внутренней согласованности теста: насколько его пункты «тянут в одну сторону».
Формально: α = N · r̄ / (1 + (N-1) · r̄), где N — число пунктов, r̄ — средняя попарная корреляция между пунктами.
Интерпретация:
- α ≥ 0,9 — отличная согласованность (используется в клинических решениях).
- 0,8 ≤ α < 0,9 — хорошая.
- 0,7 ≤ α < 0,8 — приемлемая (для исследований).
- α < 0,7 — сомнительная.
- α < 0,6 — неприемлемая.
Что важно понимать:
- Альфа растёт при увеличении числа пунктов — даже если они слабо связаны с конструктом. Длинный тест может иметь высокую α по арифметическим, а не содержательным причинам.
- Альфа предполагает однородность шкалы: все пункты измеряют одно. Если конструкт многомерный, α будет занижена — и это правильно: она сигнализирует, что шкалу нужно делить на субшкалы.
- Высокая α не означает валидность. Шкала может быть внутренне согласована — и при этом измерять не то.
Корреляция и надёжность
Корреляция — мера связи двух переменных (не причинности!). Для надёжности её считают между:
- первым и вторым измерением (тест-ретест);
- двумя половинами опросника (split-half);
- парами пунктов (основа α Кронбаха).
| Тип шкалы | Коэффициент корреляции |
|---|---|
| Номинальная (да/нет) | Четырёхклеточная корреляция Гилфорда |
| Порядковая (Ликерт, SWLS) | Ранговая корреляция Спирмена |
| Интервальная | Линейная корреляция Пирсона |
Коэффициент корреляции — от −1 до +1. Для надёжности в психодиагностике ориентир — не ниже 0,5–0,7; 0,3 может быть приемлемо в фундаментальной науке, но слабо для клинических решений.
Корреляцию всегда смотрят вместе с уровнем значимости (p-value): p < 0,05 — связь статистически значима; без этого цифра мало что значит.
Прямые и обратные пункты
Обратный пункт — формулировка, где согласие означает низкий балл по шкале (например, «Моя жизнь — сущий ад» в SWLS рядом с «Условия моей жизни прекрасные»).
Балл за обратный пункт пересчитывают: (сумма крайних значений шкалы) − (балл за пункт). На семибалльной шкале: 8 − ответ.
Обратные пункты повышают достоверность (отсекают «на отвал» и соглашательство), но могут слегка снижать α — это нормальный компромисс.
Как читать статью валидации
В разделе «материалы и методы» ищите:
- Выборку — N, возраст, пол, контекст; сравните с вашей аудиторией.
- α Кронбаха по шкалам — не ниже 0,7 для исследований.
- Корреляции — r и p < 0,05; без значимости цифра мало что значит.
- EFA/CFA — структура конструкта и индексы RMSEA, CFI, TLI.
Если данных нет — методику для серьёзных решений лучше не брать.
Надёжность интерэкспертная
Отдельный тип — для методик с интерпретационным суждением специалиста (проективные тесты, наблюдение, интервью).
Интерэкспертная надёжность (inter-rater reliability) — степень согласия между разными специалистами при оценке одного испытуемого.
Измеряется коэффициентами Каппа Коэна (κ) или ICC (Intraclass Correlation Coefficient).
Низкая интерэкспертная надёжность — основная критика в адрес ряда проективных методов.
Запомнить
- Репрезентативность норм (100–200+ человек) — первый фильтр при выборе методики.
- Надёжность — стабильность измерения; для каждой шкалы — свой показатель.
- SWLS и шкала Ликерта — типичные примеры порядковых шкал; α ≥ 0,7 — рабочий минимум.
- Корреляцию интерпретируют только вместе с p < 0,05; обратные пункты защищают от случайных ответов.