Надёжность психодиагностических методик: шкалы, Ликерт и альфа Кронбаха

Репрезентативность норм, типы шкал, SWLS, шкала Ликерта, виды надёжности, альфа Кронбаха, корреляции, p-value и обратные пункты

30 марта 2026 г.

Психологический инструмент годится для решений, только если он валиден (измеряет заявленный конструкт) и надёжен (даёт похожие баллы при повторе в сходных условиях).

Психометрические свойства: с чего начинать

Психометрические свойства — показатели качества методики. Первое, на что смотрят при выборе инструмента, — репрезентативность норм: насколько выборка стандартизации (люди, на которых методику апробировали) похожа на ту популяцию, где вы будете её применять.

Минимум для апробации — 100–200 человек.
500–1000 — уже хорошая база.
Чем больше выборка и чем она ближе к вашей аудитории (возраст, пол, контекст), тем надёжнее нормы.

Данные о репрезентативности, надёжности и валидности публикуют в научных статьях (разделы «материалы и методы», «результаты»). Искать их удобно через Google Scholar по названию методики и словам «validation», «psychometric», «адаптация».

Надёжность — необходимое, но не достаточное условие качества методики. Опросник может надёжно измерять что-то — но не то, что нам нужно. Однако если он ненадёжен, разговор о его полезности заканчивается.

Что такое надёжность

Надёжность (reliability) — это степень стабильности измерений: насколько одни и те же результаты воспроизводятся при повторном применении инструмента в сходных условиях.

Если сегодня опросник показал у человека высокий уровень тревоги, а завтра — низкий, без объективных изменений в состоянии, инструмент ненадёжен.

Надёжность никогда не бывает идеальной: всегда есть случайная ошибка измерения. Задача — её минимизировать.

Типы шкал

Прежде чем говорить о надёжности, важно понять, что именно мы измеряем и какова природа шкалы.

Номинальная шкала

Числа (или метки) — только имена категорий без упорядоченности. Нельзя складывать, вычитать, ранжировать.

Пример: Вид профессии, пол, диагноз (F32.0, F40.0 и т.д.).

Порядковая (ординальная) шкала

Позиции упорядочены, но расстояния между ними не равны.

Пример: Ранги («занял первое место»), оценки в баллах (1–5), уровни тревоги («нет / умеренная / выраженная»).

Сложение порядковых данных — некорректная операция, хотя в психологии к ней прибегают постоянно. Ответы «согласен» и «не согласен» не имеют гарантированно равного расстояния.

Интервальная шкала

Равные расстояния между значениями, но нет абсолютного нуля.

Пример: Шкала Цельсия (0° — не означает «нет температуры»), большинство психологических шкал условно относят сюда при достаточном числе пунктов.

Шкала отношений

Есть абсолютный ноль. Можно говорить «в два раза больше».

Пример: Время реакции, вес, рост.

Шкала Ликерта

Шкала Ликерта — наиболее распространённый формат в психологических опросниках. Испытуемый оценивает степень своего согласия с утверждением.

Классический вид: 5 позиций — «Совершенно не согласен», «Не согласен», «Ни то ни другое», «Согласен», «Полностью согласен».

Могут использоваться варианты с 4, 6, 7 позициями. Чётное число убирает нейтральный вариант, вынуждая человека склониться в ту или иную сторону.

Почему Ликерт?

Просто объяснить и понять.
Даёт градации, а не бинарный выбор.
Накопленные баллы по нескольким пунктам образуют шкалу с более высокой надёжностью, чем отдельные вопросы.

Ограничения:

Центральная тенденция: испытуемые склонны выбирать средние значения.
Аквиесценция (соглашательство): некоторые люди склонны отвечать «согласен» вне зависимости от содержания.
Технически — порядковая шкала, но в психометрике часто обращаются с ней как с интервальной.

Пример: шкала субъективного благополучия (SWLS)

Satisfaction With Life Scale — пять утверждений про удовлетворённость жизнью, ответы по семибалльной шкале (от «определённо не согласен» до «определённо согласен»). Итог — сумма баллов.

Пункт	О чём спрашивает
В целом моя жизнь близка к идеалу	Интегральная оценка жизни
Условия моей жизни прекрасные	Оценка обстоятельств
Я удовлетворён жизнью	Удовлетворение потребностей
К настоящему моменту я получил от жизни всё, чего хотел	Достижение целей
Если бы мог прожить заново, не изменил бы почти ничего	Общее ощущение счастья

SWLS показывает, как из нескольких однотипных пунктов собирают шкалу с измеримой внутренней согласованностью. В русскоязычных адаптациях для оценки связей иногда используют ранговую корреляцию Спирмена.

Типы надёжности

Тест-ретест надёжность

Тест применяется дважды на одной и той же группе с интервалом времени. Вычисляется корреляция между двумя наборами результатов.

Проблема: Если интервал короткий — испытуемые помнят свои ответы. Если длинный — само состояние могло измениться.

Черта vs состояние: ретест уместен для устойчивых диспозиций (черты личности, способности). Для состояний (тревога перед экзаменом, настроение «здесь и сейчас») низкая корреляция через месяц может означать не шум теста, а реальное изменение — требовать от таких шкал «стабильности как у черты» бессмысленно.

Нормативное vs критериально-ориентированное тестирование

НОРТ (нормативно-ориентированное): балл сравнивают с распределением на выборке стандартизации («выше среднего по группе»). Типичны личностные опросники и тесты интеллекта.

КОРТ (критериально-ориентированное): балл сравнивают с заранее заданным порогом овладения («сдал / не сдал», «освоил программу»), независимо от того, как справились другие. Типичны тесты знаний и профессиональных компетенций.

Один и тот же бланк может использоваться в обоих режимах — важно, как вы интерпретируете результат.

Надёжность параллельных форм

Два разных набора пунктов, измеряющих тот же конструкт, применяются к одной группе. Корреляция между ними — показатель надёжности.

Проблема: Разработать две действительно эквивалентные формы — трудоёмкая задача.

Надёжность-согласованность

Степень, в которой пункты одного теста (или субшкалы) измеряют одно и то же. Не требует повторного применения.

Метод расщепления пополам (split-half) — опросник делят на две части; если суммы баллов близки, согласованность высокая.
Альфа Кронбаха (α) — самый распространённый показатель внутренней согласованности.

Важно: надёжность считают отдельно для каждой шкалы методики. Узкоспециализированный тест (например, на знание языка программирования) должен быть надёжнее, чем широкий личностный опросник.

Абсолютно стабильных психических свойств не существует: у взрослых они могут меняться за полгода, у детей — за пару недель. Задача — отличить реальное изменение от шума измерения.

Альфа Кронбаха

Альфа Кронбаха — мера внутренней согласованности теста: насколько его пункты «тянут в одну сторону».

Формально: α = N · r̄ / (1 + (N-1) · r̄), где N — число пунктов, r̄ — средняя попарная корреляция между пунктами.

Интерпретация:

α ≥ 0,9 — отличная согласованность (используется в клинических решениях).
0,8 ≤ α < 0,9 — хорошая.
0,7 ≤ α < 0,8 — приемлемая (для исследований).
α < 0,7 — сомнительная.
α < 0,6 — неприемлемая.

Ограничения α:

Альфа растёт при увеличении числа пунктов — даже если они слабо связаны с конструктом. Длинный тест может иметь высокую α по арифметическим, а не содержательным причинам.
Альфа предполагает однородность шкалы: все пункты измеряют одно. Если конструкт многомерный, α будет занижена — и это правильно: она сигнализирует, что шкалу нужно делить на субшкалы.
Высокая α не означает валидность. Шкала может быть внутренне согласована — и при этом измерять не то.

Парадокс α > 0,9 у личностных опросников: для черт личности ориентир Шмелёва — 0,70–0,80. Если α поднимают выше 0,90, пункты часто дублируют друг друга по формулировке: конструкт сужается, тест становится «сверхсогласованным», но хуже предсказывает сложное поведение в жизни. Высокая внутренняя согласованность — не всегда признак качества; для клинических шкал высокий α уместен, для широких личностных — нет.

Корреляция и надёжность

Корреляция — мера связи двух переменных (не причинности!). Для надёжности её считают между:

первым и вторым измерением (тест-ретест);
двумя половинами опросника (split-half);
парами пунктов (основа α Кронбаха).

Тип шкалы	Коэффициент корреляции
Номинальная (да/нет)	Четырёхклеточная корреляция Гилфорда
Порядковая (Ликерт, SWLS)	Ранговая корреляция Спирмена
Интервальная	Линейная корреляция Пирсона

Коэффициент корреляции — от −1 до +1. Для надёжности в психодиагностике ориентир — не ниже 0,5–0,7; 0,3 допустимо в лабораторных исследованиях, но слабо для клинических решений.

Корреляцию всегда смотрят вместе с уровнем значимости (p-value): p < 0,05 — связь статистически значима; без этого цифра мало что значит.

Прямые и обратные пункты

Обратный пункт — формулировка, где согласие означает низкий балл по шкале (например, «Моя жизнь — сущий ад» в SWLS рядом с «Условия моей жизни прекрасные»).

Балл за обратный пункт пересчитывают: (сумма крайних значений шкалы) − (балл за пункт). На семибалльной шкале: 8 − ответ.

Обратные пункты повышают достоверность (отсекают «на отвал» и соглашательство), но могут слегка снижать α — это нормальный компромисс.

Как читать статью валидации

В разделе «материалы и методы» ищите:

Выборку — N, возраст, пол, контекст; сравните с вашей аудиторией.
α Кронбаха по шкалам — не ниже 0,7 для исследований.
Корреляции — r и p < 0,05; без значимости цифра мало что значит.
EFA/CFA — структура конструкта и индексы RMSEA, CFI, TLI.

Если данных нет — методику для серьёзных решений лучше не брать.

Надёжность интерэкспертная

Отдельный тип — для методик с интерпретационным суждением специалиста (проективные тесты, наблюдение, интервью).

Интерэкспертная надёжность (inter-rater reliability) — степень согласия между разными специалистами при оценке одного испытуемого.

Измеряется коэффициентами Каппа Коэна (κ) или ICC (Intraclass Correlation Coefficient).

Низкая интерэкспертная надёжность — основная критика в адрес ряда проективных методов.

Запомнить

Репрезентативность норм (100–200+ человек) — первый фильтр при выборе методики.
Надёжность — стабильность измерения; для каждой шкалы — свой показатель.
SWLS и шкала Ликерта — типичные примеры порядковых шкал; α ≥ 0,7 — рабочий минимум; у личностных опросников α > 0,9 может сужать конструкт.
Ретест — для черт; для состояний низкая стабильность через время не всегда дефект методики.
НОРТ — сравнение с нормой; КОРТ — с порогом овладения.
Корреляцию интерпретируют только вместе с p < 0,05; обратные пункты защищают от случайных ответов.

Литература

Анастази, А., & Урбина, С. (2005). Психологическое тестирование (7-е изд.). Питер.
Шмелев, А. Г. (2013). Практическая тестология. ИПЦ «Маска».
Бодалев, А. А., Столин, В. В., & Аванесов, В. С. (2000). Общая психодиагностика. Речь.