Валидность и достоверность: как оценить психодиагностическую методику

Виды валидности, соотношение валидности и надёжности, достоверность ответов, шкалы L/F/K и клинические шкалы MMPI, чувствительность и специфичность скрининга

30 марта 2026 г.

Надёжность — стабильны ли баллы при повторе. Валидность — измеряем ли заявленный конструкт. Достоверность — не подстроил ли испытуемый ответы под социально желательный образ. Три разных параметра одной методики.

Соотношение надёжности и валидности:

Валидная методика не может быть ненадёжной — устойчивая связь с конструктом предполагает стабильность измерения.
Надёжная, но невалидная — может: методика стабильно измеряет что-то, но не то, что нужно.
Валидность ≤ надёжность — валидность не бывает выше надёжности.

Валидность

Валидность (validity) — степень, в которой тест измеряет именно тот конструкт, для которого предназначен.

Валидность — не свойство теста в вакууме. Она всегда относится к конкретной цели, конкретной популяции и конкретному контексту. Тест, валидный для оценки депрессии у взрослых, может быть невалидным для оценки депрессии у подростков.

Содержательная валидность

Насколько пункты теста охватывают весь диапазон конструкта — не больше и не меньше.

Пример: Тест по алгебре с задачами только на уравнения не охватывает весь раздел. Тест «на стрессоустойчивость» с пунктами только о реакции на дедлайны — частичная картина.

Оценивается экспертным путём, а не статистически.

Очевидная (face) валидность — частный случай: респондент понимает, о чём его спрашивают («это про депрессию»). Это повышает прозрачность, но и риск искажения ответов.

Пример слабого пункта: «Если бы я мог ни с кем не общаться, я бы так и делал» — формально про экстраверсию, но малореалистичен; уступает пункту «Мне нравится общаться с незнакомцами».

Конструктная валидность

Подтверждает, что тест действительно связан с теоретическим конструктом.

Конвергентная: тест коррелирует с другими методами измерения того же конструкта (если оба хорошие).

Дивергентная (дискриминантная): тест не коррелирует (или слабо коррелирует) с методами, измеряющими другие конструкты.

Пример: Опросник тревоги должен коррелировать с другими опросниками тревоги (конвергентная) и не должен показывать высокую корреляцию с шкалой экстраверсии (дивергентная).

Классический способ накопить доказательства — многочертовая-многометодная матрица (MTMM): один конструкт измеряют разными методами (опросник, проективный тест, рейтинг наблюдателя) и сравнивают, что коррелирует сильнее — конструкт или метод измерения.

Конструктная валидность — «прародитель» эмпирической: сначала теория (например, «субъективное благополучие» вместо размытого «счастья»), потом проверка связей.

Критериальная (эмпирическая) валидность

Насколько результаты теста связаны с внешним критерием.

Одновременная (concurrent) — тест и критерий измеряются параллельно.

Прогностическая (predictive) — тест предсказывает будущий критерий.

Метод контрастных групп: отбирают 15–30% с очень высоким и очень низким баллом и сравнивают по внешним признакам.

Тип методики	Типичный диапазон r
Личностные опросники	0,3–0,4
Интеллектуальные тесты	0,4–0,6
Специализированные тесты	0,5–0,7

Валидизация

Экспертная валидизация — независимые эксперты оценивают теоретическое и эмпирическое соответствие пунктов конструкту.

Кросс-валидизация — проверка на новой выборке.

Достоверность ответов

Даже хороший тест может дать бесполезные данные, если испытуемый отвечает неискренне. Достоверность — это не свойство теста, а характеристика конкретного набора ответов.

Основные источники искажений:

Социально желательные ответы — человек отвечает так, как «принято», а не как есть.
Аггравация — преувеличение симптомов (например, при симуляции расстройства).
Диссимуляция — скрытие симптомов (например, при стремлении сохранить работу или получить права).
Случайные ответы — нет мотивации, усталость.
Непоследовательность — разные ответы на схожие пункты без содержательной причины.

Шкалы MMPI для оценки достоверности

MMPI (Minnesota Multiphasic Personality Inventory) — один из первых крупных личностных опросников, включающий встроенные шкалы оценки достоверности ответов.

L (Lie, ложь) — пункты, которые касаются мелких повседневных слабостей, признаваемых большинством людей. Высокий балл = испытуемый хочет выглядеть исключительно добродетельным.

F (Frequency, частота) — пункты, которые редко получают положительный ответ в нормативной выборке. Высокий балл = редкие или атипичные ответы — признак аггравации, случайного ответа или серьёзных расстройств.

K (Correction, коррекция) — более тонкая мера защитного поведения. В отличие от L, K не выявляет «ложь», а указывает на психологическую защиту. Умеренный уровень K добавляется к клиническим шкалам как поправочный коэффициент.

В MMPI-2 дополнительно используют VRIN (несовместимость изменяемых ответов) и TRIN (несовместимость правдивых ответов) — они выявляют случайные, стереотипные или противоречивые паттерны ответов.

Интерпретация: если L и K высоки одновременно, а F низок — возможна диссимуляция. Если F очень высок — аггравация или серьёзная психопатология.

Ограничение «умных симулянтов». Шкалы L/F/K хорошо ловят примитивную фальсификацию, но стратегические симулянты, знакомые с симптоматикой и логикой шкал валидности, могут строить профили, близкие к клиническим. Пороговые значения шкал также зависят от группы — универсального «красного флага» нет.

Клинические шкалы MMPI (краткий обзор)

Помимо L, F, K, MMPI включает клинические шкалы, построенные на сопоставлении ответов здоровых людей и пациентов с конкретными нозологиями: Hs (ипохондрия), D (депрессия), Hy (истерия), Pd (антисоциальность), Pa (паранойя), Pt (психастения), Sc (шизоидность), Ma (гипомания), Mf (мужские/женские черты), Si (социальная интроверсия).

Русскоязычные адаптации: СМИЛ, ММИЛ, СКЛО, СМОЛ, мини-версии. Подробнее о личности и характере — в статье о факторных опросниках.

Защита от искажений

Соглашательский стиль — чередование прямых и обратных пунктов.
Случайный стиль — дублирующие пункты (на больших выборках ~6–7% совпадений случайно).
Социально-желательный стиль — служебные шкалы лжи (L, F, K в MMPI).

Факторы, снижающие достоверность: вопрос вне опыта человека; конфликт между измеряемым свойством и социальной желательностью; индивидуальная тактика (кандидат на работе, подозреваемый на допросе).

Чувствительность и специфичность

При скрининге (DASS-21, HADS, тесты на депрессию) важны два показателя:

Чувствительность — как часто тест выявляет тех, у кого проблема есть (аналог «поймать больных»).
Специфичность — как часто тест не записывает здоровых в «больные».

Высокая специфичность снижает ложные срабатывания; высокая чувствительность — пропуски. Для клинического скрининга баланс зависит от цены ошибки.

Скрининговые самоотчёты и структурированное интервью

Самоотчёты (DASS-21, HADS, BDI, SCL-90-R) — экономичные бланки: пациент заполняет сам, получает количественную оценку тяжести симптомов. Они удобны для первичного выявления проблем и мониторинга динамики, но подвержены субъективизму, фальсификации и недостатку самокритичности.

BDI (опросник депрессии Бека) оценивает глубину депрессивных симптомов; SCL-90-R (контрольный перечень симптомов) — широкий профиль психопатологии и эмоционального дистресса. Оба — типичные примеры скрининга, а не постановки диагноза.

Структурированные клинические интервью (например, SCID для DSM) проводит обученный клиницист: он уточняет формулировки, оценивает адекватность понимания, сверяет ответы с анамнезом. Такое интервью привязано к критериям классификации и служит стандартом для окончательного диагноза; балл по самоотчёту остаётся гипотезой, которую нужно подтвердить.

DASS-21 и HADS — инструменты для скрининга аффективных состояний

Оба инструмента предназначены для скрининга (предварительного выявления) аффективных расстройств — не для диагностики.

DASS-21 (Depression Anxiety Stress Scales — 21 item)

Укороченная версия DASS-42. Три субшкалы: депрессия, тревога, стресс. Каждая включает 7 пунктов, оцениваемых по 4-балльной шкале Ликерта (0 = «ко мне это не относилось» → 3 = «относилось очень часто»).

Использование: Скрининг, мониторинг лечения, исследования.

Нормы: Для каждой субшкалы определены пороговые значения: норма, умеренный уровень, высокий, крайне высокий.

Ограничение: Не заменяет структурированное клиническое интервью для постановки диагноза.

HADS (Hospital Anxiety and Depression Scale)

Разработана для использования в нехирургических отделениях больниц — откуда и название (госпитальная). Две субшкалы: тревога и депрессия, по 7 пунктов каждая.

Особенность: Пункты сформулированы так, чтобы минимизировать влияние физических симптомов (усталость, нарушения сна) — они часто обусловлены соматическим заболеванием, а не психическим. Это делает HADS более точным при работе с пациентами с хроническими болезнями.

Пороговые значения: 0–7 = норма, 8–10 = пограничный уровень, 11+ = клинически значимый уровень.

Запомнить

Валидность ≤ надёжность; валидная методика не бывает ненадёжной.
Содержательная, конструктная и критериальная валидность; контрастные группы и экспертная валидизация.
Достоверность — про конкретные ответы; MMPI (L, F, K + клинические шкалы) защищает от искажений.
DASS-21, HADS, BDI, SCL-90-R — скрининг; смотрите чувствительность и специфичность, не ставьте диагноз по баллу.
VRIN/TRIN в MMPI-2 дополняют L, F, K; диагноз подтверждают интервью, а не только самоотчёт.

Литература

Анастази, А., & Урбина, С. (2005). Психологическое тестирование (7-е изд.). Питер.
Шмелев, А. Г. (2013). Практическая тестология. ИПЦ «Маска».
Бодалев, А. А., Столин, В. В., & Аванесов, В. С. (2000). Общая психодиагностика. Речь.