Валидность и достоверность: как оценить психодиагностическую методику
Надёжность говорит о том, стабильны ли измерения. Валидность — о том, измеряем ли мы то, что собирались измерять. Достоверность — о том, можно ли доверять ответам конкретного испытуемого. Это три разных, но взаимосвязанных аспекта качества методики и данных.
Соотношение надёжности и валидности:
- Валидная методика не может быть ненадёжной — устойчивая связь с конструктом предполагает стабильность измерения.
- Надёжная, но невалидная — может: методика стабильно измеряет что-то, но не то, что нужно.
- Валидность ≤ надёжность — валидность никогда не бывает выше надёжности.
Надёжность — устойчивость процедуры относительно какого-то предмета измерения. Валидность — устойчивость связи с нужным предметом.
Валидность
Валидность (validity) — степень, в которой тест измеряет именно тот конструкт, для которого предназначен.
Валидность — не свойство теста в вакууме. Она всегда относится к конкретной цели, конкретной популяции и конкретному контексту. Тест, валидный для оценки депрессии у взрослых, может быть невалидным для оценки депрессии у подростков.
Содержательная валидность
Насколько пункты теста охватывают весь диапазон конструкта — не больше и не меньше.
Пример: Тест по алгебре с задачами только на уравнения не охватывает весь раздел. Тест «на стрессоустойчивость» с пунктами только о реакции на дедлайны — частичная картина.
Оценивается экспертным путём, а не статистически.
Очевидная (face) валидность — частный случай: респондент понимает, о чём его спрашивают («это про депрессию»). Это повышает прозрачность, но и риск искажения ответов.
Пример слабого пункта: «Если бы я мог ни с кем не общаться, я бы так и делал» — формально про экстраверсию, но малореалистичен; уступает пункту «Мне нравится общаться с незнакомцами».
Конструктная валидность
Подтверждает, что тест действительно связан с теоретическим конструктом.
Конвергентная: тест коррелирует с другими методами измерения того же конструкта (если оба хорошие).
Дивергентная (дискриминантная): тест не коррелирует (или слабо коррелирует) с методами, измеряющими другие конструкты.
Пример: Опросник тревоги должен коррелировать с другими опросниками тревоги (конвергентная) и не должен показывать высокую корреляцию с шкалой экстраверсии (дивергентная).
Конструктная валидность — «прародитель» эмпирической: сначала теория (например, «субъективное благополучие» вместо размытого «счастья»), потом проверка связей.
Критериальная (эмпирическая) валидность
Насколько результаты теста связаны с внешним критерием.
Одновременная (concurrent) — тест и критерий измеряются параллельно.
Прогностическая (predictive) — тест предсказывает будущий критерий.
Метод контрастных групп: отбирают 15–30% с очень высоким и очень низким баллом и сравнивают по внешним признакам.
| Тип методики | Типичный диапазон r |
|---|---|
| Личностные опросники | 0,3–0,4 |
| Интеллектуальные тесты | 0,4–0,6 |
| Специализированные тесты | 0,5–0,7 |
Валидизация
Экспертная валидизация — независимые эксперты оценивают теоретическое и эмпирическое соответствие пунктов конструкту.
Кросс-валидизация — проверка на новой выборке.
Достоверность ответов
Даже хороший тест может дать бесполезные данные, если испытуемый отвечает неискренне. Достоверность — это не свойство теста, а характеристика конкретного набора ответов.
Основные источники искажений:
- Социально желательные ответы — человек отвечает так, как «принято», а не как есть.
- Аггравация — преувеличение симптомов (например, при симуляции расстройства).
- Диссимуляция — скрытие симптомов (например, при стремлении сохранить работу или получить права).
- Случайные ответы — нет мотивации, усталость.
- Непоследовательность — разные ответы на схожие пункты без содержательной причины.
Шкалы MMPI для оценки достоверности
MMPI (Minnesota Multiphasic Personality Inventory) — один из первых крупных личностных опросников, включающий встроенные шкалы оценки достоверности ответов.
L (Lie, ложь) — пункты, которые касаются мелких повседневных слабостей, признаваемых большинством людей. Высокий балл = испытуемый хочет выглядеть исключительно добродетельным.
F (Frequency, частота) — пункты, которые редко получают положительный ответ в нормативной выборке. Высокий балл = редкие или атипичные ответы — признак аггравации, случайного ответа или серьёзных расстройств.
K (Correction, коррекция) — более тонкая мера защитного поведения. В отличие от L, K не выявляет «ложь», а указывает на психологическую защиту. Умеренный уровень K добавляется к клиническим шкалам как поправочный коэффициент.
Интерпретация: если L и K высоки одновременно, а F низок — возможна диссимуляция. Если F очень высок — аггравация или серьёзная психопатология.
Клинические шкалы MMPI (краткий обзор)
Помимо L, F, K, MMPI включает клинические шкалы, построенные на сопоставлении ответов здоровых людей и пациентов с конкретными нозологиями: Hs (ипохондрия), D (депрессия), Hy (истерия), Pd (антисоциальность), Pa (паранойя), Pt (психастения), Sc (шизоидность), Ma (гипомания), Mf (мужские/женские черты), Si (социальная интроверсия).
Русскоязычные адаптации: СМИЛ, ММИЛ, СКЛО, СМОЛ, мини-версии. Подробнее о личности и характере — в статье о факторных опросниках.
Защита от искажений
- Соглашательский стиль — чередование прямых и обратных пунктов.
- Случайный стиль — дублирующие пункты (на больших выборках ~6–7% совпадений случайно).
- Социально-желательный стиль — служебные шкалы лжи (L, F, K в MMPI).
Факторы, снижающие достоверность: вопрос вне опыта человека; конфликт между измеряемым свойством и социальной желательностью; индивидуальная тактика (кандидат на работе, подозреваемый на допросе).
Чувствительность и специфичность
При скрининге (DASS-21, HADS, тесты на депрессию) важны два показателя:
- Чувствительность — как часто тест выявляет тех, у кого проблема есть (аналог «поймать больных»).
- Специфичность — как часто тест не записывает здоровых в «больные».
Высокая специфичность снижает ложные срабатывания; высокая чувствительность — пропуски. Для клинического скрининга баланс зависит от цены ошибки.
DASS-21 и HADS — инструменты для скрининга аффективных состояний
Оба инструмента предназначены для скрининга (предварительного выявления) аффективных расстройств — не для диагностики.
DASS-21 (Depression Anxiety Stress Scales — 21 item)
Укороченная версия DASS-42. Три субшкалы: депрессия, тревога, стресс. Каждая включает 7 пунктов, оцениваемых по 4-балльной шкале Ликерта (0 = «ко мне это не относилось» → 3 = «относилось очень часто»).
Использование: Скрининг, мониторинг лечения, исследования.
Нормы: Для каждой субшкалы определены пороговые значения: норма, умеренный уровень, высокий, крайне высокий.
Ограничение: Не заменяет структурированное клиническое интервью для постановки диагноза.
HADS (Hospital Anxiety and Depression Scale)
Разработана для использования в нехирургических отделениях больниц — откуда и название (госпитальная). Две субшкалы: тревога и депрессия, по 7 пунктов каждая.
Особенность: Пункты сформулированы так, чтобы минимизировать влияние физических симптомов (усталость, нарушения сна) — они часто обусловлены соматическим заболеванием, а не психическим. Это делает HADS более точным при работе с пациентами с хроническими болезнями.
Пороговые значения: 0–7 = норма, 8–10 = пограничный уровень, 11+ = клинически значимый уровень.
Запомнить
- Валидность ≤ надёжность; валидная методика не бывает ненадёжной.
- Содержательная, конструктная и критериальная валидность; контрастные группы и экспертная валидизация.
- Достоверность — про конкретные ответы; MMPI (L, F, K + клинические шкалы) защищает от искажений.
- DASS-21 и HADS — скрининг; смотрите чувствительность и специфичность, не ставьте диагноз по баллу.