Валидность и достоверность: как оценить психодиагностическую методику

Надёжность говорит о том, стабильны ли измерения. Валидность — о том, измеряем ли мы то, что собирались измерять. Достоверность — о том, можно ли доверять ответам конкретного испытуемого. Это три разных, но взаимосвязанных аспекта качества методики и данных.

Соотношение надёжности и валидности:

  • Валидная методика не может быть ненадёжной — устойчивая связь с конструктом предполагает стабильность измерения.
  • Надёжная, но невалидная — может: методика стабильно измеряет что-то, но не то, что нужно.
  • Валидность ≤ надёжность — валидность никогда не бывает выше надёжности.

Надёжность — устойчивость процедуры относительно какого-то предмета измерения. Валидность — устойчивость связи с нужным предметом.

Валидность

Валидность (validity) — степень, в которой тест измеряет именно тот конструкт, для которого предназначен.

Валидность — не свойство теста в вакууме. Она всегда относится к конкретной цели, конкретной популяции и конкретному контексту. Тест, валидный для оценки депрессии у взрослых, может быть невалидным для оценки депрессии у подростков.

Содержательная валидность

Насколько пункты теста охватывают весь диапазон конструкта — не больше и не меньше.

Пример: Тест по алгебре с задачами только на уравнения не охватывает весь раздел. Тест «на стрессоустойчивость» с пунктами только о реакции на дедлайны — частичная картина.

Оценивается экспертным путём, а не статистически.

Очевидная (face) валидность — частный случай: респондент понимает, о чём его спрашивают («это про депрессию»). Это повышает прозрачность, но и риск искажения ответов.

Пример слабого пункта: «Если бы я мог ни с кем не общаться, я бы так и делал» — формально про экстраверсию, но малореалистичен; уступает пункту «Мне нравится общаться с незнакомцами».

Конструктная валидность

Подтверждает, что тест действительно связан с теоретическим конструктом.

Конвергентная: тест коррелирует с другими методами измерения того же конструкта (если оба хорошие).

Дивергентная (дискриминантная): тест не коррелирует (или слабо коррелирует) с методами, измеряющими другие конструкты.

Пример: Опросник тревоги должен коррелировать с другими опросниками тревоги (конвергентная) и не должен показывать высокую корреляцию с шкалой экстраверсии (дивергентная).

Конструктная валидность — «прародитель» эмпирической: сначала теория (например, «субъективное благополучие» вместо размытого «счастья»), потом проверка связей.

Критериальная (эмпирическая) валидность

Насколько результаты теста связаны с внешним критерием.

Одновременная (concurrent) — тест и критерий измеряются параллельно.

Прогностическая (predictive) — тест предсказывает будущий критерий.

Метод контрастных групп: отбирают 15–30% с очень высоким и очень низким баллом и сравнивают по внешним признакам.

Тип методикиТипичный диапазон r
Личностные опросники0,3–0,4
Интеллектуальные тесты0,4–0,6
Специализированные тесты0,5–0,7

Валидизация

Экспертная валидизация — независимые эксперты оценивают теоретическое и эмпирическое соответствие пунктов конструкту.

Кросс-валидизация — проверка на новой выборке.


Достоверность ответов

Даже хороший тест может дать бесполезные данные, если испытуемый отвечает неискренне. Достоверность — это не свойство теста, а характеристика конкретного набора ответов.

Основные источники искажений:

  • Социально желательные ответы — человек отвечает так, как «принято», а не как есть.
  • Аггравация — преувеличение симптомов (например, при симуляции расстройства).
  • Диссимуляция — скрытие симптомов (например, при стремлении сохранить работу или получить права).
  • Случайные ответы — нет мотивации, усталость.
  • Непоследовательность — разные ответы на схожие пункты без содержательной причины.

Шкалы MMPI для оценки достоверности

MMPI (Minnesota Multiphasic Personality Inventory) — один из первых крупных личностных опросников, включающий встроенные шкалы оценки достоверности ответов.

L (Lie, ложь) — пункты, которые касаются мелких повседневных слабостей, признаваемых большинством людей. Высокий балл = испытуемый хочет выглядеть исключительно добродетельным.

F (Frequency, частота) — пункты, которые редко получают положительный ответ в нормативной выборке. Высокий балл = редкие или атипичные ответы — признак аггравации, случайного ответа или серьёзных расстройств.

K (Correction, коррекция) — более тонкая мера защитного поведения. В отличие от L, K не выявляет «ложь», а указывает на психологическую защиту. Умеренный уровень K добавляется к клиническим шкалам как поправочный коэффициент.

Интерпретация: если L и K высоки одновременно, а F низок — возможна диссимуляция. Если F очень высок — аггравация или серьёзная психопатология.

Клинические шкалы MMPI (краткий обзор)

Помимо L, F, K, MMPI включает клинические шкалы, построенные на сопоставлении ответов здоровых людей и пациентов с конкретными нозологиями: Hs (ипохондрия), D (депрессия), Hy (истерия), Pd (антисоциальность), Pa (паранойя), Pt (психастения), Sc (шизоидность), Ma (гипомания), Mf (мужские/женские черты), Si (социальная интроверсия).

Русскоязычные адаптации: СМИЛ, ММИЛ, СКЛО, СМОЛ, мини-версии. Подробнее о личности и характере — в статье о факторных опросниках.

Защита от искажений

  • Соглашательский стиль — чередование прямых и обратных пунктов.
  • Случайный стиль — дублирующие пункты (на больших выборках ~6–7% совпадений случайно).
  • Социально-желательный стиль — служебные шкалы лжи (L, F, K в MMPI).

Факторы, снижающие достоверность: вопрос вне опыта человека; конфликт между измеряемым свойством и социальной желательностью; индивидуальная тактика (кандидат на работе, подозреваемый на допросе).


Чувствительность и специфичность

При скрининге (DASS-21, HADS, тесты на депрессию) важны два показателя:

  • Чувствительность — как часто тест выявляет тех, у кого проблема есть (аналог «поймать больных»).
  • Специфичность — как часто тест не записывает здоровых в «больные».

Высокая специфичность снижает ложные срабатывания; высокая чувствительность — пропуски. Для клинического скрининга баланс зависит от цены ошибки.

DASS-21 и HADS — инструменты для скрининга аффективных состояний

Оба инструмента предназначены для скрининга (предварительного выявления) аффективных расстройств — не для диагностики.

DASS-21 (Depression Anxiety Stress Scales — 21 item)

Укороченная версия DASS-42. Три субшкалы: депрессия, тревога, стресс. Каждая включает 7 пунктов, оцениваемых по 4-балльной шкале Ликерта (0 = «ко мне это не относилось» → 3 = «относилось очень часто»).

Использование: Скрининг, мониторинг лечения, исследования.

Нормы: Для каждой субшкалы определены пороговые значения: норма, умеренный уровень, высокий, крайне высокий.

Ограничение: Не заменяет структурированное клиническое интервью для постановки диагноза.

HADS (Hospital Anxiety and Depression Scale)

Разработана для использования в нехирургических отделениях больниц — откуда и название (госпитальная). Две субшкалы: тревога и депрессия, по 7 пунктов каждая.

Особенность: Пункты сформулированы так, чтобы минимизировать влияние физических симптомов (усталость, нарушения сна) — они часто обусловлены соматическим заболеванием, а не психическим. Это делает HADS более точным при работе с пациентами с хроническими болезнями.

Пороговые значения: 0–7 = норма, 8–10 = пограничный уровень, 11+ = клинически значимый уровень.


Запомнить

  • Валидность ≤ надёжность; валидная методика не бывает ненадёжной.
  • Содержательная, конструктная и критериальная валидность; контрастные группы и экспертная валидизация.
  • Достоверность — про конкретные ответы; MMPI (L, F, K + клинические шкалы) защищает от искажений.
  • DASS-21 и HADS — скрининг; смотрите чувствительность и специфичность, не ставьте диагноз по баллу.

См. также

Валидность и достоверность: как оценить психодиагностическую методику