Эмпирическая валидность: (empirical validity)

Содержание

Валидность — Блог Викиум

- Илья Павлов
  Автор Викиум

Валидность — важнейший аспект экспериментальной психологии. Это свидетельство того, что, применяя определённую методику, специалист измерил именно то, что планировал.

Валидной считается методика, результаты которой соответствуют задачам, поставленным перед исследованием. Например, методика, разработанная для того, чтобы определить темперамент человека, должна измерять именно его, а не иные психические свойства.

Принципиальную важность валидности невозможно переоценить. Ведь именно от неё зависит достоверность проводимых тестов. Совершенный эксперимент невозможен, если методика не обладает идеальной валидностью.

Как проверить валидность?

Существует три способа, позволяющих определить, насколько методика валидна:

Содержательная сторона

Проверка выявляет, насколько методика соответствует действительности, в которой реализуется изучаемое свойство.

Через призму содержательности рассматривают и лицевую (очевидную) валидность. Лицевая валидность характеризует, насколько тест соответствует ожиданиям тех, кто его проходил.

Конструктная валидность

Если методика валидна, она будет проверять научно обоснованные конструкты. Здесь же можно пойти по двум направлениям. Конвергентная валидность требует сопоставления нескольких методик, проверяющих идентичные показатели. Если между результатами будет наблюдаться корреляция, методику можно считать валидной.

При дискриминантном подходе проверяют, диагностирует ли методика только заданные характеристики и не затрагивает ли те, с которыми нет зависимости у исходных параметров.

Критериальная проверка

Здесь используются статистические методы. Чтобы протестировать валидность, проверяют, соответствуют ли результаты испытания заранее заданным критериям.

Рассматривая критериальную валидность, также говорят о прогностической составляющей.

Такие методики применяют, когда хотят предсказать поведение. Если прогноз, сделанный с помощью методики, со временем оправдывается, экспериментальный комплекс получает статус прогностически валидного.

Надёжность и валидность

Критерии надёжности рассматриваются с формальной точки зрения, тогда как содержательная сторона не учитывается.

Валидность, наоборот, обращает внимание на содержательные результаты теста. Оценивается их соответствие существующим феноменам психологии.

Надёжная методика не тождественна валидной. Например, тест, оценивающий инициативность, может продемонстрировать высокие показатели надёжности и ретестовости элементов. Однако фактически результаты будут свидетельствовать о значительной силе воли, но с точки зрения содержания инициативности не подтвердят.

Таким образом, надёжность теста является высокой, а валидность — низкой.

Внутренняя валидность и пример её нарушения

Внутренняя валидность — одна из разновидностей данного феномена. Чтобы понять её принцип, стоит рассмотреть пример, который отразит её нарушение.

Допустим, лаборатория хочет протестировать лекарство, способствующее росту. Для этого экспериментаторы отбирают несколько подростков тринадцати лет, измеряют параметры роста и дают детям лекарство.

Спустя два года снова производятся замеры, которые отражают увеличение показателей. Однако на основании изменившихся данных нельзя сделать вывод о том, что причиной перемен оказалось именно лекарство.

Нарушение внутренней валидности заключается в неучтенных факторах, которые влияют на результат исследования. В данном случае речь идёт о естественных процессах взросления. Корректный эксперимент должен был предусмотреть и их.

Методика определения определения поведения людей в различных ситуациях тоже может быть валидной или нет. Курс Викиум «Профайлинг» научит «читать людей» по невербальным признакам, выявлять скрытые намерения собеседника и прогнозировать действия оппонента.

10. Эмпирическая валидность.

Процедура валидизации.

Эмпирическая валидность — совокупность характеристик валидности теста, полученных с помощью сравнительного статистического анализа. Показатель эмпирической валидности выражается количественной мерой статистической связи между результатами тестирования и внешними по отношению к ним критериям оценки диагностируемого свойства. В качестве таких критериев могут выступать экспертные оценки, экспериментальные и «жизненные» критерии. Эмпирическая валидность чаще всего выражается коэффициентом корреляции результатов тестирования у с критериальным показателем z.

При оценке эмпирической валидности тестов необходимо устанавливать ее по крайней мере в 2 группах, так как корреляция теста и критерия может быть обусловлена специфическими для данной выборки факторами и не иметь общего значения. Особенно важно, чтобы валидность теста определялась на выборке испытуемых, отличной от той, с помощью которой производился отбор заданий.

Четыре возможных метода проведения процедуры валидизации: коллективная оценка, средневзвешенная оценка, ранжирование, парное сравнение. При коллективной оценке эксперты совместно оценивают объект с помощью оценочной шкалы. Выбор оценочных шкал чаще всего осуществляется по принципу наибольшего удобства для эксперта. Условием коллективной оценки является выработка общего компромиссного мнения.

При методе средневзвешенной оценки каждый испытуемый оценивается несколькими экспертами, так что оценки, данные испытуемому одним экспертом, неизвестны другим. Затем полученные оценки усредняются.

Метод ранжирования заключается в том, что несколько экспертов независимо друг от друга или совместно распределяют всех членов выборки на группы по степени выраженности оцениваемого признака. Полученные ранговые места при независимом оценивании могут быть также усреднены.

Метод парного сравнения. Задача экспертов состоит в попарной расстановке субъектов по позициям альтернативных признаков («общительный-замкнутый» или выраженность большая-меньшая предложенного для оценки качества). Субъективно задача экспертов облегчается благодаря отсутствию количественной оценки качеств субъекта. Показателем места, занимаемого испытуемым в ряду других, служит общее число предпочтений этого суббъекта по сравнению с остальными по данным всех экспертов. Этот показатель может быть приведен к числу экспертов и числу сравниваемых испытуемых и вычислен в процентах

ВАЛИДИЗАЦИЯ – процесс накопления подтверждений для доказательства валидности теста.

ВАЛИДИЗАЦИЯ – это не столько сбор доказательств валидности теста, сколько процесс выполнения действий, повышающих его валидность. Вследствие этого будет расти и доказательная база валидности теста.

В отличие от надежности валидность — мера соответствия тестовых оценок представлениям о сущности свойств или их роли в той или иной деятельности. Выделяют три основных вида валидности — содержательную, эмпирическую (критериальную) и конструктную (концептуальную).

Содержательная валидность характеризует степень репрезентативности содержания заданий теста измеряемой области психических свойств. Традиционно эта характеристика имеет наибольшее значение для тестов, исследующих деятельность, близкую или совпадающей с реальной (чаще всего учебной или профессиональной).

Так как данная деятельность нередко складывается из разнородных факторов (проявления способностей личности, комплекс необходимых знаний и навыков, специфические способности), то подбор заданий, охватывающих главные аспекты изучаемого феномена, является одной из важнейших задач формирования адекватной модели тестируемой деятельности. Валидность по содержанию закладывается в тест уже при подборе заданий будущей методики. Заключение о содержательной валидности, как правило, производится экспертами, которые выносят суждение о том, насколько охватывает данный тест декларируемые свойства и явления.

Следует отличать содержательную валидность от очевидной, лицевой, внешней валидности, которая является таковой с точки зрения испытуемого.

Конструктная валидность — это валидность теста по отношению к психологическому концепту — научному понятию (или их совокупности) об измеряемом психическом свойстве (состоянии). Она выражает степень обоснованности индивидуальных различий, обнаруживаемых тестом, с позиций современного теоретического знания.

Распространенным приемом определения конструктной валидности теста является его соотнесение с известными методиками, отражающими другие конструкты, предположительно как связанные, так и не зависимые от данного. При этом делается попытка априорно предсказать наличие или отсутствие связи между ними. Тесты, которые по предположению высоко коррелируют с валидизируемым тестом, называются конвергирующими, а не коррелирующие — дискриминантными. Концептуальная валидность может считаться удовлетворительной, если коэффициенты корреляции валидизируемого теста с группой конвергирующих тестов статистически значимо выше коэффициентов корреляции с группой дискриминантных тестов.

4 типа достоверности исследований

Опубликован в 6 сентября 2019 г. к Фиона Миддлтон. Отредактировано 30 ноября 2022 г.

Валидность говорит вам, насколько точно метод что-то измеряет. Если метод измеряет то, что заявлено для измерения, и результаты точно соответствуют реальным значениям, то его можно считать действительным. Существует четыре основных типа валидности:

Конструктивная валидность : Измеряет ли тест концепцию, для измерения которой он предназначен?
Валидность содержания : Является ли тест полностью репрезентативным для измерения?
Внешняя достоверность : Соответствует ли содержание теста его целям?
Критерий достоверности : Точно ли результаты измеряют конкретный результат, для измерения которого они предназначены?

В количественных исследованиях вы должны учитывать надежность и достоверность ваших методов и измерений.

Обратите внимание, что в этой статье рассматриваются типы проверки достоверности, которые определяют точность фактических компонентов показателя. Если вы проводите экспериментальное исследование, вам также необходимо учитывать внутреннюю и внешнюю валидность, которые касаются плана эксперимента и возможности обобщения результатов.

Содержание

Конструктивная валидность
Контентная валидность
Лицевая валидность
Критериальная валидность
Часто задаваемые вопросы о типах валидности

Действительность конструкции

Конструктивная валидность оценивает, действительно ли инструмент измерения представляет то, что мы хотим измерить. Это важно для установления общей валидности метода.

Что такое конструкция?

Конструкт относится к понятию или характеристике, которые нельзя наблюдать напрямую, но которые можно измерить, наблюдая за другими связанными с ними индикаторами.

Конструкты могут быть характеристиками людей, такими как интеллект, ожирение, удовлетворенность работой или депрессия; они также могут быть более широкими понятиями, применяемыми к организациям или социальным группам, таким как гендерное равенство, корпоративная социальная ответственность или свобода слова.

Пример

Не существует объективной наблюдаемой сущности под названием «депрессия», которую мы можем измерить напрямую. Но, основываясь на существующих психологических исследованиях и теориях, мы можем измерить депрессию на основе набора симптомов и индикаторов, таких как низкая уверенность в себе и низкий уровень энергии.

Что такое допустимость конструкции?

Валидность конструкции заключается в том, чтобы убедиться, что метод измерения соответствует конструкции, которую вы хотите измерить. Если вы разрабатываете анкету для диагностики депрессии, вам нужно знать: действительно ли анкета измеряет конструкт депрессии? Или на самом деле он измеряет настроение респондента, его самооценку или какую-то другую конструкцию?

Чтобы достичь конструктивной достоверности, вы должны убедиться, что ваши индикаторы и измерения тщательно разработаны на основе соответствующих существующих знаний. Анкета должна включать только соответствующие вопросы, которые измеряют известные показатели депрессии.

Все другие типы валидности, описанные ниже, можно рассматривать как формы доказательства конструктной валидности.

Действительность содержимого

Валидность содержания оценивает, является ли тест репрезентативным для всех аспектов конструкции.

Для получения достоверных результатов содержание теста, обследования или метода измерения должно охватывать все соответствующие части предмета, для измерения которого он предназначен. Если некоторые аспекты отсутствуют в измерении (или если включены нерелевантные аспекты), достоверность ставится под угрозу, и исследование, вероятно, страдает от систематической ошибки, связанной с пропущенной переменной.

Пример

Учительница математики разрабатывает тест по алгебре в конце семестра для своего класса. Тест должен охватывать все формы алгебры, которые преподавались в классе. Если некоторые виды алгебры будут опущены, то результаты могут не быть точным показателем понимания учащимися предмета. Точно так же, если она включает вопросы, не связанные с алгеброй, результаты перестают быть действительным показателем знаний по алгебре.

Проверка лица

Внешняя валидность показывает, насколько подходящим выглядит содержание теста на первый взгляд. Это похоже на содержательную валидность, но внешняя валидность — более неформальная и субъективная оценка.

Пример

Вы создаете опрос для измерения регулярности пищевых привычек людей. Вы просматриваете элементы опроса, в которых задаются вопросы о каждом приеме пищи в течение дня и перекусах между ними в течение каждого дня недели. На первый взгляд опрос кажется хорошим представлением того, что вы хотите протестировать, поэтому вы считаете, что он имеет высокую юридическую достоверность.

Поскольку внешняя достоверность является субъективной мерой, ее часто считают самой слабой формой достоверности. Однако он может быть полезен на начальных этапах разработки метода.

Справедливость критерия

Валидность критерия оценивает, насколько хорошо тест может предсказать конкретный результат или насколько хорошо результаты вашего теста приближаются к результатам другого теста.

Что такое переменная критерия?

Критериальная переменная — это устоявшаяся и эффективная мера, которая широко считается достоверной, иногда называемая «золотым стандартом». Критериальные переменные может быть очень трудно найти.

Что такое достоверность критерия?

Чтобы оценить достоверность критерия, вы вычисляете корреляцию между результатами вашего измерения и результатами измерения критерия. Если есть высокая корреляция, это дает хороший признак того, что ваш тест измеряет то, что он намеревается измерить.

Пример

Профессор университета создает новый тест для измерения навыков письма абитуриентов на английском языке. Чтобы оценить, насколько хорошо тест действительно измеряет навыки письма учащихся, она находит существующий тест, который считается достоверным измерением навыков письма на английском языке, и сравнивает результаты, когда одна и та же группа учащихся проходит оба теста. Если результаты очень похожи, новый тест имеет высокую достоверность критерия.

Часто задаваемые вопросы о типах действия

В чем сходство содержания и внешней достоверности?

Лицевая валидность и валидность содержания похожи в том, что они оба оценивают, насколько подходит содержание теста. Разница в том, что лицевая валидность субъективна и оценивает содержание на поверхностном уровне.

Когда тест имеет сильную внешнюю валидность, любой согласится с тем, что вопросы теста кажутся измеряющими то, для чего они предназначены.

Например, глядя на тест по математике для 4-го класса, состоящий из задач, в которых учащиеся должны складывать и умножать, большинство людей согласятся, что он имеет сильную юридическую достоверность (т. е. он выглядит как тест по математике).

С другой стороны, достоверность содержания оценивает, насколько хорошо тест представляет все аспекты темы. Оценка валидности содержания более систематична и опирается на экспертную оценку. каждого вопроса, анализируя, охватывает ли каждый из них те аспекты, для которых был разработан тест.

Тест по математике для 4-го класса будет иметь высокую содержательную достоверность , если он охватывает все навыки, преподаваемые в этом классе. Эксперты (в данном случае учителя математики) должны будут оценить достоверность содержания, сравнив тест с целями обучения.

Какие существуют два типа критерия валидности?

Валидность критерия оценивает, насколько хорошо тест измеряет результат, для измерения которого он был разработан. Исходом может быть, например, начало заболевания.

Валидность критерия состоит из двух подтипов в зависимости от времени получения двух показателей (критерия и вашего теста):

Параллельная валидность — это стратегия проверки, при которой получаются баллы теста и критерия в тот же раз .

Прогностическая валидность — это стратегия проверки, в которой переменные критерия измеряются после баллов теста.

Почему конвергентную и дискриминантную валидность часто оценивают вместе?

Конвергентная валидность и Дискриминантная валидность — оба подтипа конструктной валидности. Вместе они помогают оценить, измеряет ли тест концепцию, для измерения которой он был разработан.

Конвергентная валидность показывает, коррелирует ли тест, предназначенный для измерения конкретной конструкции, с другими тестами, оценивающими ту же или аналогичную конструкцию.
Дискриминантная валидность показывает, действительно ли два теста, которые должны быть сильно связаны друг с другом, , а не , действительно не связаны. Этот тип валидности также называется расходящаяся действительность .

Вам необходимо оценить оба, чтобы продемонстрировать достоверность конструкции. Ни одного из них в отдельности недостаточно для установления валидности конструкции.

Почему экологическая валидность не ставится в приоритет в исследованиях, проводимых в режиме проверки теории?

org/Answer»>

Целью режима проверки теории является поиск доказательств для опровержения, уточнения или поддержки теории. Таким образом, возможность обобщения не является целью режима проверки теории.

В связи с этим приоритетом исследователей в режиме проверки теории является устранение альтернативных причин взаимосвязей между переменными. Другими словами, они отдают приоритет внутренней валидности внешней валидности, включая экологическую валидность.

Кто должен оценивать лицевую валидность?

Часто лучше попросить нескольких людей проверить ваши измерения. Вы можете попросить экспертов, таких как другие исследователи, или неспециалистов, таких как потенциальные участники, оценить внешнюю достоверность тестов.

Несмотря на то, что эксперты хорошо разбираются в методах исследования, люди, которых вы изучаете, могут дать вам ценную информацию, которую вы могли бы упустить.

Процитировать эту статью Scribbr

Если вы хотите процитировать этот источник, вы можете скопировать и вставить цитату или нажать кнопку «Цитировать эту статью Scribbr», чтобы автоматически добавить цитату в наш бесплатный генератор цитирования.

Миддлтон, Ф. (2022, 30 ноября). 4 типа достоверности исследований | Определения и примеры. Скриббр. Проверено 18 мая 2023 г., с https://www.scribbr.com/methodology/types-of-validity/

Процитировать эту статью

Полезна ли эта статья?

Вы уже проголосовали.

Спасибо 🙂 Ваш голос сохранен 🙂 Обработка вашего голоса…

Фиона редактирует Scribbr с августа 2016 года. Она имеет степень бакалавра геологии и в настоящее время работает над получением степени магистра морских наук. Ей нравится работать со студентами по всему миру, чтобы улучшить их письмо.

Что такое одновременная действительность? | Определение и примеры

Опубликован в 10 сентября 2022 г. к Кассиани Николопулу. Отредактировано 2 декабря 2022 г.

Параллельная валидность показывает степень совпадения между двумя измерениями или оценками, проведенными одновременно. Он сравнивает новую оценку с той, которая уже была проверена и доказала свою достоверность.

Параллельная валидность — это подтип валидности критерия. Он называется «параллельным», потому что баллы нового теста и критериальные переменные получаются одновременно.

Пример: одновременная достоверностьВы хотите оценить одновременную достоверность нового опроса, измеряющего приверженность сотрудников. Для этого вы можете:

Попросите одну и ту же выборку сотрудников заполнить как существующую (подтвержденную) анкету, так и вашу новую анкету. Затем сравните результаты.
Попросите выборку сотрудников заполнить ваш новый опрос. Затем сравните их ответы с результатами общего измерения производительности сотрудников, такого как обзор производительности.

Если результаты двух процедур измерения схожи, можно сделать вывод, что они измеряют одно и то же (т. е. приверженность сотрудников). Это демонстрирует параллельную действительность.

Установление одновременной валидности особенно важно, когда создается новая мера, которая претендует на то, чтобы быть в чем-то лучше, чем существующие меры: более объективно, быстрее, дешевле и т. д.