Проверка валидности методики называется: Виды валидности

Содержание

О репрезентативности выборки в наглядных примерах

Согласно теории выборочного метода, неоднократно подтвержденной практикой, опрашивать всех нет необходимости, а можно опросить лишь часть группы, которая может быть в тысячи раз меньше. Эта маленькая часть называется выборкой (или выборочной совокупностью), а большая группа, которую она представляет, называется генеральной совокупностью.

При этом если выборка сформирована правильно, выводы, полученные на основе изучения выборки, могут быть перенесены и на генеральную совокупность. Например, если в выборке женщины значимо чаще, чем мужчины, пользуются дезодорантами, то делается вывод, что и в генеральной совокупности (например, в исследованном городе) присутствует такая закономерность. Процесс переноса выводов с выборки на генеральную совокупность называется генерализацией. А свойство выборки отражать характеристики генеральной совокупности называется репрезентативностью. Для более комфортного запоминания термина на рис.

1. приведены иллюстрации, когда выборка отражает свойства генеральной совокупности и когда свойства выборки отличаются от свойств генеральной совокупности.

Рис.1. Иллюстративные примеры соответствия (несоответствия) свойств генеральной совокупности и выборки

Не стоит путать понятие репрезентативности с такими понятиями как валидность и релевантность, хотя они тоже относятся к характеристикам качества исследования. В социальных науках валидность понимается довольно широко, но чаще всего – как обоснованность. Понятие валидности относится не к выборке, а к исследовательской методике. Методика или измерение (анкета, блок вопросов, тест) считается валидным, если фиксирует именно то понятие или свойство, которое планируется измерить. Например, если мы захотим оценить уровень лояльности клиента к магазину и выберем для этого лишь показатель частоты посещения магазина, валидность этого подхода будет неполной: возможно, респондент часто заходит в магазин только из-за банкомата, который там установлен.

Валидная методика в данном примере должна включать и другие показатели: предпочтение магазина, суммы покупок в этом и других магазинах, готовность переключиться на другие магазины, готовность рекомендовать магазин и др.

При установлении валидности решающую роль играет обоснование и последующая проверка гипотезы релевантности, то есть соответствия измеряемых параметров характеристикам исследуемого объекта. Житейский пример нерелевантности – измерять уровень счастья человека количеством денег у него (хотя, наверное, не все с этим согласятся). Очевидный пример нерелевантности – попытка измерить массу тела по его температуре.

Но вернемся к понятию репрезентативности. В то время как точность измерений зависит от размера выборки, размер выборки не гарантирует ее репрезентативности. Репрезентативность выборки главным образом обеспечивается способом отбора ее участников (респондентов). Примером явного нарушения репрезентативности может послужить шутка о том, что интернет-опрос показал, что 100% людей пользуется интернетом.

Можно выделить несколько вариантов нарушения репрезентативности выборки: когда опрошены не те люди и когда опрошено слишком много (или мало) определенных людей (например, женщин намного больше, чем мужчин). Кроме того, чем меньше размер выборки, тем меньше вероятность того, что она будет репрезентативной. Например, допустим, 1% населения мог бы заинтересоваться новой услугой. Это 1 из 100 людей. Если размер выборки составляет всего 60 человек, то в вашей выборке может отсутствовать человек, который, скорее всего, будет заинтересован в услуге. Ваша выборка менее репрезентативна, потому что она меньше. Ваши результаты будут разными в зависимости от того, содержит ли ваша выборка одного из этих людей или нет. Пример репрезентативной и нерепрезентативной выборки показан на рис.2.

Рис.2. Пример репрезентативной и нерепрезентативной выборки

На рис.3 показана та же по составу генеральная совокупность, но с другим расположением объектов внутри круга.

Рис.3. Пример репрезентативной и нерепрезентативной выборки при другом расположении объектов генеральной совокупности

Говоря простым языком, репрезентативная выборка – это такая выборка, в которой представлены все подгруппы, важные для исследования. Помимо этого, характер распределения рассматриваемых параметров в выборке должен быть таким же, как в генеральной совокупности.

Простой случайный отбор респондентов представляется оптимальным способом формирования репрезентативной выборки. Поскольку в этом случае у любого представителя генеральной совокупности одинаковая вероятность попасть в выборку, в нее попадут люди с разными характеристиками пропорционально их долям в генеральной совокупности. В итоге выборка будет представлять собой нечто вроде уменьшенной копии генеральной совокупности.

Случайность отбора респондентов в выборку обеспечивается разными способами. Например, для телефонного опроса жителей города берется база данных всех телефонных номеров, и номера респондентов случайным образом выбираются компьютером (с использованием генератора случайных чисел). При уличном опросе интервьюеров распределяют по случайно выбранным точкам и инструктируют опрашивать каждого N-ного прохожего.

Наглядным примером репрезентативной выборки может служить пицца. Если целая пицца – это генеральная совокупность, которую мы хотим изучить, то кусок пиццы – это выборка. Как правило, достаточно одного куска пиццы, чтобы судить обо всей пицце (при условии, что ингредиенты равномерно распределены по ее поверхности). Таким образом, кусок пиццы пиццы на рис.4 – это репрезентативная выборка из пиццы.

Рис.4. Наглядный пример репрезентативной выборки (пицца)

Важно отметить, что не любой кусок пиццы будет репрезентативной выборкой. Разные способы получения куска пиццы могут принципиально повлиять на качество исследования и выводы, которые будут получены при анализе каждого варианта выборки (рис.4)

(рисунок в сушильной камере, готовится к публикации)

Рис.

5. Наглядный пример формирования репрезентативной и нерепрезентативной выборки.

Еще один показательный пример формирования репрезентативной выборки – кастрюля, содержимое которой мы должны узнать (допустим, там скрывается борщ). Мы только один раз можем зачерпнуть из кастрюли ложкой (провести исследование). В нашем примере ложка – это выборка, а содержимое кастрюли – генеральная совокупность.

Если мы зачерпнем сверху, то придем к выводу, что в кастрюле бульон. Если снизу – решим, что в кастрюле мясо. Зачерпнув где-то посередине, мы получим картошку или капусту. В любом из трех случаев выводы будут неверны. Чтобы получить достоверный результат, нам стоит хорошенько перемешать содержимое кастрюли, перед тем как пробовать его. Перемешивание в данном случае – аналог процедуры простого случайного отбора, поскольку оно предоставляет всем ингредиентам примерно равную вероятность попадания в ложку-выборку (или тарелку-выборку).

Рис. 6. Борщ как модель, демонстрирующая репрезентативность выборки.

В реальности применить простой случайный отбор респондентов не всегда удается в полной мере. Например, мы можем абсолютно корректно отобрать в выборку нужное количество номеров домашних телефонов случайным образом, но при их прозвоне выяснится, что дозвониться и поговорить удается преимущественно с пенсионерами, а «поймать» дома молодежь и работающих людей получается плохо.

Возвращаясь к примеру с борщом, если у нас вместо кастрюли – огромный ресторанный котел, а в руках все та же обычная ложка, перемешивание будет неэффективным. Чтобы решить задачу, потребуются иные подходы. Например, мы можем теоретически разделить глубину котла на несколько слоев и постараться зачерпнуть содержимое из каждого слоя (из случайного места слоя: не только в центре, но и по краям). Таким образом, наша итоговая выборка будет состоять уже из нескольких выборок и при этом адекватно отражать содержимое всех слоев котла.

Подобные альтернативные подходы называются типами выборки, которых придумано достаточно много для того, чтобы максимизировать репрезентативность выборки в сложных условиях реального мира.

Последствия нарушения репрезентативности выборки: некорректные выводы исследования, выброшенный на ветер бюджет исследования, финансовые потери вследствие применения неправильных выводов. Вы можете выбрать валидную исследовательскую методику, рассчитать объем выборки, обеспечивающий приемлемую точность измерений, но, если выборка исследования нерепрезентативна, получить достоверную информацию не удастся.

ПРИМЕРЫ НАРУШЕНИЯ РЕПРЕЗЕНТАТИВНОСТИ ВЫБОРКИ

ПРЕДВЫБОРНЫЙ ОПРОС

Самым известным примером нарушения репрезентативности выборки является история провала американского журнала «Литературный дайджест».

В 1936 году журнал в очередной раз провел почтовый опрос общественного мнения о вероятных результатах грядущих президентских выборов в США. До 1936 года опрос всегда правильно предсказывал победителя. Опрос 1936 года показал, что победителем с большим отрывом станет кандидат от республиканцев, но в итоге победителем оказался представитель демократов.

Таким образом, гигантская выборка (около 2,4 млн. человек) не обеспечила достоверных результатов. В чем же заключалась причина ошибки?

Называются две основные причины провала: смещение при формировании выборки и смещение вследствие отказа респондентов от участия в опросе.

Прежде всего, журнал включил своих подписчиков в список для рассылки анкет и, желая расширить выборку, использовал два других доступных тогда списка граждан: зарегистрированных автовладельцев и пользователей телефонов. Во времена Великой Депрессии представители этих групп отличались от остального населения более высоким доходом, как и подписчики самого журнала. Таким образом, полученная база для рассылки не являлась корректным отражением структуры населения США.

Вторая проблема с опросом заключалась в том, что из 10 миллионов человек, чьи имена были в первоначальном списке рассылки, только 2,4 миллиона ответили на опрос. Вероятно, высокий процент отказов был связан с тем, что опрос проводился по почте. Уже в те времена американцы относились к почтовым рассылкам как к спаму. Таким образом, размер выборки составил примерно одну четверть от того, что первоначально планировалось. Когда доля ответивших низка (как это было в данном случае), считается, что исследование страдает от необъективности ответов.

У этой истории две морали: Большая, но неправильно сформированная выборка гораздо хуже маленькой, но правильно сформированной выборки. При проведении опроса не упускайте из внимания смещение отбора и смещение в результате отказов.

СИСТЕМАТИЧЕСКАЯ ОШИБКА ВЫЖИВШЕГО

Пример из военной практики. Во Вторую мировую войну американские военные столкнулись со следующей проблемой. Не все американские бомбардировщики после задания возвращались на базу. На вернувшихся самолетах оставалось множество пробоин от выстрелов противника, но распределены они были неравномерно: больше всего на фюзеляже и прочих частях, меньше в топливной системе и гораздо меньше — в двигателе. Командованию казалось логичным, что в наиболее поврежденных местах нужно установить больше брони.
Привлеченный к решению задачи математик возразил: данные как раз показывают, что самолет, получивший пробоины в этих местах, еще может вернуться на базу. А самолет, которому попали в бензобак или двигатель, выходит из строя и не возвращается. Поэтому укреплять следует те места, которые у вернувшихся самолетов повреждены меньше всего.

Рис .7. Пробоины на вернувшихся самолётах.
Получившие повреждения в других местах не смогли вернуться на базу

Эта задача служит примером нарушения репрезентативности выборки, когда в нее включены не те респонденты: в данном случае, вернувшиеся самолеты, в то время как не вернувшиеся проигнорированы.

Применительно к маркетинговым исследованиям, эта ситуация подобна следующей. При опросе клиентов бизнеса будет ошибкой опрашивать только текущих клиентов и не опрашивать потерянных клиентов (а какие «пробоины» получили они?).

НЕПРАВИЛЬНЫЕ МЕСТА ОПРОСА

При опросе посетителей ТРЦ важно правильно расставить интервьюеров. Например, если поставить интервьюеров только у главного входа, в выборку не попадут посетители, приехавшие в ТРЦ на автомобиле и попавшие в него через парковку. Как следствие, выводы, полученные на собранных данных, будут корректны только для той части посетителей, которые приходят в ТРЦ пешком, а значит, делают меньше покупок, не покупают габаритные товары, живут ближе к ТРЦ, чем приезжающие на автомобиле.

ОТСУТСТВИЕ КВОТИРОВАНИЯ

Другой пример. Бывает, что в разных районах города сбор анкет идет с разной скоростью: где-то (например, в центре города) большой пешеходный поток и у людей есть время на участие в опросе (отдыхающие, в отпуске, офисные сотрудники на обеде), а на окраинах либо мало людей на улицах, либо все спешат на работу и отказываются участвовать. В результате, если не ограничивать доли районов, в выборке будут преобладать люди из центрального района, которые могут значимо отличаться от остальных людей родом занятий, уровнем дохода и образования, уровнем осведомленности о магазинах и др. Таким образом, собранная выборка уже не будет репрезентативной по отношению к населению всего города.

ОНЛАЙН-ОПРОСЫ (ОНЛАЙН-ПАНЕЛИ)

Несмотря на многие положительные стороны онлайн-опросов, такие как экономичность, оперативность сбора информации, удобство ее обработки и т. д., некоторые их особенности напрямую угрожают репрезентативности исследования:

Во-первых, участники онлайн-опросов – это, как правило, активные пользователи интернета, хорошо в нем разбирающиеся и больше подверженные влиянию интернет-культуры, чем обычные люди.

Во-вторых, люди, у которых есть время и желание регулярно участвовать в онлайн-опросах за небольшое вознаграждение, скорее всего, значительно отличаются от остальных людей как по социально-демографическим, так и по психографическим характеристикам.

В-третьих, профессиональное участие в опросах приводит к так называемой профессиональной деформации, когда ответы респондентов на вопросы новых исследований обусловлены предыдущим опытом, но не жизненным, а опытом участия в других опросах.

Таким образом, в данном случае возникает та ситуация, когда опрашиваются не те люди, хотя по формальным характеристикам они подходят под описание целевой аудитории.

ВЫВОДЫ

Итак, чтобы получить достаточно точные данные об интересующей нас группе людей, необязательно опрашивать их всех, благодаря свойству репрезентативности выборки.

«Чем больше, тем лучше» – неправильный подход к формированию выборки.

Небольшая репрезентативная выборка лучше большой, но нерепрезентативной выборки. Применительно к выборке не стоит пугаться слова «случайная». Это вовсе не значит, что в исследовании будут получены случайные результаты. Напротив, случайный подход к формированию выборки делает ее максимально похожей на генеральную совокупность, а значит, репрезентативной.

При проектировании выборки следует учитывать опасность смещения структуры выборки вследствие особенностей сбора информации и других условий.

Определение валидности теста

Занятие. Определение валидности теста
Вводные замечания
Валидность – комплексная характеристика, включающая сведения о том, пригодна ли методика для измерения того, для чего она была создана, и какова её действенность, практическая полезность. Соответственно, процесс проверки валидности (валидизация) в первом случае называется теоретической валидизацией, а во втором – прагматической валидизацией. Если показатели надёжности и дискриминативности могут быть вычислены определённо и однозначно, то установление валидности – гораздо более разносторонняя и менее однозначная процедура.

Существует множество различных типов валидности, основными из которых являются: валидность по содержанию, а также критериальная, конкурентная, конструктная, инкрементная и дифференциальная валидности. Эти типы валидности подробно рассмотрены в учебном пособии [38]. Настоящее занятие посвящено определению критериальной валидности теста.
Критериальная валидность – это способность теста дифференцировать испытуемых по изучаемому признаку. В качестве таких признаков могут выступать познавательные процессы, способности, личностные характеристики. Критериальная валидность определяется по результатам вычисления коэффициента корреляции между результатами тестирования с экспертными оценками по соответствующим критериям.
В таблице 9.4.1 представлены результаты диагностики социального интеллекта выборки студентов-психологов с помощью методики Гилфорда-Салливэна, а также усреднённые экспертные оценки проявлений социального интеллекта в различных видах интерперсонального взаимодействия. Эти данные будут использованы для изучения технологии определения критериальной валидности.

1	2	3	4	5	6	7	8	9	10	11	12	13
9	11	8	4	32	4,9	5,5	5,3	5,1	4,9	4,9	4,7	35,3
13	11	11	6	41	4,77	5,46	4,54	5,15	5,54	5,08	4,62	35,16
11	9	8	3	31	4,8	5,6	5,5	5	4,8	4,5	4,9	35,1
9	10	9	8	36	4,77	5	4,92	5	4,54	4,92	4,77	33,92
12	10	11	5	38	4,38	4,92	4,54	5,62	4,46	5,08	4,77	33,77
10	8	8	3	29	4,6	4,7	5,5	4,9	4,6	4,5	4,8	33,6
13	9	9	6	37	5,1	5,2	4,9	5	4	4,8	4,5	33,5
12	8	9	8	37	4,4	4,6	4,9	5	4,9	4,8	4,3	32,9
13	8	7	5	33	4,54	4,85	4,77	5	4,54	4,31	4,54	32,55
13	7	10	7	37	4,1	5,3	4,9	5,2	4,1	4,6	4,2	32,4
11	9	10	5	35	3,77	4,85	4,54	4,46	5,15	4,54	4,54	31,85
7	9	9	7	32	4,15	4,69	4,46	4,69	4,77	4,62	4,38	31,76
12	6	9	6	33	3,9	4	5	4,9	4,8	4,3	4,4	31,3
12	7	8	7	34	4,1	4,3	4,7	4,7	4,8	4,4	4,1	31,1
10	7	8	7	32	4,2	4,3	5	4,9	3,9	4,4	4,4	31,1
11	10	10	7	38	4,1	4	5	4,7	3,8	4	4,4	30
14	7	8	4	33	4,15	4	4,31	4,08	4,38	4,08	4,23	29,23
13	10	11	6	40	3,62	4,08	3,92	4	4,54	4,08	4,08	28,32
8	6	8	4	26	3,7	3,5	4,3	4,5	4,6	3,8	3,8	28,2
13	9	9	3	34	2,6	4,3	3,9	3,6	5	3,4	3,9	26,7
					2,77	4,23	3,46	3,15	1,85	3,15	3,31	21,92

Порядок работы

Изучив содержание субтестов методики Гилфорда-Салливэна и содержание критериев оценки социального интеллекта (см. табл. 9.4.1), выбрать для каждого субтеста наиболее подходящий внешний критерий.
Вычислить коэффициенты ранговой корреляции Спирмена между результатами диагностики социального интеллекта по каждому из субтестов с соответствующими экспертными оценками.
Вычислить коэффициент корреляции между композитной оценкой по тесту с суммарной экспертной оценкой.
Сделать вывод о критериальной валидности субтестов (выбрав по результатам вычислений более адекватный данному субтесту критерий), а также теста в целом.
Отчёт должен включать а) обоснование выбора внешнего критерия для каждого субтеста; б) результаты вычисления коэффициентов корреляции; в) обоснованные выводы о критериальной валидности субтестов и теста в целом.

Приложение к занятию. Алгоритм расчёта коэффициента ранговой корреляции Спирмена

Проранжировать значения переменной Х, приписывая меньшему значению меньший ранг. Занести в таблицу полученные значения рангов Rx.
Поступить также со значениями переменной Y.
Подсчитать разности dмежду рангами Rx и Ry. Внести полученные результаты в соответствующий столбец таблицы.
Возвести каждую разность в квадрат и заполнить следующий столбец таблицы. Подсчитать сумму квадратов.

5. При наличии одинаковых рангов рассчитать поправки:
Тх = ∑(а3 — а) /12 ; Ту = ∑(b3 —b) /12, где а – объём каждой группы
одинаковых рангов в ряду Х; b– объём каждой группы одинаковых рангов в ряду Y.

Критические значения для объёма выборки п = 27 равны 0,38 (р = 0,05) и 0,48 (р = 0,01).

Источник: Леонова Е. В. Эмпирические методы психологического исследования: Учебное пособие. – М.: НИЯУ МИФИ, 2014. – 324 с.

Виды валидности

Виды валидности — Несколько специфичных характеристик психодиагностического инструментария, обусловленных особенностями диагностических методик, временным статусом внешнего критерия.
Во многих работах (А Анастази, 1982; Л.Ф Бурлачук, С.М. Морозов, 1989; KM. Гуревич, 1970; Б.В Кулагин, 1984; В Черны, 1983; «Общая психодиагностика», 1987 и др ) называются чаще всего следующие:

1. Валидность «по содержанию». Этот прием используется в основном в тестах достижений. Обычно в тесты достижений включается не весь материал, который прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Можно ли быть уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об усвоении всего материала. На это и должна ответить проверка валидности по содержанию. Для этого проводится сопоставление успешности по тесту с экспертными оценками учителей (по данному материалу). Валидность «по содержанию» также подходит к критериально-ориентированным тестам. Иногда этот прием называют логической валидностью.

2. Валидность «по одновременности», или текущая валидность, определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Другими словами, собираются данные, относящиеся к настоящему времени успеваемость в период испытания, производительность в этот же период и т д. С ним коррелируют результаты успешности по тесту.

3. «Предсказывающая» валидность (другое название — «прогностическая» валидность). Определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик — предсказанию будущей успешности, применять его очень трудно. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно.

4. «Ретроспективная» валидность. Она определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики. Так, для проверки того, в какой мере хорошие результаты теста способностей соответствуют быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые экспертные заключения и т.д. у лиц с высокими и низкими на данный момент диагностическими показателями.

Источник: Психологическая диагностика: Учебное пособие / Под ред. К.М. Гуревича и Е.М. Борисовой.

Надежность и достоверность измерения — Методы исследования в психологии — 2-е канадское издание

Определите надежность, включая различные типы и способы их оценки.
Определите срок действия, включая различные типы и способы их оценки.
Опишите виды доказательств, которые могут иметь отношение к оценке надежности и действительности той или иной меры.

Опять же, измерение включает в себя присвоение баллов людям, чтобы они отражали некоторые характеристики людей.Но как исследователи узнают, что оценки на самом деле представляют характеристику, особенно если это такие конструкты, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование, используя эту меру, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это очень важный момент. Психологи не просто предполагают , что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают.Если их исследование не демонстрирует, что мера работает, они прекращают ее использовать.

В качестве неформального примера представьте, что вы сидите на диете в течение месяца. Ваша одежда кажется более свободной, и несколько друзей спросили, похудели ли вы. Если в этот момент ваши весы для ванной показывают, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжили бы пользоваться весами. Но если бы это указывало на то, что вы набрали 10 фунтов, вы бы справедливо пришли к выводу, что он сломался, и либо почините его, либо избавьтесь от него.Оценивая метод измерения, психологи принимают во внимание два основных аспекта: надежность и валидность.

Надежность означает постоянство меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (надежность между экспертами).

Тестирование-повторное тестирование надежности
Когда исследователи измеряют конструкт, который, по их мнению, является непротиворечивым во времени, полученные ими оценки также должны быть согласованными во времени.Надежность повторного тестирования — это степень, в которой это действительно так. Например, обычно считается, что интеллект постоянен во времени. Человек, который сегодня очень умный, на следующей неделе станет очень умным. Это означает, что любой хороший показатель интеллекта должен дать этому человеку примерно такие же оценки на следующей неделе, что и сегодня. Ясно, что мера, которая дает очень непоследовательные оценки с течением времени, не может быть очень хорошей мерой конструкции, которая должна быть согласованной.
Оценка надежности повторного тестирования требует одновременного использования этого показателя на группе людей, его повторного использования на той же группе людей в более позднее время, а затем изучения корреляции между тестами и повторными тестами между двумя наборами оценок. Обычно это делается путем построения графика данных в виде диаграммы рассеяния и вычисления значений r Пирсона. На рис. 5.2 показана корреляция между двумя наборами оценок нескольких студентов университетов по шкале самооценки Розенберга, введенной два раза с интервалом в неделю.Коэффициент Пирсона для этих данных равен +,95. Обычно считается, что корреляция между тестами и повторными тестами +80 или выше указывает на хорошую надежность.
Рисунок 5.2 Корреляция между тестами и повторными тестами между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученными два раза в неделю с разницей
. время, которое относится к интеллекту, самооценке и измерениям личности Большой пятерки.Но другие конструкции не считаются стабильными с течением времени. Например, сама природа настроения такова, что оно меняется. Таким образом, показатель настроения, который дает низкую корреляцию между тестами и повторными тестами в течение месяца, не будет поводом для беспокойства.
Внутренняя согласованность
Второй вид надежности — это внутренняя согласованность, которая представляет собой согласованность ответов людей по всем пунктам при измерении, состоящем из нескольких пунктов. В целом предполагается, что все элементы таких показателей отражают одну и ту же основную конструкцию, поэтому оценки людей по этим вопросам должны коррелировать друг с другом.По шкале самооценки Розенберга люди, которые согласны с тем, что они достойные люди, должны соглашаться с тем, что у них есть ряд хороших качеств. Если ответы людей на разные вопросы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же основную конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самооценки. Например, люди могут сделать серию ставок в имитируемой игре в рулетку, чтобы измерить свой уровень стремления к риску.Этот показатель будет внутренне согласованным в той степени, в которой ставки отдельных участников будут стабильно высокими или низкими в ходе испытаний.
Как и надежность повторного тестирования, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов — посмотреть на корреляцию разделенных половин. Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четным и нечетным номерами. Затем для каждого набора элементов вычисляется оценка и исследуется взаимосвязь между двумя наборами оценок.Например, на рис. 5.3 показана корреляция между двумя частицами между оценками нескольких студентов университетов по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Значение r Пирсона для этих данных составляет +,88. Корреляция разделенных половин, равная +80 или больше, обычно считается хорошей внутренней согласованностью.
Рис. 5.3. Корреляция между разделами и половинками между оценками нескольких студентов колледжей по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга
. статистика называется α Кронбаха (греческая буква альфа).Концептуально α — это среднее значение всех возможных корреляций разделенных половин для набора элементов. Например, существует 252 способа разделить набор из 10 элементов на два набора по пять. Α Кронбаха будет средним из 252 корреляций разделенных половин. Обратите внимание, что на самом деле α вычисляется не так, но это правильный способ интерпретации значения этой статистики. Опять же, значение +80 или больше обычно берется, чтобы указать на хорошую внутреннюю согласованность.
Надежность Interrater
Многие поведенческие меры требуют значительного суждения со стороны наблюдателя или оценщика.Межэкспертная надежность — это степень, в которой разные наблюдатели едины в своих суждениях. Например, если вы хотите измерить социальные навыки студентов университета, вы можете сделать видеозаписи их взаимодействия с другим студентом, с которым они встречаются впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той степени, в которой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом.Надежность между экспертами также могла быть измерена в исследовании куклы Бобо Бандуры. В этом случае оценки наблюдателей того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь очень положительную корреляцию. Надежность между экспертами часто оценивается с помощью α Кронбаха, когда суждения являются количественными, или аналогичной статистики, называемой κ Коэна (греческая буква каппа), когда они категоричны.
Валидность — это степень, в которой баллы меры представляют переменную, для которой они предназначены.Но как исследователи делают такое суждение? Мы уже учли один фактор, который они учитывают, — надежность. Если показатель имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки соответствуют тому, что им положено. Однако здесь должно быть что-то еще, потому что мера может быть чрезвычайно надежной, но совершенно бесполезной. В качестве абсурдного примера представьте человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам.Хотя эта мера имела бы чрезвычайно хорошую надежность повторного тестирования, она не имела бы абсолютно никакой ценности. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят ее на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды свидетельств, помимо надежности, которые следует принимать во внимание при оценке достоверности меры.Здесь мы рассматриваем три основных типа: валидность лица, валидность содержания и валидность критерия.
Лицевая достоверность
Лицевая достоверность — это степень, в которой метод измерения проявляется «на лице» для измерения интересующей конструкции. Большинство людей ожидают, что в анкету для самооценки будут включены вопросы о том, считают ли они себя достойным человеком и обладают ли они хорошими качествами. Таким образом, анкета, включающая такие вопросы, будет иметь хорошую внешнюю валидность.С другой стороны, метод измерения самооценки на расстоянии пальца, похоже, не имеет ничего общего с самооценкой и, следовательно, имеет низкую достоверность. Хотя фактическая валидность может быть оценена количественно — например, с помощью большой выборки людей, оценивающих меру с точки зрения того, действительно ли она измеряет то, для чего она предназначена, — она обычно оценивается неформально.
Фактическая достоверность — это в лучшем случае очень слабое свидетельство того, что метод измерения измеряет то, что должен.Одна из причин заключается в том, что это основано на интуиции людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепринятые меры в психологии работают довольно хорошо, несмотря на недостаточную достоверность. Миннесотский многофазный опросник личности-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, при этом многие из утверждений не имеют очевидного отношения к конструкции, которую они измеряют. .Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает меня и не вызывает тошноту», оба измеряют подавление агрессии. В данном случае интерес представляют не дословные ответы участников на эти вопросы, а, скорее, то, соответствует ли характер ответов участников на серию вопросов ответам людей, которые склонны подавлять свою агрессию.
Срок действия содержимого
Достоверность содержания — это степень, в которой мера «покрывает» интересующий конструкт.Например, если исследователь концептуально определяет тестовую тревогу как связанную как с активацией симпатической нервной системы (ведущей к нервным переживаниям), так и с негативными мыслями, то его мера тестовой тревожности должна включать вопросы как о нервных переживаниях, так и о негативных мыслях. Или подумайте, что отношения обычно определяются как связанные с мыслями, чувствами и действиями по отношению к чему-либо. Согласно этому концептуальному определению, человек положительно относится к упражнениям в той мере, в какой он или она думает о тренировках положительно, чувствует себя хорошо во время тренировок и фактически занимается спортом.Таким образом, чтобы иметь хорошую достоверность содержания, показатель отношения людей к упражнениям должен отражать все три этих аспекта. Как и фактическая достоверность, достоверность содержания обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Срок действия критерия
Достоверность критерия — это степень, в которой оценки людей по критерию коррелируют с другими переменными (известными как критерии), с которыми можно было бы ожидать их корреляции.Например, оценки людей по новому критерию тревожности при тестировании должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что оценки людей на самом деле отрицательно коррелировали с их успеваемостью на экзамене, то это было бы доказательством того, что эти оценки действительно отражают тревогу людей перед тестированием. Но если бы выяснилось, что люди одинаково хорошо сдавали экзамен, независимо от их тестовой тревожности, это поставило бы под сомнение достоверность этой меры.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их много. Например, можно было бы ожидать, что результаты теста на тревожность будут отрицательно коррелировать с успеваемостью на экзамене и оценками по курсу и положительно коррелировать с общим беспокойством и с артериальным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру принятия физического риска. Баллы людей по этому показателю должны соотноситься с их участием в «экстремальных» видах деятельности, таких как сноуборд и скалолазание, количеством полученных штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы.Когда критерий измеряется одновременно с построением, достоверность критерия упоминается как одновременная достоверность ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкция была измерена), он упоминается как прогностическая достоверность (поскольку оценки по этому показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые меры тестовой тревожности или принятия физического риска будут положительно коррелированы с существующими показателями тех же конструктов.Это известно как конвергентная достоверность .
Для оценки конвергентной достоверности требуется сбор данных с помощью меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самоотчета «Потребность в познании», чтобы измерить, насколько люди ценят и вовлечены в мышление (Cacioppo & Petty, 1982). В серии исследований они показали, что оценки людей положительно коррелировали с их оценками по стандартизированному тесту академических достижений, и что их оценки отрицательно коррелировали с их оценками по показателю догматизма (который представляет собой тенденцию к послушанию).За годы, прошедшие с момента создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и МакКаслин, 2009 г.).
Дискриминантная валидность
Дискриминантная валидность, с другой стороны, — это степень, в которой баллы по показателю , а не коррелируют с мерами переменных, которые концептуально различны.Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, которое бывает хорошим или плохим в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новый показатель самооценки был сильно коррелирован с показателем настроения, можно было бы утверждать, что новый показатель на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
При создании шкалы потребности в познании Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что оценки людей не коррелировали с некоторыми другими переменными.Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части, или целостным образом в терминах «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их склонностью реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличную конструкцию.
Психологические исследователи не просто предполагают, что их меры работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что работают, они прекращают их использовать.
Есть два различных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это постоянство во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между исследователями (надежность между экспертами). Достоверность — это степень, в которой оценки фактически представляют переменную, для которой они предназначены.
Действительность — это решение, основанное на различных типах доказательств. Соответствующие свидетельства включают надежность меры, то, покрывает ли она интересующий конструкт и коррелируют ли полученные оценки с другими переменными, с которыми они, как ожидается, коррелируют, а не коррелируют ли с переменными, которые концептуально различны.
Надежность и валидность меры устанавливаются не одним исследованием, а результатами нескольких исследований.Оценка надежности и достоверности — непрерывный процесс.
Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделенных половин (элементы с четным и нечетным номерами). Вы также можете вычислить r Пирсона, если знаете как.
Обсуждение. Вспомните последний экзамен в колледже, который вы сдавали, и думайте об этом как о психологической мере. Как вы думаете, для измерения какой конструкции она предназначалась? Прокомментируйте его лицо и достоверность содержания.Какие данные вы могли бы собрать, чтобы оценить их надежность и валидность критериев?
Надежность и действительность
Надежность и действительность
Все исследователи стремятся получить точные результаты. Точные результаты надежны и действительны. Надежность означает, что полученные результаты согласованы. Действительность — это степень, в которой исследователь фактически измеряет то, что он или она пытается измерить.
Надежность и обоснованность часто сравнивают с целью стрелка.На рисунке ниже цель B представляет собой измерение с плохой достоверностью и низкой надежностью. Выстрелы не стабильны и не точны. Мишень A показывает измерение, которое имеет хорошую надежность, но имеет низкую достоверность, поскольку выстрелы согласованы, но они не в центре мишени. Мишень C показывает показатель с хорошей достоверностью и хорошей надежностью, потому что все выстрелы сосредоточены в центре мишени.
Случайные ошибки: Случайная ошибка — это термин, используемый для описания всех случайных или случайных факторов, которые мешают — подрывают — измерение любых явлений.Случайные ошибки в измерениях — это непоследовательные ошибки, которые случаются случайно. Они по своей природе непредсказуемы и преходящи. К случайным ошибкам относятся ошибки выборки, непредсказуемые колебания в измерительной аппаратуре или изменение настроения респондентов, из-за которых человек может предложить ответ на вопрос, который может отличаться от того, который он обычно дает. Количество случайных ошибок обратно пропорционально надежности измерительного прибора. ^[1] По мере уменьшения количества случайных ошибок надежность повышается и наоборот .
Систематические ошибки: Систематические или неслучайные ошибки — это постоянная или систематическая погрешность измерения. Вот два повседневных примера систематических ошибок: 1) Представьте, что ваши весы для ванной всегда регистрируют ваш вес как на пять фунтов меньше, чем он есть на самом деле, и 2) Термостат в вашем доме показывает, что температура в помещении составляет 72º, тогда как на самом деле это 75º. Величина систематической ошибки обратно пропорциональна достоверности измерительного прибора. ^[2] По мере увеличения систематических ошибок достоверность падает, и наоборот .
Надежность:
Как указано выше, надежность связана со степенью, в которой эксперимент, испытание или процедура измерения дают согласованные результаты при повторных испытаниях. Надежность — это степень, в которой мера не содержит случайных ошибок. Но из-за большой вероятности случайных ошибок мы никогда не сможем достичь полностью безошибочного и на 100% надежного измерения. Риск ненадежности всегда присутствует в ограниченной степени.
Вот основные методы оценки надежности эмпирических измерений: 1) метод тестирования-повторного тестирования, 2) метод эквивалентной формы и 3) метод внутренней согласованности.^[3]
Метод повторного тестирования: Метод повторного тестирования повторяет измерение — повторяет опрос — в аналогичных условиях. Второй тест обычно проводится среди тех же респондентов, что и первый, по прошествии короткого периода времени. Цель метода повторного тестирования — выявить случайные ошибки, которые будут показаны разными результатами в двух тестах. Если результаты двух тестов очень согласованы, мы можем сделать вывод, что измерения стабильны, а надежность считается высокой.Надежность равна соотношению результатов двух тестов, полученных одними и теми же респондентами в разное время.
Есть некоторые проблемы с методом повторного тестирования. Во-первых, может быть трудно заставить всех респондентов пройти тест — пройти опрос или эксперимент — второй раз. Во-вторых, первый и второй тесты не могут быть действительно независимыми. Тот факт, что респондент участвовал в первом измерении, может повлиять на их ответы во втором измерении. И, в-третьих, факторы окружающей среды или личные факторы могут привести к изменению второго измерения.
Метод эквивалентной формы: Метод эквивалентной формы используется, чтобы избежать проблем, упомянутых выше, с методом повторного тестирования. Метод эквивалентной формы измеряет способность аналогичных инструментов давать результаты, которые имеют сильную корреляцию. С помощью этого метода исследователь создает большой набор вопросов, касающихся одной и той же конструкции, а затем случайным образом делит вопросы на два набора. Оба инструмента выдаются одной и той же выборке людей. Если есть сильная корреляция между инструментами, у нас высокая надежность.
Метод эквивалентной формы тоже не без проблем. Во-первых, создание двух полностью эквивалентных форм может быть очень трудным — некоторые сказали бы почти невозможным. Во-вторых, даже когда эквивалентность может быть достигнута, это может не стоить затрат времени, энергии и средств.
Внутренняя согласованность и метод разделения половин: Эти методы определения надежности основаны на внутренней согласованности прибора для получения аналогичных результатов на разных образцах в течение одного и того же периода времени.Внутренняя согласованность связана с эквивалентом . В нем рассматривается вопрос: существует ли равное количество случайных ошибок, возникающих при использовании двух разных выборок для измерения явлений?
Метод разделения и половины измеряет надежность инструмента путем разделения набора элементов измерения на две половины и последующего сопоставления результатов. Например, если нас интересует воспринимаемая практичность электромобилей и автомобилей с бензиновым порошком, мы могли бы использовать метод разделения половин и задать один и тот же вопрос двумя разными способами.
Чтобы быть надежным, ответы на эти два вопроса должны быть последовательными. Проблема с этим методом заключается в том, что разные «разбиения» могут давать разные коэффициенты надежности. Чтобы преодолеть эту проблему, исследователи используют метод альфа (α) Кронбаха, названный в честь психолога-педагога Ли Кронбаха. Альфа Кронбаха (α) вычисляет среднюю надежность для всех возможных способов разделения набора вопросов пополам. Отсутствие корреляции элемента с другими элементами предполагает низкую надежность и то, что этот элемент не входит в шкалу.Альфа-техника Кронбаха требует, чтобы все элементы шкалы имели равные интервалы. Если это условие не может быть выполнено, следует рассмотреть другой статистический анализ. Альфа Хронбаха также называется коэффициентом надежности .
Срок действия:
Валидность определяется как способность прибора измерять то, что исследователь намеревается измерить. Есть несколько различных типов валидности в исследованиях в области социальных наук. Каждый использует свой подход к оценке степени, в которой мера фактически измеряет то, что исследователь намеревается измерить.Каждый тип действительности имеет разное значение, использование и ограничения. ^[4]
Действительность лица: Достоверность лица — это степень, в которой субъективно рассматривается как мера того, что оно предназначено для измерения. Он основан на суждении исследователя или коллективном суждении широкой группы исследователей. Таким образом, он считается самой слабой формой обоснованности. Что касается фактической достоверности, мера «выглядит так, как будто она измеряет то, что мы надеемся измерить», но не было доказано, что это так.
Срок действия содержимого: Срок действия содержимого часто считается эквивалентным номинальной достоверности. Содержание или логическая обоснованность — это степень, в которой эксперты соглашаются с тем, что мера охватывает все аспекты конструкции. Чтобы установить достоверность содержимого, должны быть включены все аспекты , или , измерения конструкции. Если мы создадим тест по арифметике и сосредоточимся только на навыках сложения, нам явно не хватит достоверности содержания, поскольку мы проигнорировали вычитание, умножение и деление.Чтобы установить достоверность содержания, мы должны изучить литературу по конструкту, чтобы убедиться, что измеряется каждое измерение конструкта.
Достоверность критерия: Достоверность критерия измеряет, насколько хорошо измерение предсказывает результат на основе информации из других переменных. Он измеряет соответствие между вопросом обследования и критерием — содержанием или предметной областью, — которые он призван измерять. Например, считается, что у теста SAT есть критерий достоверности, потому что высокие баллы по этому тесту коррелируют со средними баллами учащихся-первокурсников.
Существует два типа критерия достоверности: Прогнозируемая достоверность и Одновременная достоверность . Предсказательная достоверность относится к полезности меры для прогнозирования будущего поведения или отношения. Сопутствующая действительность относится к степени, в которой инструмент может спрогнозировать другую переменную, измеренную одновременно с интересующей переменной. Одновременная валидность подтверждается, когда показатель сильно коррелирует с ранее подтвержденным показателем.
Срок действия конструкции: Срок действия конструкции — это степень, в которой инструмент представляет конструкцию, которую он призван представлять.Это предполагает понимание теоретических основ конструкции. Мера имеет конструктивную валидность, если соответствует теории, лежащей в основе конструкции.
Существует два типа конвергентной действительности: Конвергентная валидность и Дискриминантная валидность . Конвергентная достоверность — это корреляция между мерами, которые претендуют на измерение одной и той же конструкции. Дискриминантная валидность измеряет отсутствие корреляции между мерами, которые не измеряют одну и ту же конструкцию.Для обеспечения высокого уровня валидности конструкта необходимы высокие уровни коррекции среди мер, охватывающих один и тот же конструкт, и низкие уровни корреляции между показателями, охватывающими разные конструкции.
^[1] Карминес, Эдвард Г. и Ричард А. Целлер, Оценка надежности и достоверности . Таузенд-Оукс, Калифорния: Sage Publications Inc., 1979. стр. 14-15.
^[2] Карминес, Эдвард Г. и Ричард А. Зеллер, Оценка надежности и достоверности .Таузенд-Оукс, Калифорния: Sage Publications Inc., 1979. стр. 13–14.
^[3] Карминес, Эдвард Г. и Ричард А. Зеллер, Ричард А., Оценка надежности и достоверности . Таузенд-Оукс, Калифорния: Sage Publications Inc., 1979. стр. 37-51.
^[4] Карминес, Эдвард Г. и Ричард А. Зеллер, Оценка надежности и достоверности . Таузенд-Оукс, Калифорния: Sage Publications Inc., 1979. стр. 17.
toc | вернуться наверх | предыдущая страница | следующая страница
4.2 Надежность и достоверность измерения — методы исследования в психологии
Цели обучения
Определите надежность, включая различные типы и способы их оценки.
Определите срок действия, включая различные типы и способы их оценки.
Опишите виды доказательств, которые могут иметь отношение к оценке надежности и действительности той или иной меры.
Опять же, измерение включает в себя присвоение баллов людям, чтобы они отражали некоторые характеристики людей.Но как исследователи узнают, что оценки на самом деле представляют характеристику, особенно если это такие конструкты, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование, используя эту меру, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это очень важный момент. Психологи не просто предполагают , что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают.Если их исследование не демонстрирует, что мера работает, они прекращают ее использовать.
В качестве неформального примера представьте, что вы сидите на диете в течение месяца. Ваша одежда кажется более свободной, и несколько друзей спросили, похудели ли вы. Если в этот момент ваши весы для ванной показывают, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжили бы пользоваться весами. Но если бы это указывало на то, что вы набрали 10 фунтов, вы бы справедливо пришли к выводу, что он сломался, и либо почините его, либо избавьтесь от него.Оценивая метод измерения, психологи принимают во внимание два основных аспекта: надежность и валидность.
Надежность
Надежность означает постоянство меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (надежность между экспертами).
Проверка-повторная проверка надежности
Когда исследователи измеряют конструкт, который, по их мнению, является непротиворечивым во времени, полученные ими оценки также должны быть согласованными во времени. Надежность повторных испытаний — это степень, в которой это действительно так. Например, обычно считается, что интеллект постоянен во времени. Человек, который сегодня очень умный, на следующей неделе станет очень умным. Это означает, что любой хороший показатель интеллекта должен дать этому человеку примерно такие же оценки на следующей неделе, что и сегодня. Ясно, что мера, которая дает очень непоследовательные оценки с течением времени, не может быть очень хорошей мерой конструкции, которая должна быть согласованной.
Оценка надежности повторного тестирования требует одновременного использования этого показателя на группе людей, его повторного использования на той же группе людей в более позднее время, а затем анализа корреляции повторного тестирования между двумя наборами критериев. оценки. Обычно это делается путем построения графика данных в виде диаграммы рассеяния и вычисления коэффициента корреляции. На рис. 4.2 показана корреляция между двумя наборами оценок нескольких студентов университетов по шкале самооценки Розенберга, введенной два раза с интервалом в неделю.Коэффициент корреляции для этих данных составляет +,95. Обычно считается, что корреляция между тестами и повторными тестами +80 или выше указывает на хорошую надежность.
Рис. 4.2 Корреляция между тестами и повторными тестами между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с разницей в
Опять же, высокая корреляция между тестами и ретестами имеет смысл, когда предполагается, что измеряемый конструкт будет постоянным во времени, что имеет место в случае интеллекта, самооценки и параметров личности Большой пятерки.Но другие конструкции не считаются стабильными с течением времени. Например, сама природа настроения такова, что оно меняется. Таким образом, показатель настроения, который дает низкую корреляцию между тестами и повторными тестами в течение месяца, не будет поводом для беспокойства.
Внутренняя согласованность
Другой вид надежности — это внутренняя согласованность , которая представляет собой согласованность ответов людей по всем пунктам при измерении нескольких пунктов. В целом предполагается, что все элементы таких показателей отражают одну и ту же основную конструкцию, поэтому оценки людей по этим вопросам должны коррелировать друг с другом.По шкале самооценки Розенберга люди, которые согласны с тем, что они достойные люди, должны соглашаться с тем, что у них есть ряд хороших качеств. Если ответы людей на разные вопросы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же основную конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самооценки. Например, люди могут сделать серию ставок в имитируемой игре в рулетку, чтобы измерить свой уровень стремления к риску.Этот показатель будет внутренне согласованным в той степени, в которой ставки отдельных участников будут стабильно высокими или низкими в ходе испытаний.
Как и надежность повторного тестирования, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов — посмотреть на корреляцию и половину . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четным и нечетным номерами. Затем для каждого набора элементов вычисляется оценка и исследуется взаимосвязь между двумя наборами оценок.Например, на рис. 4.3 показана корреляция между двумя частицами между оценками нескольких студентов университетов по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Коэффициент корреляции для этих данных равен +,88. Корреляция разделенных половин, равная +80 или больше, обычно считается хорошей внутренней согласованностью.
Рисунок 4.3 Распределенная корреляция между результатами нескольких студентов колледжа по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга
Пожалуй, наиболее распространенным показателем внутренней согласованности, используемым исследователями в области психологии, является статистика под названием α Кронбаха (греческая буква альфа).Концептуально α — это среднее значение всех возможных корреляций разделенных половин для набора элементов. Например, существует 252 способа разделить набор из 10 элементов на два набора по пять. Α Кронбаха будет средним из 252 корреляций разделенных половин. Обратите внимание, что на самом деле α вычисляется не так, но это правильный способ интерпретации значения этой статистики. Опять же, значение +80 или больше обычно берется, чтобы указать на хорошую внутреннюю согласованность.
Надежность Interrater
Многие поведенческие меры требуют значительного суждения со стороны наблюдателя или оценщика. Надежность между экспертами — это степень, в которой разные наблюдатели едины в своих суждениях. Например, если вы хотите измерить социальные навыки студентов университета, вы можете сделать видеозаписи их взаимодействия с другим студентом, с которым они встречаются впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той степени, в которой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом.Надежность между экспертами также могла быть измерена в исследовании куклы Бобо Бандуры. В этом случае оценки наблюдателей того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь очень положительную корреляцию. Надежность между экспертами часто оценивается с помощью α Кронбаха, когда суждения являются количественными, или аналогичной статистики, называемой κ Коэна (греческая буква каппа), когда они категоричны.
Срок действия
Действительность — это степень, в которой оценки из меры представляют переменную, для которой они предназначены.Но как исследователи делают такое суждение? Мы уже учли один фактор, который они учитывают, — надежность. Если показатель имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки соответствуют тому, что им положено. Однако здесь должно быть что-то еще, потому что мера может быть чрезвычайно надежной, но совершенно бесполезной. В качестве абсурдного примера представьте человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам.Хотя эта мера имела бы чрезвычайно хорошую надежность повторного тестирования, она не имела бы абсолютно никакой ценности. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят ее на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды свидетельств, помимо надежности, которые следует принимать во внимание при оценке достоверности меры.Здесь мы рассматриваем три основных типа: валидность лица, валидность содержания и валидность критерия.
Лицевая достоверность
Лицевая достоверность — это степень, в которой метод измерения проявляется «на лице» для измерения интересующей конструкции. Большинство людей ожидают, что в анкету для самооценки будут включены вопросы о том, считают ли они себя достойным человеком и обладают ли они хорошими качествами. Таким образом, анкета, включающая такие вопросы, будет иметь хорошую внешнюю валидность.С другой стороны, метод измерения самооценки на расстоянии пальца, похоже, не имеет ничего общего с самооценкой и, следовательно, имеет низкую достоверность. Хотя фактическая валидность может быть оценена количественно — например, с помощью большой выборки людей, оценивающих меру с точки зрения того, действительно ли она измеряет то, для чего она предназначена, — она обычно оценивается неформально.
Фактическая достоверность — это в лучшем случае очень слабое свидетельство того, что метод измерения измеряет то, что должен.Одна из причин заключается в том, что это основано на интуиции людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепринятые меры в психологии работают довольно хорошо, несмотря на недостаточную достоверность. Миннесотский многофазный опросник личности-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, при этом многие из утверждений не имеют очевидного отношения к конструкции, которую они измеряют. .Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает меня и не вызывает тошноту», оба измеряют подавление агрессии. В данном случае интерес представляют не дословные ответы участников на эти вопросы, а, скорее, то, соответствует ли характер ответов участников на серию вопросов ответам людей, которые склонны подавлять свою агрессию.
Срок действия содержимого
Достоверность содержимого — это степень, в которой мера «покрывает» интересующий конструкт.Например, если исследователь концептуально определяет тестовую тревогу как связанную как с активацией симпатической нервной системы (ведущей к нервным переживаниям), так и с негативными мыслями, то его мера тестовой тревожности должна включать вопросы как о нервных переживаниях, так и о негативных мыслях. Или подумайте, что отношения обычно определяются как связанные с мыслями, чувствами и действиями по отношению к чему-либо. Согласно этому концептуальному определению, человек положительно относится к упражнениям в той мере, в какой он или она думает о тренировках положительно, чувствует себя хорошо во время тренировок и фактически занимается спортом.Таким образом, чтобы иметь хорошую достоверность содержания, показатель отношения людей к упражнениям должен отражать все три этих аспекта. Как и фактическая достоверность, достоверность содержания обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Срок действия критерия
Достоверность критерия — это степень, в которой оценки людей по показателю коррелируют с другими переменными (известными как критерий ), с которыми можно было бы ожидать их корреляции.Например, оценки людей по новому критерию тревожности при тестировании должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что оценки людей на самом деле отрицательно коррелировали с их успеваемостью на экзамене, то это было бы доказательством того, что эти оценки действительно отражают тревогу людей перед тестированием. Но если бы выяснилось, что люди одинаково хорошо сдавали экзамен, независимо от их тестовой тревожности, это поставило бы под сомнение достоверность этой меры.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их много. Например, можно было бы ожидать, что результаты теста на тревожность будут отрицательно коррелировать с успеваемостью на экзамене и оценками по курсу и положительно коррелировать с общим беспокойством и с артериальным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру принятия физического риска. Баллы людей по этому показателю должны соотноситься с их участием в «экстремальных» видах деятельности, таких как сноуборд и скалолазание, количеством полученных штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы.Когда критерий измеряется одновременно с построением, достоверность критерия упоминается как одновременная достоверность ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкция была измерена), он упоминается как прогностическая достоверность (поскольку оценки по этому показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые меры тестовой тревожности или принятия физического риска будут положительно коррелированы с существующими установленными показателями тех же конструктов.Это известно как конвергентная достоверность .
Для оценки конвергентной достоверности требуется сбор данных с помощью меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самоотчета «Потребность в познании», чтобы измерить, насколько люди ценят и вовлечены в мышление (Cacioppo & Petty, 1982). В серии исследований они показали, что оценки людей положительно коррелировали с их оценками по стандартизированному тесту академических достижений, и что их оценки отрицательно коррелировали с их оценками по показателю догматизма (который представляет собой тенденцию к послушанию).За годы, прошедшие с момента создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и МакКаслин, 2009 г.).
Дискриминантная валидность
Дискриминантная валидность , с другой стороны, — это степень, в которой оценки по показателю , а не коррелируют с мерами переменных, которые концептуально различны.Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, которое бывает хорошим или плохим в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новый показатель самооценки был сильно коррелирован с показателем настроения, можно было бы утверждать, что новый показатель на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
При создании шкалы потребности в познании Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что оценки людей не коррелировали с некоторыми другими переменными.Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части, или целостным образом в терминах «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их склонностью реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличную конструкцию.
Основные выводы
Психологические исследователи не просто предполагают, что их меры работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что работают, они прекращают их использовать.
Есть два различных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это постоянство во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между исследователями (надежность между экспертами).Достоверность — это степень, в которой оценки фактически представляют переменную, для которой они предназначены.
Действительность — это решение, основанное на различных типах доказательств. Соответствующие свидетельства включают надежность меры, то, покрывает ли она интересующий конструкт и коррелируют ли полученные оценки с другими переменными, с которыми они, как ожидается, коррелируют, а не коррелируют ли с переменными, которые концептуально различны.
Надежность и валидность меры устанавливаются не одним исследованием, а результатами нескольких исследований.Оценка надежности и достоверности — непрерывный процесс.
Упражнения
Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделенных половин (элементы с четным и нечетным номерами). Вычислите коэффициент корреляции и , если знаете как.
Обсуждение. Вспомните последний экзамен в колледже, который вы сдавали, и думайте об этом как о психологической мере.Как вы думаете, для измерения какой конструкции она предназначалась? Прокомментируйте его лицо и достоверность содержания. Какие данные вы могли бы собрать, чтобы оценить их надежность и валидность критериев?
Что такое валидность в психологии
Методы исследования
Валидность
Что такое валидность?
Д-р Саул МакЛеод, опубликовано в 2013 г.
Что означает валидность в исследованиях?
Концепция действительности была сформулирована Келли (1927, стр.14), который заявил, что тест действителен, если он измеряет то, что, по его утверждению, измеряется.
Например, тест на интеллект должен измерять интеллект, а не что-то еще (например, память).
Различают внутреннюю и внешнюю действительность. Эти типы валидности имеют отношение к оценке валидности исследовательского исследования / процедуры.
Что такое внутренняя и внешняя валидность в исследованиях?
Внутренняя валидность относится к тому, вызваны ли эффекты, наблюдаемые в исследовании, манипулированием независимой переменной, а не каким-либо другим фактором.
Другими словами, существует причинная связь между независимой и зависимой переменной.
Внутренняя достоверность может быть улучшена за счет контроля посторонних переменных, использования стандартизированных инструкций, противовеса и исключения характеристик спроса и эффектов исследователя.
Внешняя валидность — это степень, в которой результаты исследования могут быть обобщены для других условий (экологическая валидность), других людей (популяционная валидность) и с течением времени (историческая валидность).
Внешняя достоверность может быть улучшена путем постановки экспериментов в более естественные условия и использования случайной выборки для отбора участников.
Оценка валидности теста
Оценка валидности теста
Существуют две основные категории валидности, используемые для оценки валидности теста (например, анкета, интервью, тест IQ и т. Д.): Содержание и критерий.
Что такое фактическая валидность в исследованиях?
Признание достоверности — это просто то, появляется ли тест (по номинальной стоимости) для измерения того, на что он претендует.Это наименее изощренная мера достоверности.
Тесты, цель которых ясна даже для наивных респондентов, считаются имеющими высокую достоверность. Соответственно, тесты, цель которых неясна, имеют низкую валидность (Nevo, 1985).
Прямое измерение валидности лица получают, когда людей просят оценить валидность теста, как им кажется. Этот оценщик может использовать шкалу Лайкерта для оценки достоверности лица. Например:
тест очень подходит для данной цели
тест очень подходит для этой цели;
тест соответствует требованиям
тест не соответствует требованиям
тест не имеет отношения к делу и, следовательно, не подходит
Важно выбрать подходящих людей для оценки теста (например.грамм. анкета, интервью, тест на IQ и т. д.). Например, люди, которые действительно проходят тест, будут иметь все возможности для оценки его достоверности.
Также люди, которые работают с тестом, могут высказать свое мнение (например, работодатели, администраторы университетов, работодатели). Наконец, исследователь может использовать представителей широкой общественности, заинтересованных в тесте (например, родителей испытуемых, политиков, учителей и т. Д.).
Внешняя валидность теста может считаться надежной конструкцией только в том случае, если между оценщиками существует разумный уровень согласия.
Следует отметить, что следует избегать использования термина «достоверность лица», когда оценка проводится «экспертом», поскольку достоверность содержимого является более подходящей.
Наличие фактической валидности не означает, что тест действительно измеряет то, что исследователь намеревается измерить, а только по мнению рейтеров, которые, по-видимому, делают это. Следовательно, это грубая и основная мера достоверности.
Элемент теста, такой как « Я недавно подумал о самоубийстве », имеет очевидную валидность по лицу как элемент, измеряющий суицидальные мысли, и может быть полезен при измерении симптомов депрессии.
Однако результаты тестов с явной валидностью заключаются в том, что они более уязвимы для предвзятости социальной желательности. Люди могут манипулировать своей реакцией, чтобы отрицать или скрывать проблемы, или преувеличивать свое поведение, чтобы представить себя в позитивном свете.
Элемент тестирования может не иметь лицевой валидности, но все же иметь общую валидность и измерять то, что, по его утверждению, измеряется. Это хорошо, поскольку снижает характеристики спроса и затрудняет манипулирование респондентами своими ответами.
Например, элемент теста « Я верю во Второе пришествие Христа » будет недействителен как мера депрессии (так как его цель неясна).
Этот элемент появился в первой версии Миннесотского многофазного опросника личности (MMPI) и загружен в шкалу депрессии.
Поскольку большинство первоначального нормативного образца MMPI были хорошими христианами, только христианин в депрессии мог подумать, что Христос не вернется. Таким образом, для данного конкретного религиозного образца пункт имеет общую действительность, но не является действительным.
Что такое конструктная валидность в исследованиях?
Конструктивная валидность была изобретена Корнболлом и Милом (1955). Этот тип валидности относится к степени, в которой тест захватывает конкретную теоретическую конструкцию или признак, и перекрывается с некоторыми другими аспектами валидности
Конструктивная валидность не касается простого фактического вопроса о том, измеряет ли тест атрибут .
Вместо этого речь идет о сложном вопросе о том, согласуются ли интерпретации результатов тестов с номологической сетью, включающей теоретические и наблюдательные термины (Cronbach & Meehl, 1955).
Для проверки достоверности конструкции необходимо продемонстрировать, что измеряемое явление действительно существует. Так, например, конструктивная валидность теста на интеллект зависит от модели или теории интеллекта.
Валидность конструкции влечет за собой демонстрацию силы такой конструкции для объяснения сети результатов исследований и прогнозирования дальнейших взаимоотношений.
Чем больше доказательств валидности конструкции теста сможет продемонстрировать исследователь, тем лучше.Однако не существует единого метода определения достоверности конструкции теста.
Вместо этого различные методы и подходы объединяются, чтобы представить общую конструктивную валидность теста. Например, можно использовать факторный анализ и корреляционные методы.
Что такое одновременная валидность в исследованиях?
Это степень, в которой тест соответствует внешнему критерию, который известен одновременно (т. Е. Происходит одновременно).
Если новый тест подтвержден сравнением с существующим в настоящее время критерием, у нас есть одновременная валидность.
Очень часто новый IQ или личностный тест можно сравнить со старым, но похожим тестом, который, как известно, уже имеет хорошую валидность.
Что такое прогностическая достоверность в исследованиях?
Это степень, в которой тест точно предсказывает критерий, который будет выполняться в будущем.
Например, на основе нового теста интеллекта можно сделать прогноз, что люди с высокими показателями в возрасте 12 лет с большей вероятностью получат университетское образование через несколько лет.Если предсказание оправдывается, значит, тест имеет прогностическую достоверность.
Ссылки на стиль APA
Кронбах, Л. Дж., И Мил, П. Э. (1955) Конструируйте валидность в психологических тестах. Психологический бюллетень , 52, 281-302.
Hathaway, S. R., & McKinley, J. C. (1943). Руководство по многофазной инвентаризации личности в Миннесоте . Нью-Йорк: Психологическая корпорация.
Келли, Т. Л. (1927). Интерпретация образовательных измерений.Нью-Йорк : Macmillan.
Нево, Б. (1985). Повторная проверка достоверности лица. Журнал образовательных измерений , 22 (4), 287-293.
Как сослаться на эту статью:
Как сослаться на эту статью:
McLeod, S.A. (2013). Что такое срок действия? . Просто психология. https://www.simplypsychology.org/validity.html
сообщить об этом объявлении
электронных уроков QMSS | Действительность и надежность
Для каждого интересующего аспекта и конкретного вопроса или набора вопросов существует огромное количество способов задать вопросы.Хотя руководящим принципом должны быть конкретные цели исследования, есть вопросы как к лучшему, так и к худшему для любой конкретной операции. Как оценить меры?
Два основных критерия оценки при любом измерении или наблюдении:
Измеряем ли мы то, что намереваемся измерить.
Указывает, дает ли один и тот же процесс измерения одинаковые результаты.
Эти два понятия — обоснованность и надежность.
Надежность связана с вопросами стабильности и согласованности — дает ли один и тот же измерительный инструмент стабильные и последовательные результаты при повторении во времени. Подумайте о процессах измерения в другом контексте — в строительстве или деревообработке рулетка является очень надежным измерительным инструментом.
Допустим, у вас есть кусок дерева длиной 2 1/2 фута. Вы измеряете его один раз с помощью рулетки
— вы получаете размер в 2 1/2 фута. Измерьте его еще раз, и вы получите 2 1/2 фута.Измеряйте его несколько раз, и вы неизменно получаете результат в 2 1/2 фута. Рулетка дает надежные результаты.
Действительность означает степень, в которой мы измеряем то, что мы надеемся измерить (и то, что, по нашему мнению, мы измеряем). Продолжая пример измерения куска дерева, рулетка, созданная с точным шагом в дюймах, футах и т. Д., Также должна дать достоверные результаты. Измерение этого куска дерева «хорошей» рулеткой должно дать правильное измерение длины дерева.
Чтобы применить эти концепции к социальным исследованиям, мы хотим использовать надежные и достоверные инструменты измерения. Нам нужны вопросы, на которые будут даны последовательные ответы при многократном задании — это надежность. Точно так же нам нужны вопросы, на которые респонденты будут давать точные ответы — это обоснованность.
Надежность
Надежность относится к состоянию, при котором процесс измерения дает согласованные оценки (при неизменном измеренном явлении) по сравнению с повторными измерениями.Возможно, самый простой способ оценить надежность — убедиться, что они соответствуют следующим трем критериям надежности. Меры с высокой надежностью должны демонстрировать все три.
Тестирование-повторное тестирование
Когда исследователь применяет один и тот же инструмент измерения несколько раз — задает один и тот же вопрос, следует одним и тем же исследовательским процедурам и т. Д. — получает ли он / она последовательные результаты, предполагая, что не было никаких изменений в том, что он / она измеряет? Это действительно самый простой метод оценки надежности — когда исследователь дважды задает одному и тому же человеку один и тот же вопрос («Как вас зовут?»), Он / она получает одинаковые результаты оба раза.Если да, то мера имеет надежность повторного тестирования. Упомянутые ранее измерения куска дерева имеют высокую надежность повторных испытаний.
Надежность между пунктами
Это измерение, которое применяется к случаям, когда несколько элементов используются для измерения одной концепции
. В таких случаях ответы на набор вопросов, предназначенных для измерения какого-то одного понятия (например, альтруизма), должны быть связаны друг с другом.
Надежность между наблюдателями
Надежность Interobserver касается степени, в которой разные интервьюеры или наблюдатели, использующие одну и ту же меру, получают одинаковые результаты.Если разные наблюдатели или интервьюеры используют один и тот же инструмент для оценки одного и того же, их оценки должны совпадать. Например, надежность наблюдателя при наблюдательной оценке взаимодействия родитель-ребенок часто оценивается путем показа двум наблюдателям видеозаписи, на которой родитель и ребенок играют. Этим наблюдателям предлагается использовать инструмент оценки для оценки взаимодействия между родителем и ребенком на ленте. Если инструмент имеет высокую надежность между наблюдателями, оценки двух наблюдателей должны совпадать.
Срок действия
Повторюсь, валидность относится к степени, в которой мы измеряем то, что мы надеемся измерить (и то, что, по нашему мнению, мы измеряем). Как оценить достоверность набора измерений? Действительная мера должна удовлетворять четырем критериям.
Лицевая действительность
Этот критерий представляет собой оценку того, появляется ли мера, на первый взгляд, для измерения концепции, для измерения которой она предназначена. Это очень минимальная оценка — если мера не может удовлетворять этому критерию, то другие критерии не имеют значения.Мы можем думать о наблюдательных мерах поведения, которые были бы признаны достоверными. Например, нанесение удара другому человеку могло бы считаться показателем агрессии. Точно так же предложение помощи незнакомцу соответствовало бы критерию достоверности помощи. Однако расспросы людей об их любимом фильме для измерения расовых предубеждений не имеют большого значения.
Срок действия содержимого
Достоверность содержания касается степени, в которой мера адекватно представляет все аспекты концепции.Рассмотрите ряд вопросов, которые служат индикаторами депрессии (не хочется есть, потеряли интерес к вещам, которые обычно нравятся вам, и т. Д.). Если бы существовали другие виды обычного поведения, которые отмечают человека как депрессивного, которые не были включены в индекс, то индекс имел бы низкую достоверность содержания, поскольку он неадекватно отражал
все аспекты концепции.
Срок действия по критерию
Критерийная валидность применяется к инструментам, которые были разработаны для использования в качестве индикатора конкретной черты или поведения, в настоящее время или в будущем.Например, думайте о тесте по вождению как о социальном измерении, имеющем довольно хорошую прогностическую ценность. Другими словами, успеваемость человека на экзамене по вождению хорошо коррелирует с его / ее способностями к вождению.
Срок действия конструкции
Но для многих вещей, которые мы хотим измерить, не обязательно имеется подходящий критерий. В этом случае обратитесь к построению достоверности, которая касается степени, в которой мера связана с другими мерами, как это определено теорией или предыдущими исследованиями.Суммируется ли мера с другими переменными так, как мы ожидаем? Хороший пример этой формы валидности можно найти в ранних исследованиях самооценки — самоуважение относится к чувству собственного достоинства или самоуважения. Клинические наблюдения в психологии показали, что люди с низкой самооценкой часто страдают депрессией. Таким образом, чтобы установить конструктную валидность измерения самооценки, исследователи показали, что у людей с более высокими показателями самооценки были более низкие показатели депрессии, в то время как у людей с низкой самооценкой были более высокие показатели депрессии.
Сравнение действительности и надежности
Итак, какова взаимосвязь между достоверностью и надежностью? Эти два понятия не обязательно идут рука об руку.

В лучшем случае у нас есть показатель, обладающий одновременно высокой достоверностью и высокой надежностью. Он дает стабильные результаты при повторном применении и точно отражает то, что мы надеемся представить.
Возможно иметь показатель, который имеет высокую надежность, но низкую достоверность — показатель, который соответствует получению неверной информации или последовательному отсутствию оценки.* Также возможно иметь тот, который имеет низкую надежность и низкую валидность — несовместим и не соответствует цели.
Наконец, невозможно иметь меру с низкой надежностью и высокой достоверностью — вы не сможете действительно получить то, что хотите или что вас интересует, если ваша мера сильно колеблется.
4 типа валидности в дизайне исследования (+3 еще для рассмотрения)
Выводы, которые вы делаете на основе своего исследования (будь то анализ опроса, фокус-группы, экспериментальный план или другие методы исследования), полезны только в том случае, если они верны .
Насколько «верны» эти результаты? Насколько хорошо они представляют то, что вы на самом деле пытаетесь изучить? Валидность используется, чтобы определить, измеряет ли исследование то, что оно намеревалось измерить, и приблизить правдивость результатов.
К сожалению, исследователи иногда создают свои собственные определения того, что считается достоверным.
В количественных исследованиях проверка достоверности и надежности является данностью.
Однако некоторые качественные исследователи зашли так далеко, что предположили, что валидность неприменима к их исследованиям, даже если они признают необходимость некоторых квалификационных проверок или мер в своей работе.
Это неправильно. Валидность всегда важна, даже если ее сложнее определить при качественном исследовании.
Игнорирование действительности — значит поставить под сомнение надежность вашей работы и поставить под сомнение уверенность других в ее результатах. Даже когда в исследованиях используются качественные показатели, их необходимо рассматривать с использованием показателей надежности и валидности, чтобы поддерживать достоверность результатов.
Что такое обоснованность в исследовании?
Достоверность — это то, как исследователи говорят о степени соответствия результатов действительности.Методы исследования, количественные или качественные, представляют собой методы изучения реального явления — достоверность означает, какую часть этого явления они измеряют по сравнению с тем, сколько «шума» или несвязанной информации зафиксировано в результатах.
Валидность и надежность определяют разницу между «хорошими» и «плохими» исследовательскими отчетами. Качественное исследование зависит от приверженности тестированию и повышению достоверности, а также надежности результатов ваших исследований.
Любое ценное исследование связано с тем, является ли то, что измеряется, тем, что должно быть измерено, и рассматривает способы, которыми на наблюдения влияют обстоятельства, в которых они проводятся.
Основа того, как мы делаем наши выводы, играет важную роль в рассмотрении более широких вопросов существа любого данного исследования.
По этой причине мы собираемся рассмотреть различные типы валидности, которые были сформулированы как часть законной методологии исследования.
Вот 7 основных типов достоверности исследования:
Срок действия
Срок действия
Срок действия конструкции
Внутренний срок действия
Внешнее действие
Срок действия статистического заключения
Срок действия по критерию
1.Срок действия
Правильность лица — это то, насколько достоверными кажутся ваши результаты в зависимости от того, как они выглядят. Это наименее научный метод достоверности, поскольку он не определяется количественно с помощью статистических методов.
Лицевая действительность не является действительностью в техническом смысле этого слова. Его интересует, кажется ли, что мы измеряем то, что заявляем.
Здесь мы смотрим, насколько достоверная мера кажется на первый взгляд, и на основании этого делаем субъективные суждения.
Например,
Представьте, что вы проводите опрос, который кажется действительным для респондента, и вопросы выбираются, потому что администратору они кажутся действительными.
Администратор спрашивает группу случайных людей, неподготовленных наблюдателей, кажутся ли им эти вопросы верными
В исследованиях никогда не бывает достаточно полагаться только на суждения о лицах — и необходимы более поддающиеся количественной оценке методы проверки достоверности, чтобы сделать приемлемые выводы. Есть много инструментов измерения, которые следует учитывать, поэтому фактическая достоверность полезна в тех случаях, когда вам нужно отличать один подход от другого.
Лицевая валидность никогда не следует доверять самой по себе.
2. Срок действия
Достоверность содержания — это то, охватывает ли мера, используемая в исследовании, все содержание базовой конструкции (то, что вы пытаетесь измерить).
Это также субъективная мера, но в отличие от фактической достоверности мы спрашиваем, охватывает ли содержание меры всю область содержания. Если исследователь хотел бы измерить интроверсию, ему сначала нужно было бы решить, что составляет релевантную область контента для этой черты.
Достоверность контента считается субъективной формой измерения, потому что она по-прежнему полагается на восприятие людей для измерения конструкций, которые в противном случае было бы трудно измерить.
Где достоверность контента отличает себя (и становится полезной), так это за счет привлечения экспертов в данной области или лиц, принадлежащих к целевой группе. Это исследование можно сделать более объективным с помощью строгих статистических тестов.
Например, у вас может быть исследование валидности контента, которое информирует исследователей о том, как элементы, используемые в опросе, представляют их предметную область, насколько они ясны и в какой степени они поддерживают теоретическую факторную структуру, оцененную с помощью факторного анализа.
3. Срок действия конструкции
Конструкция представляет собой набор моделей поведения, которые связаны значимым образом для создания образа или идеи, придуманной для исследовательских целей. Валидность конструкции — это степень, в которой ваше исследование измеряет конструкт (по сравнению с вещами вне конструкции).
Депрессия — это конструкция, которая представляет собой черту личности, которая проявляется в таком поведении, как чрезмерный сон, потеря аппетита, трудности с концентрацией внимания и т. Д.
Существование конструкции подтверждается наблюдением за набором связанных индикаторов. Любой один знак может быть связан с несколькими конструкциями. Человек с трудностями в концентрации может иметь A.D.D. но не депрессия.
Конструктивная валидность — это степень, в которой могут быть сделаны выводы из операционализаций (соединения концепций с наблюдениями) в вашем исследовании к конструкциям, на которых эти операционализации основаны. Чтобы установить достоверность конструкции, вы должны сначала предоставить доказательства того, что ваши данные поддерживают теоретическую структуру.
Вы также должны показать, что управляете операционализацией конструкции, другими словами, показать, что ваша теория имеет некоторое соответствие с реальностью.
Конвергентная достоверность — степень, в которой операция похожа на другие операции, на которую она теоретически должна быть похожа.
Дискриминационная валидность -– если шкала адекватно дифференцирует себя или не различает группы, которые должны различаться или не отличаться на основании теоретических соображений или предыдущих исследований.
Номологическая сеть — представление конструктов, представляющих интерес в исследовании, их наблюдаемых проявлений и взаимосвязей между ними и между ними. Согласно Кронбаху и Милу, номологическая сеть должна быть разработана для меры, чтобы она имела конструктивную валидность
.
Multitrait-Multimethod Matrix — Шесть основных соображений при проверке достоверности конструкции в соответствии с Кэмпбеллом и Фиске. Это включает в себя оценки конвергентной достоверности и дискриминативной достоверности.Остальные — это единица метода черты, несколько методов / черт, действительно другая методология и характеристики черт.
4. Внутренняя действительность
Внутренняя достоверность относится к степени, в которой независимая переменная может быть точно указана для получения наблюдаемого эффекта.
Если эффект зависимой переменной обусловлен только независимой (ыми) переменной (ами), то внутренняя достоверность достигается. Это степень, в которой можно манипулировать результатом.
Другими словами, внутренняя валидность — это то, как вы можете сказать, что ваше исследование «работает» в исследовательской среде.Влияет ли изменяемая вами переменная на изучаемую вами в рамках данного исследования?
Никогда не пропустите запись в блоге
Подпишитесь на блог ActiveCampaign, чтобы получать последние новости о продуктах.
5. Внешнее действие
Внешняя валидность — это степень, в которой результаты исследования могут быть обобщены за пределами выборки. То есть вы можете применить свои выводы к другим людям и окружающим условиям.
Подумайте об этом как о степени обобщения результата.Насколько хорошо результаты исследования применимы к остальному миру?
Лаборатория (или другое место исследования) — это контролируемая среда с меньшим количеством переменных. Внешняя валидность относится к тому, насколько хорошо результаты сохраняются, даже при наличии всех этих других переменных.
6. Срок действия статистического заключения
Достоверность статистического заключения — это определение наличия взаимосвязи или совместной вариации между причинно-следственными переменными.
Этот тип действительности требует:
Обеспечение надлежащих процедур отбора проб
Соответствующие статистические тесты
Надежные методы измерения
Это степень достоверности вывода.
7. Срок действия по критерию
Критериальная валидность (также называемая инструментальной валидностью) — это мера качества ваших методов измерения. Точность меры демонстрируется путем сравнения ее с уже известной мерой.
Другими словами — если ваша мера имеет высокую корреляцию с другими мерами, которые, как известно, действительны из-за предыдущих исследований.
Для того, чтобы это сработало, вы должны знать, что критерий был хорошо измерен.И имейте в виду, что соответствующие критерии существуют не всегда.
Что вы делаете, так это проверяете эффективность вашего ввода в эксплуатацию по критериям.
Критерии, которые вы используете в качестве стандарта суждения, учитывают различные подходы, которые вы бы использовали:
Predictive Validity — способность операционализации предсказать то, что она теоретически способна предсказать. Степень, в которой мера предсказывает ожидаемые результаты.
Concurrent Validity — способность операционализации различать группы, которые она теоретически должна уметь.Здесь тест хорошо коррелирует с показателем, который был ранее проверен.
Когда мы смотрим на достоверность данных опроса, мы спрашиваем, представляют ли данные то, что, по нашему мнению, они должны представлять.
Мы зависим от мышления и отношения респондента, чтобы предоставить нам достоверные данные.
Другими словами, мы зависим от них, чтобы они ответили на все вопросы честно и добросовестно. Мы также зависим от того, смогут ли они ответить на вопросы, которые мы задаем.Когда задаются вопросы, которые респондент не может понять или понять, тогда данные не говорят нам, что, по нашему мнению, они делают.
Надежность и действительность
Надежность и действительность
ИЗУЧЕНИЕ НАДЕЖНОСТИ АКАДЕМИЧЕСКОЙ ОЦЕНКИ
Авторы Колин Фелан и Джули Рен, помощники выпускников, UNI Office of Academic Assessment (2005-06)
Надежность — это степень, в которой инструмент оценки обеспечивает стабильную и стабильные результаты.
Виды надежности
Надежность повторных испытаний мера надежности, полученная путем проведения одного и того же теста дважды в течение период времени для группы лиц. Результаты за время 1 и время 2 затем можно скоррелировать, чтобы оценить тест на стабильность по сравнению с время.

Пример: Тест, предназначенный для оценки успеваемости студентов по психологии, можно сдать группа студентов дважды, вторая администрация, возможно, придет через неделю после первого.Полученный коэффициент корреляции будет указывать на стабильность результатов.
Надежность параллельных форм является мерой надежности, полученной путем администрирования различных версий инструмент оценки (обе версии должны содержать элементы, которые проверяют одинаковые конструкция, навыки, база знаний и т. д.) одной и той же группе лиц. Затем оценки двух версий можно сопоставить, чтобы оценить согласованность результатов в альтернативных версиях.

Пример: Если вы хотите оценить надежность оценки критического мышления, вы можете создать большой набор элементов, относящихся к критическому мышлению и затем случайным образом разделите вопросы на два набора, которые будут представлять параллельные формы.
Межэкспертная надежность — это мера надежности, используемая для оценки степени, в которой разные судьи или оценщики соглашаются в своих оценочных решениях.Межэкспертная надежность полезно, потому что наблюдатели не обязательно интерпретируют ответы на так же; оценщики могут не согласиться с тем, насколько хорошо те или иные ответы или материалы продемонстрировать знание оцениваемого конструкта или навыка.

Пример: Надежность между экспертами может использоваться, когда разные судьи оценка степени соответствия художественных портфелей определенным стандартам. Межэкспертная надежность особенно полезна, когда можно принимать во внимание суждения. относительно субъективно.Таким образом, использование этого типа надежности, вероятно, быть более вероятным при оценке художественных работ, чем при решении математических задач.
Надежность внутренней согласованности это мера надежности, используемая для оценки степени, в которой разные элементы теста, исследующие одну и ту же конструкцию, дают аналогичные результаты.
Среднее межпозиционное корреляция — это подтип надежности внутренней согласованности.это полученный путем взятия всех элементов теста, которые проверяют одно и то же построить (например, понимание прочитанного), определяя корреляцию коэффициент для каждой пары элементов, и, наконец, принимая среднее всех этих коэффициентов корреляции. Этот последний шаг дает среднюю корреляцию между пунктами.

Надежность при разделении половин еще один подтип надежности внутренней согласованности.Процесс получение половинной надежности начинается с разделения пополам всех элементы теста, которые предназначены для исследования той же области знаний (например, Вторая мировая война), чтобы сформировать два набора предметов. Модель весь тест проводится группе лиц, всего вычисляется оценка для каждого набора, и, наконец, надежность разделения половин получается путем определения корреляции между двумя полными наборами оценки.

Срок действия относится к тому, насколько хорошо тест измеряет то, что он должен измерять.
Почему это необходимо?
Хотя надежность необходима, она сама по себе не достаточно. Чтобы тест был надежным, он также должен быть действительным. Для Например, если ваши весы отклонены от нормы на 5 фунтов, они будут считывать ваш вес каждый день с помощью превышение 5 фунтов. Весы надежны, потому что они неизменно показывают одно и то же. веса каждый день, но это недействительно, потому что оно добавляет 5 фунтов к вашему истинному весу. Это неверный показатель вашего веса.
Типы действия
Пример : Если мера искусства признательность создается, все предметы должны быть связаны с разными компоненты и виды искусства.Если вопросы касаются исторического времени периоды, без ссылки на какое-либо художественное движение, заинтересованные стороны не могут быть мотивированы приложить все усилия или инвестировать в эту меру, потому что они Не верю, что это истинная оценка художественной оценки.

2. Срок действия конструкции используется, чтобы гарантировать, что мера действительно измерять то, что он предназначен для измерения (т. е. конструкцию), а не другие переменные. Использование группы экспертов, знакомых с конструкцией, — это способ который может быть оценен этим типом достоверности.Эксперты могут осмотреть предметы и решить, что этот конкретный элемент предназначен для измерения. Студенты могут быть участвуют в этом процессе, чтобы получить их отзывы.
Пример : Женские исследования Программа может разрабатывать кумулятивную оценку обучения по основной специальности. Вопросы написаны со сложной формулировкой и формулировкой. Это может вызвать тест непреднамеренно становится тестом на понимание прочитанного, а не тест женских исследований. Важно, чтобы мера действительно оценивала предполагаемая конструкция, а не посторонний фактор.
3. Действительность, связанная с критерием — это используется для прогнозирования будущих или текущих показателей — коррелирует результаты испытаний с еще один интересующий критерий.
Пример : Если физическая программа разработал меру для оценки совокупного обучения студентов по основной специальности. Новый показатель может быть соотнесен со стандартизированным показателем способностей в эта дисциплина, например полевой тест ETS или предметный тест GRE. Выше соотношение между установленной мерой и новой мерой, тем больше веры заинтересованные стороны могут иметь в новом инструменте оценки.
Пример : При разработке рубрики по истории можно было оценить знания студентов по дисциплине. Если мера может предоставить информацию о том, что учащимся не хватает знаний в определенных области, например Движение за гражданские права, то этот инструмент оценки предоставление значимой информации, которая может быть использована для улучшения курса или программные требования.
5. Срок действия выборки (аналогично достоверность содержания) гарантирует, что мера охватывает широкий диапазон областей в рамках исследуемой концепции.Не все можно покрыть, поэтому предметы необходимо быть отобранным со всех доменов. Возможно, это потребуется выполнить с помощью панели экспертов, чтобы обеспечить адекватную выборку из области содержания. Кроме того, панель может помочь ограничить предвзятость эксперта (т. Е. Тест, отражающий то, что человек лично считает, что это наиболее важные или актуальные области).
Пример : При проектировании оценка успеваемости на театральном факультете, недостаточно покрывают только вопросы, связанные с актерским мастерством.Другие области театра, такие как освещение, звук, должны быть включены все функции режиссеров. Оценка должен полностью отражать область содержимого.
Убедитесь, что ваши цели и задачи четко определены и введены в действие. Ожидания студентов должны быть записано.
Сопоставьте свою меру оценки с ваши цели и задачи. Кроме того, пусть тест будет рассмотрен преподавателями. в других школах, чтобы получить обратную связь от посторонней стороны, которая вложил в инструмент.
Вовлекайте студентов; иметь учащиеся просматривают экзамен на предмет проблемных формулировок или других трудности.
Если возможно, сравните свои измерения с другими показателями или данными, которые могут быть доступны.
Список литературы
Американские исследования в области образования Ассоциация, Американская психологическая ассоциация, &
Национальный Совет по измерениям в образовании. (1985). Стандарты образовательных и психологическое тестирование . Вашингтон, округ Колумбия: Авторы.
Cozby, P.C. (2001). Измерение Концепции. Методы поведенческих исследований (7 ^th ed.).
Калифорния: Издательская компания Мэйфилд.
Кронбах, Л. Дж. (1971). Проверка теста. В Р. Л. Торндайке (Ред.). Образовательный
Измерение (2-е изд.). Вашингтон, округ Колумбия: Американский совет по образованию.
Москаль, Б.М., Лейденс, Дж. А.

О репрезентативности выборки в наглядных примерах

Определение валидности теста

Виды валидности

Надежность и достоверность измерения — Методы исследования в психологии — 2-е канадское издание

Надежность и действительность

4.2 Надежность и достоверность измерения — методы исследования в психологии

Цели обучения

Основные выводы

Упражнения

Что такое валидность в психологии

Что такое валидность?

Что означает валидность в исследованиях?

Что такое внутренняя и внешняя валидность в исследованиях?

Оценка валидности теста

Оценка валидности теста

Что такое фактическая валидность в исследованиях?

Что такое конструктная валидность в исследованиях?

Что такое одновременная валидность в исследованиях?

Что такое прогностическая достоверность в исследованиях?

электронных уроков QMSS | Действительность и надежность

Надежность

Тестирование-повторное тестирование

Срок действия

Сравнение действительности и надежности

4 типа валидности в дизайне исследования (+3 еще для рассмотрения)

Что такое обоснованность в исследовании?

1.Срок действия

2. Срок действия

3. Срок действия конструкции

4. Внутренняя действительность

5. Внешнее действие

6. Срок действия статистического заключения

7. Срок действия по критерию

Надежность и действительность

Добавить комментарий Отменить ответ