Книга Психология развития. Методы исследования, страница 32. Автор книги Скотт Миллер

Разделитель для чтения книг в онлайн библиотеке

Онлайн книга «Психология развития. Методы исследования»

Cтраница 32

В этом разделе, посвященном качеству исследования, остается рассмотреть еще два конструкта, крайне значимых для оценки измерения: надежность и валидность. Надежность характеризует согласованность пли воспроизводимость измерений. Вопрос состоит в следующем: будут ли результаты повторных применений некой методики одинаковы или весьма близки? Чем выше степень согласованности при неоднократном применении, тем выше надежность. Цель измерения всегда заключается в максимизации надежности, Валидность, как и везде, имеет отношение к точности — в данном случае, к точности измерений. Вопрос состоит в том, точно ли отражают полученные в ходе измерения значения изучаемый конструкт, то есть измеряем ли мы именно то, что предполагали измерять? Валидность, очевидно, вопрос, касающийся всего процесса измерения. Это глобальная цель, охватывающая все частные моменты, обсуждавшиеся в данном разделе.

Всегда, когда мы что-либо измеряем, встают вопросы надежности и валидности. Однако на практике эти конструкты чаще всего рассматриваются в их отношении к двум видам измерения: к стандартизованным тестам и к обсервативным оценкам. Стандартизованным тестам и методу наблюдения посвящены оставшиеся разделы этой главы; в контексте этих двух форм измерения я более подробно остановлюсь на вопросах надежности и валидности.

Тесты

Для определения, достойна ли некая измерительная операция называться тестом, не существует общепринятых критериев. В том смысле, в котором данный термин употребляется здесь, это измерительный инструмент, выполняющий функцию оценки ряда важнейших психологических характеристик. Существует множество психологических характеристик и еще больше тестов, претендующих на их измерение; список их включает несколько тысяч наименований (например, Burps, 1978). На страницах этой книги вы встретите ряд примеров: методики оценки темперамента в младенчестве (глава 10), Я-концепции у дошкольников (глава 12), полоролевого развития у старших детей (глава 12) и интеллекта в разные периоды жизни (главы 10, 11 и 13). Приведенные в качестве примера тесты — как и все тесты вообще — различаются по объекту оценки, по возрастным группам, для которых они предназначены, по схеме получения ответов и способам использования результатов тестирования. Однако общим для них всех является то, что они должны отвечать двойному критерию — валидности и надежности.

Валидность

При оценке валидности теста ставится следующий вопрос: измеряет ли тест то, что, как предполагается, он должен измерять? Если это, к примеру, IQ-тест, действительно он измеряет различия в уровне интеллекта или различия показателей испытуемых обусловлены чем-то другим? Очевидно, что недостаточно назвать тест тестом интеллекта, нужны другие критерии. В целом, существует три типа критериев валидности.

Первый — тест должен отвечать требованиям содержательной валидности. Термин содержательная валидность означает адекватность, с которой задания теста характеризуют изучаемое понятие. Включает ли тест все важнейшие аспекты объекта, которые мы хотим измерить, и правильно ли оценивается значение каждого из них? Предположим, наш тест должен оценивать знания арифметики на уровне 4-го класса. Тест, содержащий примеры только на сложение, будет обладать недостаточной содержательной валидностью. Значительно лучшей содержательной валидностью будет обладать тест, включающий репрезентативную подборку задач на сложение, вычитание, умножение и деление.

Добиться содержательной валидности желательно, но это не всегда легко. Даже в отношении такого строго структурированного предмета, как элементарная арифметика, могут возникнуть расхождения, касающиеся адекватности подобранных заданий. К примеру, сколько должно быть примеров с двузначными, а сколько — с трехзначными числами; в какой контекст или в какие контексты должны быть помещены эти примеры? Когда объектом является нечто более сложное, чем элементарная арифметика, добиться содержательной валидности бывает практически невозможно. Как бы ни был широк диапазон подобранных вопросов теста, сомнительно, чтобы с помощью одного контент-анализа можно было бы продемонстрировать полноту и репрезентативность подбора вопросов для оценки любого из возможных аспектов «интеллекта». В таких случаях необходимы другие индексы валидности.

Вторая форма валидности — критериальная валидность. Здесь вопрос состоит в том, связаны ли результаты выполнения теста испытуемым с определенным внешним критерием характеристики, оцениваемой этим тестом. В случае теста на знание арифметики разумным критерием были бы отметки по арифметике за учебный год. Тест, значительно коррелирующий с этими отметками, обладал бы необходимой критериальной валидностью. В случае с интеллектом характерным критерием является возможность с помощью IQ-тестов спрогнозировать уровень школьной успеваемости или успешность выполнения стандартизированных тестов достижения; в действительности, исторически именно потребность в инструментах прогноза школьной успеваемости заставила приступить к разработке первого IQ -теста (тест Симона—Бине, 1905 год). Чаще всего критериальная валидность — это главная форма валидности тестов, основная функция которых состоит

в получении прогностической прагматической оценки. Поэтому именно критериальная валидность лежит в основе использования тестов академических способностей (Scholastic Aptitude Test — SAT) или письменных экзаменов для выпускников (Graduate Record Examinations — GRE) с целью прогноза успеваемости в колледже; использования результатов забега на 40 ярдов с целью прогноза успехов профессиональных футболистов и т. д.

Выделяют две формы критериальной валидности. Тест, коррелирующий с неким наличествующим в данный момент внешним критерием, считается обладающим текущей валидностью. Доказав, к примеру, что IQ, измеряемый во втором классе, коррелирует со школьной успеваемостью во втором классе, мы продемонстрировали бы текущую валидность нашей методики оценки IQ. О тесте, коррелирующем с неким внешним критерием в будущем, говорят, что он обладает прогностической валидностью. Доказав, что IQ, измеренный во втором классе, связан с успеваемостью в старших классах, мы продемонстрировали бы прогностическую валидность.

Последняя форма валидности, которую мы рассмотрим, называется конструкт-ной валидностью. Среди психометристов конструктная валидность считается наиболее важной формой валидности теста. К сожалению, из всех видов валидности исследователю ее труднее всего добиться, а автору учебника — труднее всего разъяснить. Я ограничусь лишь краткими предварительными замечаниями об этом сложном понятии. Более подробное изложение данной темы можно найти во многих источниках, включая работы Кронбах (Croiibach, 1990), Керлингер (Kerlinger, 1986) и Наннэлли (Nunnally, 1978).

Характерной особенностью конструктной валидности является ее теоретическая направленность. Как замечает Керлингер (Kerlinger, 1986), «это не просто вопрос валидизации теста. Необходимо попытаться валидизировать теорию, стоящую за тестом» (р. 420). Исходным пунктом поэтому становится некая концепция конструкта (интеллекта, креативности, Я-концепции, тревожности и т. д.), который мы хотим измерить. На основе этой концепции можно выдвинуть ряд гипотез. Это могут быть гипотезы об эффекте определенного рода экспериментальных манипуляций. Предположим, что мы пытаемся валидизировать некую методику измерения тревожности. Можно выдвинуть гипотезу о том, что повышение напряженности тестовой ситуации приведет к повышению показателя, полученного при помощи данной методики, и наоборот, снижение напряженности приведет к снижению этого показателя. Подобные результаты явились бы свидетельством наличия конструктной валидности.

Вход
Поиск по сайту
Ищем:
Календарь
Навигация