34. Подготовка данных к анализу.
Анализ собранных данных состоит из нескольких этапов:
1.Подготовка данных к анализу. Она включает проверку и редактирование анкет, кодирование.
2. Базовый анализ или табуляция. Некоторые исследования на этих этапах и останавливаются, но во многих случаях анализ продолжается.
3. Проверка статистической значимости наблюдаемых различий между группами и внутри групп.
Применение дисперсионного, корреляционного, факторного и других методов анализа.
Качество статистических результатов напрямую зависит от того, насколько тщательно и аккуратно данные готовились к анализу (рис. 18).
Подготовка данных начинается по мере поступления анкет, в то время как полевые работы еще продолжаются. Если возникнут проблемы, ход полевых работ можно скорректировать в нужном направлении.
Проверка анкет-Редактирование-Кодирование-Преобразование-Очищение данных-Статистическая корректировка данных.
Проверка и редактирование анкет. По мере поступления анкеты проверяются на полноту заполнения, качество интервью, соответствие определенным квотам.
Если в ходе проверки установлено, что: 1) не заполнены отдельные части анкеты; 2) респондент не понял вопросов; 3) ответы не варьируются, например, респондент отметил одни пятерки в серии семибалльных рейтинговых шкал, даже не обратив внимания, что некоторые позиции выражали негативное, а некоторые позитивное отношение респондентов; 4) анкеты неполные - отсутствуют страницы; 5) ответы даны респондентом, не входящим в группу, выделенную для участия в исследовании, то такие анкеты не принимаются.
Редактирование - это обработка анкет, повышающая точность и аккуратность представленной в них информации. Она заключается в просмотре анкет и выявлении нечитабельных, неполных, логически непоследовательных или неоднозначных ответов.
Редактирование может выполняться в две стадии: полевое редактирование и централизованное офисное редактирование.
Полевое редактирование выполняется руководителем полевых работ сразу же после заполнения анкеты, пока конкретные контакты еще свежи в памяти проводивших опрос.
Централизованное офисное редактирование - это более полная и точная проверка и коррекция собранных ответов. Для этой работы нужен опытный сотрудник, обладающий острым глазом. Чтобы повысить качество проверки, все анкеты предоставляются одному человеку. Если объем велик и работу нужно делить между несколькими людьми, то лучше делить по частям анкеты, а не по респондентам: один редактор редактирует часть «А» всех анкет, а другой - часть «В».
Что делать с анкетами неудовлетворительного качества? Их обычно отправляют обратно на место сбора данных для уточнения, либо назначаются пропущенные значения, либо анкеты отбраковываются и не включаются в анализ.
Возврат анкет для уточнения возможен, если выборки небольших размеров и можно идентифицировать респондентов, предоставивших ответы низкого качества.
Назначение пропущенных значений. Если анкету невозможно вернуть для уточнения данных, исследователь может самостоятельно присвоить пропущенные значения. Это возможно в следующих случаях: если количество анкет с неудовлетворительными ответами невелико; доля ответов неудовлетворительного качества в анкете незначительна; переменные по неудовлетворительным ответам не основные.
Некачественные анкеты отбраковываются и не включаются в анализ. Этот способ эффективен в следующих случаях: доля некачественных анкет меньше 10%; размер выборки велик; если «неудовлетворительные» респонденты явно не отличаются от «удовлетворительных» (например, по демографическим признакам, по характеристикам использования товара); доля неудовлетворительных ответов в одной анкете велика; если пропущены ответы по основным переменным. Но бывают случаи когда «неудовлетворительные» респонденты отличаются от «удовлетворительных». В этих случаях использование данного метода повлечет за собой искажение данных. Если принимается решение отбраковать анкеты, то исследователь должен пояснить на основании чего это делается.
Кодирование — это процедура присвоения цифрового кода каждому возможному варианту ответа по каждому вопросу.
Если анкета включает только структурированные вопросы или небольшое количество неструктурированных вопросов, она кодируется заранее во время разработки.
Если же анкета содержит в основном неструктурированные вопросы, коды присваиваются после того, как заполненные анкеты возвращаются с места сбора данных. Исследователь составляет список наиболее часто повторяющихся вариантов ответов на неструктурированные вопросы, определяет категории, подлежащие кодированию. Категории должны быть взаимоисключающими и взаимоисчерпывающими. Затем для них разрабатываются коды, которые и присваиваются конкретным ответам. Категории считаются взаимоисчерпывающими, если каждый ответ соответствует одному из кодов. Этого можно достичь введением дополнительного кода категории, например, «другое», «ни один из предложенных вариантов», но в такие категории должна войти незначительная часть ответов (не более 10 %). По наиболее важным вопросам коды категорий должны присваиваться даже в том случае, если нет ни одного ответа респондентов. Иногда важно знать именно то, что никто из отвечающих не дал тот или иной вариант ответа.
Кроме присвоения цифровых кодов вопросам и ответам, при процедуре кодирования необходимо выполнять следующие рекомендации:
• кодировать каждую анкету (респондента);
• для каждого респондента следует включать дополни
тельные коды: код проекта, код даты и времени.
Исследователю необходимо подготовить кодировочную книгу - инструкцию по кодированию переменных.
Преобразование данных заключается в переносе закодированных данных из анкеты в компьютер. Данные вводятся через клавиатуру или оптическим сканированием. Пример - преобразование штрих-кода при считывании его в кассах супермаркетов.
Очищение данных заключается в проверке состоятельности собранных данных и работе с пропущенными ответами.
Предварительная проверка состоятельности собранных данных проводится на этапе редактирования, но на этом этапе она точнее и тщательнее, так как проводится с использованием компьютерной техники. Проверка состоятельности данных позволяет выявить:
- данные, выходящие за пределы определенного диапазона;
- логически непоследовательные ответы;
- экстремальные значения.
Если обнаружены данные с такими ошибками, их нельзя использовать в анализе, тогда по возможности, их исправляют.
Существует несколько методов работы с пропущенными ответами.
1. Замена пропущенного значения нейтральным (средним).
2.Замена пропущенного значения условным (вменение значений). Используется, если по структуре ответов на другие вопросы можно определить или вычислить ответы на пропущенные. Очень трудоемок и нередко серьезно искажает данные.
3. Исключение объекта целиком.
4. Попарное исключение переменных. Анкеты с пропущенными значениями не отбраковываются автоматически. В вычислениях учитываются анкеты, по которым есть полные ответы; в результате разные вычисления в ходе анализа основываются на разных
размерах выборок. Такая процедура обычно применяется в следующих случаях: если размеры выборки велики, если количество пропущенных ответов незначительно, если переменные не сильно взаимосвязаны.
Статистическая корректировка данных включает взвешивание, преобразование переменной и преобразование шкалы. Все эти корректировки необязательны, но их применение может значительно повысить качество анализа.
Взвешивание. Каждому респонденту присваивается весовой коэффициент, отражающий степень его значимости по сравнению с другими. Значение 1 применяется для обозначения респондента с отсутствием весового коэффициента. Цель взвешивания - увеличить или уменьшить в выборке количество наблюдений с определенными характеристиками:
• повысить значимость респондентов, по опросам которых были собраны данные более высокого качества, чем по другим;
• повысить значимость ответов респондентов, которые чаще других используют продукцию. Это достигается присвоением весового коэффициента 3 тем покупателям, которые покупают товар чаще всех, коэффициента
2 - тем, кто пользуется им в средних пределах, 1 - тем, кто приобретает редко.
Метод следует применять с огромной осторожностью, поскольку он разрушает саму природу самовзвешенности любого выборочного обследования. Если метод используется, то процедура взвешивания тщательно документируется и составляется соответствующая часть отчета.
Переопределение переменной. Преобразование данных для создания новых переменных или изменения существующих с тем, чтобы они точнее соответствовали основным задачам исследования.
Преобразование шкалы измерений. Манипулирование значениями шкалы для того, чтобы иметь возможность сравнивать ее с другими шкалами.