МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ И СОЦИАЛЬНОГО
РАЗВИТИЯ
РОССИЙСКОЙ ФЕДЕРАЦИИ
ФЕДЕРАЛЬНАЯ СЛУЖБА ПО НАДЗОРУ В СФЕРЕ ЗАЩИТЫ
ПРАВ ПОТРЕБИТЕЛЕЙ И БЛАГОПОЛУЧИЯ ЧЕЛОВЕКА
ПРИКАЗ
от 20 сентября 2010 г. N 341
ОБ УТВЕРЖДЕНИИ МЕТОДИЧЕСКИХ РЕКОМЕНДАЦИЙ
ПО СОЦИАЛЬНО-ГИГИЕНИЧЕСКОМУ МОНИТОРИНГУ
В соответствии с Планом основных
организационных мероприятий Федеральной службы по надзору в сфере защиты прав
потребителей и благополучия человека на 2010 год, в целях совершенствования
государственной системы социально-гигиенического мониторинга приказываю:
1. Утвердить Методические рекомендации
"Социально-гигиенический мониторинг. Анализ медико-демографических и
социально-экономических показателей на региональном уровне" (Приложение).
2. Руководителям Управлений
Роспотребнадзора по субъектам Российской Федерации, главным врачам ФГУЗ
"Центр гигиены и эпидемиологии в субъектах Российской Федерации"
использовать Методические рекомендации при проведении социально-гигиенического мониторинга.
3. Контроль за исполнением Приказа
возложить на заместителя руководителя Федеральной службы по надзору в сфере
защиты прав потребителей и благополучия человека Н.В. Шестопалова.
Руководитель
Г.Г.ОНИЩЕНКО
Приложение
Утверждены
Приказом Роспотребнадзора
от 20 сентября 2010 г. N 341
ГОСУДАРСТВЕННОЕ САНИТАРНО-ЭПИДЕМИОЛОГИЧЕСКОЕ
НОРМИРОВАНИЕ РОССИЙСКОЙ ФЕДЕРАЦИИ
2.1.10. СОСТОЯНИЕ ЗДОРОВЬЯ НАСЕЛЕНИЯ В СВЯЗИ С СОСТОЯНИЕМ
ОКРУЖАЮЩЕЙ СРЕДЫ И УСЛОВИЯМИ ПРОЖИВАНИЯ НАСЕЛЕНИЯ
СОЦИАЛЬНО-ГИГИЕНИЧЕСКИЙ МОНИТОРИНГ.
АНАЛИЗ МЕДИКО-ДЕМОГРАФИЧЕСКИХ И СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ
ПОКАЗАТЕЛЕЙ НА РЕГИОНАЛЬНОМ УРОВНЕ
МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ
1. Разработаны Федеральной службой по
надзору в сфере защиты прав потребителей и благополучия человека, Управлением
Роспотребнадзора по Омской области, ГОУ ВПО Омская государственная медицинская
академия Росздрава, Омским филиалом Института математики СО РАН.
2. Рецензент: В.Л. Стасенко, заведующий
кафедрой эпидемиологии Омской государственной медицинской академии, доктор
медицинских наук, профессор.
3. Утверждены руководителем Федеральной
службы по надзору в сфере защиты прав потребителей и благополучия человека Г.Г.
Онищенко 20 сентября 2010 года.
4. Введены в действие с 20 сентября 2010
года.
1. ОБЛАСТЬ
ПРИМЕНЕНИЯ
Настоящие Рекомендации представляют собой
алгоритм действий по сбору, статистическому анализу и интерпретации информации
по медико-демографической и социально-экономической ситуации на территории в
рамках социально-гигиенического мониторинга.
Мониторинг медико-демографической
ситуации является основной частью социально-гигиенического мониторинга,
поскольку дает представление о результирующих показателях деятельности служб и
ведомств. С учетом медико-демографической ситуации организуется ведение других
разделов мониторинга (Социально-экономическое состояние территории, Атмосферный
воздух населенных мест и др.).
Рекомендации предназначены для
специалистов социально-гигиенического мониторинга органов и организаций
Федеральной службы по надзору в сфере защиты прав потребителя и благополучия
человека.
2. ОСНОВНЫЕ ТЕРМИНЫ
И СОКРАЩЕНИЯ
2.1. Основные термины.
Анализ (от греч. analisis - разложение) -
1) расчленение (мысленное или реальное) объекта на элементы, неразрывно связан
с синтезом (соединением элементов в единое целое); 2) синоним научного
исследования вообще.
Генеральная территория - наиболее крупное
в данный момент территориальное образование, с показателями которого проводится
сравнение данных. Например, по отношению к федеральным округам и регионам
России генеральной является Российская Федерация, по отношению к
административным районам - регион России.
Графический анализ - анализ, проводимый
на основе визуальной информации (диаграммы, картограммы).
Здоровье - состояние полного физического,
душевного и социального благополучия человека, а не только отсутствие болезни
или анатомических дефектов.
Интерпретация результатов статистического
анализа - осмысление, получение качественного результата, вывода.
Социально-гигиенический мониторинг -
государственная система наблюдений за состоянием здоровья населения и среды
обитания, их анализа, оценки и прогноза, а также определения
причинно-следственных связей между состоянием здоровья населения и воздействием
факторов среды обитания.
Стандартизация данных - приведение данных
к определенному стандарту, дающая возможность их корректного сравнения и
проведения некоторых видов анализов (факторного, кластерного).
Статистический эксперимент - эксперимент,
осуществляемый на основании статистических данных методами математической
статистики.
Статистическая значимость результата
(p-уровень) - оцененная мера уверенности в "истинности" результата
представляет собой вероятность ошибки, связанной с распространением
наблюдаемого результата на всю популяцию. Например, p-уровень = 0,05 (т.е.
1/20) показывает, что имеется 5% вероятность, что найденная в выборке связь
между переменными является лишь случайной особенностью данной выборки. p = 0,05
рассматривается как "приемлемая граница" уровня ошибки. Значение уровня
значимости следует приводить с точностью до трех знаков за запятой (как =
0,000..., а не < 0,05).
Переменные - это то, что можно измерять,
контролировать или изменять в анализе.
Персентиль (Р) - непараметрическая мера
разброса данных вариационного ряда, когда минимальному значению в ряду
присваивается значение Р0, а максимальному - Р100. Серединой ряда является
медиана - Р50. Если ряд делится на пять равных частей, части называются
квинтили, на четыре равные части - квартили, на десять равных частей - децили.
Этот метод часто используется для разработки границ статистической нормы.
Регионально-ориентированные
профилактические программы - программы профилактики, учитывающие местные
особенности здоровья населения и среды обитания.
Региональный информационный фонд данных
социально-гигиенического мониторинга (РИФ СГМ) - база данных о состоянии
здоровья населения и среды обитания человека, сформированная на основе
постоянных системных наблюдений в субъекте Российской Федерации, а также
совокупность нормативных правовых актов и методических документов, утвержденных
в установленном порядке, для гигиенической оценки (диагностики) влияния
факторов среды обитания на здоровье населения.
Ряд данных - упорядоченный перечень
данных. Выделяют вариационный ряд (один признак, характеристика, одна
переменная совокупности объектов) и динамический ряд, характеризующий изменение
одного признака одного объекта во времени.
Санитарно-эпидемиологическое благополучие
населения - состояние здоровья населения, среды обитания, при котором
отсутствует вредное воздействие факторов среды обитания на человека и
обеспечиваются благоприятные условия его жизнедеятельности.
Совокупность статистическая -
совокупность объектов или явлений общественной жизни, характеризующаяся
наличием некоторых общих признаков. В социально-гигиеническом мониторинге это
чаще всего перечень регионов, муниципальных образований, населенных пунктов и
др. объектов мониторирования.
Социально-гигиенический мониторинг - это
государственная система наблюдений за состоянием здоровья населения и среды
обитания, их анализа, оценки и прогноза, а также определения
причинно-следственных связей между состоянием здоровья населения и воздействием
факторов среды обитания.
Среда обитания человека (далее - среда
обитания) - совокупность объектов, явлений и факторов окружающей (природной и
искусственной) среды, определяющая условия жизнедеятельности человека.
Федеральный информационный фонд данных
социально-гигиенического мониторинга (ФИФ СГМ) - база данных о состоянии
здоровья населения и среды обитания человека, сформированная на основе
постоянных системных наблюдений, а также совокупность нормативных правовых
актов и методических документов по вопросам анализа, прогноза и определения
причинно-следственных связей между состоянием здоровья населения и воздействием
факторов среды обитания человека.
Символы.
"*" - знак умножения
"/" - знак деления
"|" - знак модуля.
3. НОРМАТИВНЫЕ ССЫЛКИ
1. Федеральный закон от 30 марта 1999 г.
N 52-ФЗ "О санитарно-эпидемиологическом благополучии населения" (с
изменениями и дополнениями от 30 декабря 2001 г., 10 января, 30 июня 2003 г.,
22 августа 2004 г., 9 мая, 31 декабря 2005 г., 29 декабря 2006 г.).
2. Закон Российской Федерации от
21.07.1993 N 5485-1 "О государственной тайне" (с изменениями).
3. Методические рекомендации N 2001/83 от
25.05.2001 "Методика проведения социально-гигиенического
мониторинга".
4. Методические рекомендации "О
разработке предложений для принятия управленческих решений в области
обеспечения санитарно-эпидемиологического благополучия по результатам
социально-гигиенического мониторинга" (утв. Приказом Роспотребнадзора от
29.09.2008 N 342).
5. Основы законодательства Российской
Федерации "Об охране здоровья".
6. Постановление Правительства Российской
Федерации от 2 февраля 2006 г. N 60 "Об утверждении Положения о проведении
социально-гигиенического мониторинга".
7. Постановление Правительства Российской
Федерации от 30 июня 2004 г. N 322 "Об утверждении Положения о Федеральной
службе по надзору в сфере защиты прав потребителей и благополучия
человека".
8. Приказ Роспотребнадзора от 30 декабря
2005 г. N 810 "О перечне показателей и данных для формирования
федерального информационного фонда социально-гигиенического мониторинга".
4. ОБЩИЕ ПОЛОЖЕНИЯ
Медико-демографическая ситуация является
в последние годы объектом самого пристального внимания Президента и
Правительства в виду возрастающей депопуляции в России. По сути, деятельность
всех служб и ведомств в государстве может быть оценена медико-демографическими
показателями. Уменьшение численности россиян и трудовых ресурсов, рост
смертности, снижение рождаемости, постарение нации инициируют самые мрачные
прогнозы в отношении стратегического развития страны. Известна высокая
информативная значимость медико-демографических показателей в отношении влияния
факторов среды обитания различной природы - физических, химических,
биологических и социально-экономических. Ввиду вышеизложенного анализ
медико-демографической ситуации имеет первостепенное значение в рамках
социально-гигиенического мониторинга.
Многими научными исследованиями показана
основная роль социально-экономических факторов среды обитания в ухудшении
медико-демографической ситуации в стране, чем и объясняется введение в
Федеральный информационный фонд раздела "Сведения о
социально-экономическом состоянии территории".
На данном этапе развития
социально-гигиенического мониторинга задачей первостепенной важности является
анализ накопленных информационных массивов и получение результата многолетней
деятельности по организации системы социально-гигиенического мониторинга и сбору
данных в виде регионально-ориентированных профилактических программ. Несмотря
на разработанные методические подходы к анализу медико-демографической
ситуации, для практики социально-гигиенического мониторинга он все еще
представляет определенные трудности ввиду отсутствия в штатах Роспотребнадзора
подготовленных статистиков-аналитиков и специально разработанных технологий.
Настоящие Методические рекомендации призваны отчасти заполнить эти пробелы.
Настоящие Рекомендации представляют собой
последовательную технологию обработки и анализа баз данных. Каждый элемент
технологии представлен отдельным разделом настоящих указаний. Каждый раздел, в
свою очередь, описан по единому образцу: 1. Введение в анализ - 2. Задачи
анализа - 3. Ход работы на примерах - 4. Примечания (в случае необходимости). В
примерах приведены результаты собственных исследований медико-демографической и
социально-экономической ситуации в регионах Российской Федерации и на
территории отдельного Региона по показателям Федерального информационного фонда
социально-гигиенического мониторинга. Использованы официальные данные
Федеральной службы статистики. Проведение статистического анализа данных
предполагается в доступных форматах Microsoft Excel и пакет прикладных программ
Statistica.
В процессе реализации анализа данных
должны быть решены следующие задачи: 1) установлены основные пространственные и
временные закономерности изменения медико-демографических
(социально-экономических) показателей на территории; 2) определены территории
риска по медико-демографической (социально-экономической) ситуации в общей
совокупности территорий; 3) дана оценка качества статистики по
медико-демографическим показателям; 4) выявлены причины (условия) формирования
той или иной медико-демографической ситуации в регионе (районе), ведущие
социально-экономические факторы, способствующие ухудшению
медико-демографической ситуации; 5) сформулированы основные направления
регионально-ориентированных профилактических программ.
Следует учесть необходимость изучения
более полных учебных пособий по статистическому анализу и постоянных
консультаций со специалистами в области медицинской статистики.
5. СБОР ДАННЫХ.
ФОРМИРОВАНИЕ БАЗЫ ДАННЫХ
5.1. Введение.
Сбор данных является одним из основных
разделов деятельности специалистов исходя из задач социально-гигиенического
мониторинга. Сбор данных должен осуществляться параллельно с формированием базы
данных.
База данных - упорядоченный массив чисел,
электронная таблица вида m х n, где m - число строк и n - число столбцов. База
данных играет решающую роль в анализе и его результатах, отражает план и
потенциал работы. От качества базы данных зависят точность результатов и
достоверность выводов, полученных в результате ее статистической обработки.
Строки базы данных - это, как правило, наименования
единиц совокупности, включенных в анализ (фамилии участников групп, номера
животных, административные территории и др.). На языке статистики единицы
совокупности называются случаями. Чем больше случаев, тем больше численность
выборки, что имеет решающее значение для значимости результатов. Так,
результаты корреляционного анализа на выборке численностью менее 10 весьма
сомнительны.
Столбцы - это те характеристики
совокупности, которые решено изучить (заболеваемость, смертность, численность и
плотность населения, удельный вес жителей села, характеристики загрязнения и
проч.; для выборки, состоящей из людей, - это пол, возраст и т.п.). На языке
статистики характеристики совокупности называются переменные.
5.2. Задачи.
База данных предназначена для накопления,
структурирования, обработки с помощью компьютера и хранения информации. С
использованием базы данных проводится анализ, оценка и прогноз ситуации на
основе определения причинно-следственных связей между состоянием здоровья
населения и воздействием факторов среды обитания с последующей разработкой мер
профилактики.
5.3. Ход работы.
1. ШАГ. Сформировать макет базы данных с
названиями строк и столбцов. Первичная база данных должна включать всю
совокупность регионов или муниципальных образований, выделяемых Федеральной
службой статистики (названия строк), и весь перечень медико-демографических и
социально-экономических показателей, определенных Приказом N 810 от 30 декабря
2005 г. "О перечне показателей и данных для формирования федерального информационного
фонда социально-гигиенического мониторинга".
2. ШАГ. Сформировать перечень полных и
кратких названий мониторируемых показателей (столбцов базы данных). Краткие
названия необходимы для обозначения показателей в электронных таблицах, где
объем названия ограничен по техническим причинам (табл. 1).
Таблица 1
ФРАГМЕНТ ПЕРЕЧНЯ НАИМЕНОВАНИЙ
БАЗЫ МЕДИКО-ДЕМОГРАФИЧЕСКИХ ДАННЫХ
N
|
Наименование
показателя
|
Полное
|
Краткое
|
1
|
Общий коэффициент
рождаемости, среднее
хронологическое значение за 2006 г., на 1000
человек населения
|
Рождаемость,
2006
|
2
|
Общий коэффициент
смертности, среднее
хронологическое значение за 2006 г., на 1000
человек населения
|
Смертность,
2006
|
3
|
Коэффициент
младенческой смертности (число
детей, умерших в возрасте до 1 года), среднее
хронологическое значение за 2006 г., на 1000
родившихся живыми
|
Младенческая
смертность,
2006
|
3. ШАГ. Сформировать базу данных в
формате Microsoft Excel вручную либо вставляя табличные данные из Microsoft
Word или других программ.
4. ШАГ. Следует избегать пробелов базы
данных. В некоторых случаях пустые клетки могут быть заполнены путем введения
средних величин по совокупности, за период, либо за два соседних периода.
5. ШАГ. Проверить правильность
формирования базы данных методом графического анализа. Следует построить
точечную диаграмму, используя функции Мастер диаграмм Microsoft Excel -
Точечная (рис. 1 - здесь и далее рисунки не приводятся). В случае получения
сильно отличающихся от основного массива данных, как на рисунке 1, следует
проверить эти данные в источнике исходной информации.
6. ШАГ. Сформировать ту же базу данных в
формате пакета прикладных программ Statistica <1>, используя опцию
Открытие. В окне Тип файлов выбрать Все, найти и открыть нужный файл Microsoft
Excel - Импортировать выбранный лист в электронную таблицу. Выбрать нужный
лист, отжать флажки Получить имена случаев и Получить имена переменных. Нажать
ОК.
--------------------------------
<1> Безусловно, анализ можно
проводить и в других пакетах прикладных программ статистического анализа
данных. В данных Рекомендациях приведены примеры в формате Statistica с целью
сохранения возможности приведения пошаговых инструкций, способствующих
воспроизведению анализа.
7. ШАГ. В базе данных формата Statistica
ввести полные наименования показателей в окне Переменные, которое должно быть
получено двойным щелчком на названии столбца (кратком наименовании) (рис. 2).
8. ШАГ. Организовать хранение исходной
базы в неизменном виде, все виды анализа проводить в копиях базы данных.
9. ШАГ. Руководителям отделов
социально-гигиенического мониторинга вести личный контроль за ведением и
хранением баз данных.
6. ОПИСАТЕЛЬНАЯ
СТАТИСТИКА
6.1. Введение в анализ.
Описательная статистика - комплекс
базовых приемов анализа данных вариационного ряда, дающий наиболее общее
представление о распределении той или иной характеристики в изучаемой
совокупности.
Этапы анализа распределения: 1) расчет
параметров описательной статистики (распределения); 2) графический анализ
графика распределения (гистограммы) с визуальной оценкой смещения центра
распределения ряда; 3) расчет критериев нормальности распределения.
Параметры описательной статистики
(распределения): среднее арифметическое, ошибка среднего, медиана (срединное
значение вариационного ряда), мода (наиболее частое значение ряда), стандартное
отклонение (мера вариабельности данных в ряду), минимум (минимальное значение в
ряду), максимум (максимальное значение в ряду), счет (количество членов ряда).
Гистограмма - столбиковая диаграмма,
позволяющая судить о том, сколько элементов совокупности попало в тот или иной
диапазон значений.
Асимметрия - смещение центра, вершины
гистограммы в горизонтальном отношении (вправо - влево), эксцесс - в
вертикальном (вверх - вниз) относительно колоколообразной формы нормального
распределения.
Критерии нормальности - критерии,
позволяющие оценить характер распределения, значимость его отклонения от
нормального: хи-квадрат, критерий Колмогорова-Смирнова, W критерий Шапиро-Уилка.
Значение p < 0,05 критерия указывает на значимое отклонение распределения от
нормального и предпочтение непараметрических методов статистического анализа
(хи-квадрат, ранговую корреляцию и др.).
6.2. Задачи анализа.
Описательная статистика позволяет
получить первое, общее представление, например, о том или ином
медико-демографическом показателе на подведомственной территории. Числовые и
визуальные результаты описательной статистики позволяют также решить вопрос
выбора параметрических или непараметрических методов дальнейшего анализа
данных. Описательная статистика обладает самостоятельным значением и
обязательна для применения в медико-демографических и социально-экономических
исследованиях.
6.3. Ход работы.
Пример. Требуется изучить рождаемость среди
населения в муниципальных образованиях Региона за 2008 г.
1. ШАГ. В файле Microsoft Excel
сформировать вариационный ряд: в столбце А - названия районов Региона, в
столбце Б - значения рождаемости в этих районах, на 100 тыс. (рис. 3 А).
2. ШАГ. Рассчитать на основе этого ряда
числовые параметры описательной статистики, применив соответствующие
статистические функции: среднее арифметическое (СРЗНАЧ), значения медианы
(МЕДИАНА), мода (МОДА), стандартное отклонение (СТАНДОТКЛОН), минимального и
максимального значений ряда (МИН, МАХ), размера совокупности (СЧЕТ). Например,
рассчитать медиану следует путем введения в окно формул со значком f на панели
инструментов формулы =МЕДИАНА(B2:B30) (рис. 3 А).
3. ШАГ. В случае необходимости анализа
нескольких медико-демографических характеристик расчеты следует проводить в ППП
Statistica. Там же следует построить гистограмму и рассчитать критерии
нормальности всех медико-демографических характеристик путем применения опции
Основные статистики - Описательная статистика - Расширенный анализ -
Нормальность - Гистограмма (рис. 3 Б).
4. ШАГ. Проанализировать результаты.
ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ. В Регионе в 2008
г. рождалось в среднем 12 детей на 100 тыс. населения (точнее 11,7). Показатели
рождаемости в 29 районах региона колебались от 9,1 (минимум) до 14,8
(максимум). Стандартное отклонение составило 1,27, ошибка средней - 0,24.
Значение медианы практически совпало с таковым среднего значения
(соответственно 11,6 и 11,7), что указывает на нормальный характер
распределения показателей рождаемости в изучаемой совокупности районов Региона.
Нормальный характер распределения подтверждается также с помощью критерия
Шапиро-Уилка: уровень значимости p > 0,05 (рис. 3 Б). Судя по гистограмме,
наиболее часто показатели рождаемости в Регионе регистрировались в диапазоне от
11 до 12: такие цифры отмечены в девяти районах области. В диапазон от 10 до 11
вошли значения восьми районов. В семи районах значения рождаемости от 12 до 13
детей на 100 тыс., в трех - от 13 до 14, и по одному - в диапазонах от 9 до 10
и от 14 до 15. То есть выше среднего значения в 11 районах области (7 + 3 + 1),
ниже среднего - в девяти (8 + 1). Таким образом, показатели рождаемости в
Регионе имеют нормальное распределение, что позволяет их обрабатывать в
дальнейшем с помощью параметрических методов.
Примечания.
Существуют определенные правила ввода
формул в Microsoft Excel: все формулы в Microsoft Excel начинаются со знака
"="; не следует допускать лишних пробелов, знаков препинания; нельзя
путать знаки препинания, например запятую и точку с запятой; названия функций
писать по-русски, а диапазоны обозначать английскими буквами (диапазоны лучше
выделять мышкой).
Следует всегда проверять формулы,
поставив курсор сразу после формулы в окне со значком fx на панели инструментов.
При этом формула в окне должна быть неизменна, ссылка должна занимать нужный
диапазон, а меняться должно только значение конкретного элемента совокупности.
Обращать также внимание на диапазон, сравнивая выделение соответствующих
элементов разными цветами в формуле и на листе. Неопытному пользователю следует
посоветовать пользоваться услугами Функция в меню Вставка и изучать
детальнейшую Справку Microsoft Excel.
7. СРАВНЕНИЕ
ДАННЫХ. МЕТОДЫ СРАВНЕНИЯ ГРУПП
7.1. Введение в анализ.
Методы сравнения групп являются
классическими и наиболее распространенными методами сравнения данных. Группами
в случае мониторинга медико-демографических показателей будут совокупности
районов двух регионов, разных территорий региона, объединенных по какому-либо
признаку и т.д.
Существует довольно много методов
сравнения групп. Все они основаны на применении т.н. нулевой гипотезы (о том,
что различия между группами не значимы, не существенны) и определении ее
справедливости. Если вероятность получить наблюдаемые или более сильные
различия в повторных выборках мала (максимально приемлемая вероятность ее
отвергнуть - уровень значимости p = 0,05), то нулевая гипотеза отвергается, то
есть различия между группами значимы.
Один из основных методов оценки различий
между группами - дисперсионный анализ, основанный на сравнении разброса
выборочных средних в группах с разбросом значений внутри группы с помощью
дисперсии и расчета критерия F. Разновидностью дисперсионного анализа в случае
сравнения двух групп является t-критерий, который также имеет варианты -
сравнение независимых групп (например, в случае сравнения рождаемости в
совокупностях районов двух регионов) и сравнение зависимых групп (например, в
случае сравнения рождаемости в районах области в 1990 г. и в 2006 г.).
Непараметрическими аналогами
дисперсионного анализа и t-критерия являются в случае сравнения двух
независимых групп критерий Манна-Уитни, нескольких независимых групп - критерий
Крускала-Уоллиса, двух зависимых групп - критерий Уилкоксона.
Расчет этих критериев следует проводить
на базе Statistica с применением опций Основные статистики (t-критерий), ANOVA
(дисперсионный анализ) и Непараметрические методы (критерии Манна-Уитни,
Крускала-Уоллиса, Уилкоксона). Все опции предполагают также графический анализ
данных.
7.2. Задачи анализа.
Сравнение данных с указанием значимости
различий - основа статистического анализа данных. Только таким образом можно
оценивать, насколько случайны различия между группами, следует ли принимать во
внимание различия, являются ли они следствием влияния каких-то важных факторов.
7.3. Ход работы.
Пример 1. Требуется сравнить показатели
заболеваемости детей в возрасте 0 - 14 лет и заболеваемости подростков в
возрасте 15 - 17 лет в районах Региона в 2008 г.
1. ШАГ. В файле Statistica сформировать
базу данных вида m х n, где m - перечень районов Региона, а n - переменные
Заболеваемость детей и Заболеваемость подростков.
2. ШАГ. Провести оценку распределения по
алгоритму, приведенному в предыдущем разделе. Убедиться, что обе переменные
распределены нормально.
3. ШАГ. Провести расчеты t-критерия,
применив опции Статистика - Основные статистики - t-тест для зависимых выборок.
В результате будет получена таблица с итогами расчетов (табл. 2).
Таблица 2
РЕЗУЛЬТАТЫ РАСЧЕТА t-КРИТЕРИЯ В ФОРМАТЕ
STATISTICA
ПРИ СРАВНЕНИИ ЗАБОЛЕВАЕМОСТИ ДЕТЕЙ И ПОДРОСТКОВ В
РЕГИОНЕ
|
Среднее
значение
|
Стандартное
отклонение
|
t
|
p
|
Заболеваемость
детей
|
106861,2
|
25709,42
|
|
|
Заболеваемость
подростков
|
83580,9
|
26572,76
|
6,85
|
0,000
|
4. ШАГ. Проанализировать результаты.
ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ. В 2008 г.
заболеваемость детей в возрасте 0 - 14 лет существенно превысила уровень
заболеваемости подростков в возрасте 15 - 17 лет (соответственно 106861,2 +/-
25709,42 и 83580,9 +/- 26572,76 на 100 тыс. населения соответствующего
возраста, t = 6,85, p = 0,000...) (табл. 2).
Пример 2. Требуется сравнить показатели
рождаемости среди населения в 2008 г. в районах Региона, отнесенных к четырем
природно-климатическим зонам - северной, северной лесостепи, южной лесостепи,
степной.
1. ШАГ. В файле Statistica сформировать
базу данных вида m х n, где m - перечень районов Региона, а n - две переменные:
Географ и Рождаемость. Обратить внимание на группирующую переменную Географ.
Она имеет ключевое значение для анализа, так как таким образом автор дает
понять программе Statistica, на какие же группы разделена совокупность. В
данном случае совокупность разделена на четыре группы - зоны Региона согласно
делению, принятому официально: 1 - северная зона, 2 - северная лесостепь, 3 -
южная лесостепь, 4 - степная.
2. ШАГ. Провести расчеты критерия
Краскела-Уоллиса, применив опцию Статистика - Непараметрические методы -
Независимые выборки. Выбрать переменные в окне Переменные: как группирующую -
переменную Географ, как зависимую - переменную Рождаемость. В результате будет
получена таблица с итогами расчетов: H(3, N = 32) = 8,8707, p = 0,031.
3. ШАГ. Для визуализации результатов
применить опцию Объемно-точечная диаграмма (рис. 4).
4. ШАГ. Проанализировать результаты.
ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ. В 2008 г.
рождаемость среди населения южной половины области существенно превысила
таковую на севере Региона (H = 8,87, p = 0,031). Максимальные средние уровни
отмечены в районах южной лесостепи, минимальные - в северной лесостепи.
Наименьшая вариабельность данных отмечена в степной зоне, зоне северной
лесостепи, максимальная - в южной лесостепи и северной зоне.
8. СРАВНЕНИЕ
ДАННЫХ. КАРТОГРАФИЧЕСКИЙ АНАЛИЗ
8.1. Введение в анализ.
Картографический анализ данных является
разновидностью географических методов исследования, которые применяют для
количественной и качественной характеристик объектов внешней среды на
территории больших регионов. Картографический анализ данных на современном
уровне позволяют провести геоинформационные системы.
Современные геоинформационные системы
предлагают ряд других способов - совокупность может быть разделена на квартили
(4 равных интервала, табл. 2), квинтили (5 равных интервалов), по методу
персентилей (вводятся другие значения Р), по сигмальному методу (использовать в
случае нормального распределения данных) и вручную, когда для обозначения
границ интервалов имеется возможность вводить любые цифры. В случае отсутствия
соответствующих функций в геоинформационной системе значения границ интервалов
рассчитать для каждого класса болезней и ввести вручную.
8.2. Задачи анализа.
Картографический анализ данных позволяет
визуально получить представление о распространении того или иного явления на
территории, выделить территории риска. В ряде случаев в результате
картографического анализа данных возможна формулировка гипотез о факторах,
способствующих формированию изучаемого явления.
8.3. Ход работы.
Пример. Требуется провести
картографический анализ инвалидности детей в регионах России с выделением
медико-географических закономерностей ее формирования и территорий риска по той
или иной нозологической форме.
1. ШАГ. Сформировать базу данных вида m х
n, где m - перечень регионов страны, а n - инвалидность детей вследствие разных
болезней (17 классов болезней).
2. ШАГ. Для всех классов болезней по
методу персентилей рассчитать границы четырех интервалов (квартилей), на
которые будет разделена совокупность регионов в процессе построения карт:
интервал низких значений - Р0 - Р25, значений ниже средних - Р25 - Р50,
значений выше средних - Р50 - Р75, высокие значения - Р75 - Р100 (разделение по
квартилям).
3. ШАГ. Проанализировать полученные карты
(рис. 5).
ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ. Судя по
приведенным картам, в России существуют определенные географические различия
инвалидизации детей. Так, Сибирь и Дальний Восток следует считать территорий
риска инвалидизации детей вследствие инфекционных и паразитарных заболеваний
(чаще всего это туберкулез), так как большинство регионов этих федеральных
округов вошли в верхний и третий квартили ряда (выше среднего по России).
Другими центрами этой патологии в России следует считать некоторые регионы
Приволжского, Южного федеральных округов, севера европейской части России (рис.
5 А). Европейскую часть России следует признать территорией риска инвалидизации
детей вследствие болезней эндокринной системы, расстройств питания и нарушений
обмена веществ: подавляющее большинство европейских регионов составили верхний
и третий квартили ряда. Визуально четко прослеживается уменьшение показателей с
запада на восток страны (рис. 3 Б).
Примечания.
В случае нормального распределения данных
вариационного ряда границы интервалов для картографирования следует
рассчитывать по методу сигмальных отклонений (табл. 4). Не следует увеличивать
количество интервалов, особенно в случае небольшого числа субтерриторий, так
как визуальный анализ затрудняется.
Таблица 4
РАСЧЕТ ГРАНИЦ ИНТЕРВАЛОВ СТАТИСТИЧЕСКОЙ НОРМЫ
ПО МЕТОДУ СИГМАЛЬНЫХ ОТКЛОНЕНИЙ (дельта)
N интервала
|
Границы
интервала
|
Название
интервала
|
1
|
Менее (М - 2
дельта)
|
Очень низкие
значения
|
2
|
-1 дельта - 2
дельта
|
Низкие
значения
|
3
|
М +/- 1
дельта
|
Средние
значения
|
4
|
+1 дельта + 2
дельта
|
Высокие
значения
|
5
|
Более (М + 2
дельта)
|
Очень высокие
значения
|
9. СРАВНЕНИЕ
ДАННЫХ. СТРУКТУРНЫЙ ПРОФИЛЬ
9.1. Введение в анализ.
Структурный профиль - это визуальное
представление числовых выражений частей многокомпонентного явления на
столбиковой диаграмме с нанесением интервалов статистической нормы. Способ
основан на определении границ статистической нормы методом персентилей для
каждого класса болезни: Р25 - Р75. Суть анализа в том, чтобы можно было
определить, попадает ли тот или иной регион в интервал статистической нормы.
Если регион попадает в интервал "выше нормы" (> Р75), то этот
показатель является болезнью (группой) риска для данной территории и в первую
очередь нуждается в изучении и коррекции.
9.2. Задачи анализа.
Анализ структурных профилей необходим для
получения наглядного представления об особенностях конкретного показателя на
территории в сравнении с генеральными показателями, о разбросе, вариабельности
данных по каждой нозологической форме на генеральной территории, о
нозологических особенностях конкретного признака среды или здоровья на данной
территории по сравнению с аналогичными данными всей совокупности. Дает
возможность выделить патологию риска (группу риска, фактор риска) для
конкретной территории, с последующими целенаправленными действиями по ее
изучению и профилактике.
9.3. Ход работы.
Пример. Требуется провести анализ
профессиональной заболеваемости в совокупности регионов России за период 1997 -
2005 гг. с определением вариабельности показателей и оценкой положения
конкретного Региона. В анализ включены сведения по профессиональной заболеваемости
во всех регионах страны за 1997 - 2005 гг. (всего 9 показателей по 89
регионам). Анализ следует проводить в Microsoft Excel.
1. ШАГ. В файле Microsoft Excel в
интервале A1-I89 сформировать базу данных вида m х n, где m - перечень регионов
(89), а n - период (годы) наблюдений с 1997 по 2005 гг.
2. ШАГ. С помощью функции ПЕРСЕНТИЛЬ
рассчитать персентили 25, 75 и 50 (Р25, Р75, Р50) для каждого года наблюдений.
3. ШАГ. Рассчитать стандартизованные в
персентилях Интервал нормы выше среднего и Интервал нормы ниже среднего для
каждого периода наблюдений по формулам, соответственно:
=Р75-Р50.
=Р50-Р25.
4. ШАГ. Провести стандартизацию всех
значений базы данных как отношение данных в каждом из регионов за конкретный
год к соответствующей медиане, выраженное в процентах по формуле:
=данные каждого региона/Р50*100.
5. ШАГ. Рассчитать стандартизованные
относительно медианы значения верхней и нижней границы нормы, медианы,
Интервала выше среднего и Интервала ниже среднего как отношение ранее
полученных данных (шаги 2 и 3) к соответствующей медиане, выраженное в
процентах. Стандартизованные значения медианы всего периода должны составить
100%.
6. ШАГ. Используя функции Мастера
диаграмм на диапазоне полученных значений медианы, выраженной как 100%,
построить точечный график (рис. 6 А).
7. ШАГ. Щелкнув правой кнопкой на одной
из точек графика, выбрать опцию Формат рядов данных, выбрать окно
"Y-погрешности", из предлагаемых Величин погрешности выбрать
Пользовательскую. Поставив курсор в ее верхнее окно, внести в него диапазон
нормализованных значений Интервала нормы выше среднего и в нижнее окно -
Интервал нормы ниже среднего. В результате на графике будет получен российский
межрегиональный профиль профессиональной заболеваемости (рис. 6 Б).
8. ШАГ. Выделив диаграмму и расширив ее
ссылку на вставленную строку с показателями конкретного Региона, получить
график профессиональной заболеваемости в Регионе относительно межрегионального
профиля за изучаемый период (рис. 6 В).
9. ШАГ. Проанализировать с указанием: 1)
разброса (вариабельности) показателей на конкретной территории по сравнению со
среднероссийскими данными; 2) определением "попадания" Региона в
интервал статистической нормы по каждому из признаков; 3) выявлением
"проблемных мест" для Региона - показателей, превышающих верхнюю
границу статистической нормы для российских регионов, переменные, требующие
проверки качества информации.
ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ: судя по границам
статистической нормы, наиболее вариабельными данные по профессиональной
заболеваемости в регионах России были в начале исследуемого периода - в 1997
г., наименее - в 2001, 2004 гг. (рис. 6 Б). Размах значений очень велик,
распределение асимметрично, имеются регионы-лидеры (так как интервал верхней
границы нормы намного больше интервала нижней границы нормы). Положение Региона
в совокупности российских регионов по показателям профессиональной
заболеваемости в течение 1997 - 2005 гг. существенно менялось. Если в начале
периода показатели в Регионе приближались к нижней границе статистической
нормы, то спустя 3 года - в 2000 году - Регион находился на верхней границе
нормы; если в 2002 - 2004 гг. показатели в Регионе были на уровне средних в
стране (близки к медиане), то к концу периода положение Региона вновь
изменилось в сторону увеличения (рис. 6 В). Другими словами, в Регионе были
иные тенденции динамики показателя по сравнению со всей совокупностью регионов,
качество учета профессиональной заболеваемости в Регионе требует проверки.
10. АНАЛИЗ
ДИНАМИЧЕСКИХ РЯДОВ
10.1. Введение в анализ.
Ряды динамики - это ряды последовательно
расположенных в хронологическом порядке статистических показателей, которые
характеризуют развитие явления во времени. Ряды динамики могут состоять из
абсолютных, относительных и средних величин. В зависимости от характера изучаемого
явления ряды динамики подразделяются на моментные и интервальные. Моментные
ряды динамики отражают состояние изучаемых явлений на определенные моменты
времени. В медико-демографических исследованиях это, например, общая
инвалидность (число инвалидов на 01.01). Интервальные ряды динамики состоят из
интервальных величин и отражают итоги развития изучаемых явлений за отдельные
периоды времени. В медико-демографических исследованиях это, например,
первичная заболеваемость (число впервые выявленных случаев за год).
В
каждом ряду динамики
имеются два основных элемента: 1) показатели
времени - t; 2)
уровни развития изучаемого явления - y. Отсюда различаются:
1) начальный
уровень ряда y -
это величина первого показателя ряда; 2)
1
конечный уровень
ряда y - это величина последнего члена ряда. В
основе
n
анализа показателей
рядов динамики лежит
сравнение уровней ряда
за
различные
периоды.
К показателям рядов динамики относятся:
1) определение интенсивности изменения уровня за период (абсолютный прирост,
темп роста и темп прироста) и 2) расчет средних по рядам динамики (средний
уровень ряда, средний абсолютный прирост, средний темп роста, средний темп
прироста).
Абсолютный прирост (ДЕЛЬТА) - это разница
между двумя уровнями ряда динамики в единицах измерения исходной информации.
Темп роста (Тр) - это показатель,
характеризующий соотношение двух уровней ряда и выражающийся в процентах. Если
темпы роста больше 100%, то это показывает, что значение изучаемого явления в
рассматриваемом году выросло по сравнению с базисным уровнем. Темп роста,
равный 100%, говорит о том, что величина явления в рассматриваемом периоде не
изменилась по сравнению с базисным периодом. Темпы роста меньше 100% показывают
на уменьшение величины изучаемого явления по сравнению с базисным уровнем.
Темпы роста всегда имеют положительный знак.
Темп прироста (Тпр) характеризует прирост
в относительных величинах. Вычисленный в процентах темп прироста показывает, на
сколько процентов изменился рассматриваемый уровень по сравнению с уровнем,
принятым за базу сравнения.
Средний уровень ряда динамики
характеризует типичную для данного динамического ряда величину.
Средний абсолютный прирост - это разность
между конечным y и первым y
n 1
уровнями
изучаемого периода.
Средний темп роста - это обобщающая
характеристика темпов роста ряда динамики, которая показывает, как в среднем
изменялось изучаемое явление в течение рассматриваемого периода.
Средний темп прироста - это обобщающая
характеристика темпов роста ряда динамики, которая показывает, как в среднем
изменялось изучаемое явление в течение рассматриваемого периода, выражается в
процентах.
Показатели интенсивности изменения уровня
за период могут быть базисными и цепными. Базисные показатели рассчитываются
путем сравнения каждого уровня ряда с одним и тем же базисным (исходным)
уровнем и отражают итог роста (снижения) явления за изучаемый период. Цепные
показатели рассчитываются путем сравнения каждого последующего уровня с
предыдущим, взятым в качестве базы сравнения. С помощью цепных показателей
измеряют, каковы изменения в отдельные годы рассматриваемого периода.
10.2. Задачи анализа.
Анализ динамических рядов имеет важнейшее
значение в ходе медико-демографических исследований, так как позволяет решить
ряд основных вопросов: выявить изменение изучаемого явления (например,
медико-демографических процессов) во времени, прогнозировать на его основе
дальнейшее развитие ситуации с целью своевременного принятия мер профилактики,
оценить эффективность принятых мер, предполагать влияние на процесс каких-либо
факторов.
10.3. Ход работы.
Пример. Требуется провести анализ
динамики численности населения Региона.
5. ШАГ. В файле Microsoft Excel
сформировать динамический ряд по образцу столбцов таблицы 5 Год и Численность
населения.
6. ШАГ. Провести расчеты базисных и
цепных показателей интенсивности динамики (абсолютного прироста, темпа роста и
темпа прироста) численности населения в Регионе по формулам, приведенным в
таблице 5.
Таблица 5
РАСЧЕТ ПОКАЗАТЕЛЕЙ ИНТЕНСИВНОСТИ ИЗМЕНЕНИЯ
ЧИСЛЕННОСТИ
НАСЕЛЕНИЯ РЕГИОНА ЗА ПЕРИОД 2003 - 2008 ГГ.
┌────┬───────┬───────────────────────────────────────────────────────────────────────────────────────────┐
│Год
│Числен-│ Расчет
показателей
│
│ │ность │
│
│ │населе-├───────────────────────────────────────────┬───────────────────────────────────────────────┤
│ │ния, │ базисных │ цепных │
│ │тыс. │ │ │
│ │чел. │ │ │
├────┴───────┴───────────────────────────────────────────┴───────────────────────────────────────────────┤
│
Абсолютный прирост, ДЕЛЬТА │
├────────────┬───────────────────────────────────────────┬───────────────────────────────────────────────┤
│формула: │ ДЕЛЬТА = y
- y │ ДЕЛЬТА = y
- y │
│ │ альфа
i 1 │ омикрон
i i-1 │
├────┬───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2003│2075,4 │ │ │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2004│2058,5 │2058
- 2075,4 = -16,9 │2058
- 2075,4 = -16,9
│
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2005│2046,6 │2046,6
- 2075,4 = -28,8 │2046,6
- 2058,5 = -11,9 │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2006│2034,6 │2034,6
- 2075,4 = -40,8 │2034,6
- 2046,6 = -12,0 │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2007│2025,6 │2025,6
- 2075,4 = -49,8 │2025,6
- 2034,6 = -9,0 │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2008│2018,0 │2018,0
- 2075,4 = -57,4 │2018,0
- 2025,6 = -7,6 │
├────┴───────┴───────────────────────────────────────────┴───────────────────────────────────────────────┤
│ Темп роста, Тр │
├────────────┬───────────────────────────────────────────┬───────────────────────────────────────────────┤
│ │ y │ y │
│ │ i │ i │
│формула: │ Тр = -- х 100% │ Тр = ---- х 100% │
│ │ альфа y │ омикрон y │
│ │ 1 │ i-1 │
├────┬───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2003│2075,4
│
│ │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2004│2058,5
│2058 / 2075,4 х 100% = 99,2% │2058 / 2075,4 х 100% =
99,2% │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2005│2046,6
│2046,6 / 2075,4 х 100% = 98,6% │2046,6 / 2058,5 х 100% =
99,4% │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2006│2034,6
│2034,6 / 2075,4 х 100% = 98,0% │2034,6 / 2046,6 х 100% =
99,4% │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2007│2025,6
│2025,6 / 2075,4 х 100% = 97,6% │2025,6 / 2034,6 х 100% =
99,6% │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2008│2018,0
│2018,0 / 2075,4 х 100% = 97,2% │2018,0 / 2025,6 х 100% =
99,6% │
├────┴───────┴───────────────────────────────────────────┴───────────────────────────────────────────────┤
│ Темп
прироста, Тпр │
├────────────┬───────────────────────────────────────────┬───────────────────────────────────────────────┤
│формула: │ОМИКРОН йота d = ОМИКРОН d - 100%│ОМИКРОН йота d = ОМИКРОН d - 100%│
│ │ альфа альфа │ омикрон омикрон │
├────┬───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2003│2075,4
│ │ │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2004│2058,5
│99,2% - 100% = -0,8%
│99,2% - 100% = -0,8% │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2005│2046,6
│98,6% - 100% = -1,4% │99,4% - 100% =
-0,6% │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2006│2034,6
│98,0% - 100% = -2,0% │99,4% - 100% =
-0,6% │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2007│2025,6
│97,6% - 100% = -2,4% │99,6% - 100% =
-0,4% │
├────┼───────┼───────────────────────────────────────────┼───────────────────────────────────────────────┤
│2008│2018,0
│97,2% - 100% = -2,8% │99,6% - 100% =
-0,4% │
└────┴───────┴───────────────────────────────────────────┴───────────────────────────────────────────────┘
7. ШАГ. Провести расчет средних по ряду
динамики (среднего уровня ряда, среднего абсолютного прироста, среднего темпа
роста, среднего темпа прироста) численности населения Региона по формулам,
приведенным в таблице 6.
Таблица 6
РАСЧЕТ СРЕДНИХ ПО РЯДУ ДИНАМИКИ ПОКАЗАТЕЛЕЙ
ЧИСЛЕННОСТИ
НАСЕЛЕНИЯ РЕГИОНА ЗА ПЕРИОД 2003 - 2008 ГГ.
┌───────────────────────────────┬────────────────────────────────────────────────────────────────────┐
│ Формула │ Расчет │
├───────────────────────────────┴────────────────────────────────────────────────────────────────────┤
│ Средний
уровень ряда │
├───────────────────────────────┬────────────────────────────────────────────────────────────────────┤
│ 1 1 │
1
1 │
│ - y
+ y +...+ y + - y │ - 2075,4 + 2058,5 + 2046,6 + 2034,6 +
2025,6 + - 2018,0 │
│_ 2
1 2 n-1
2 n│_ 2
2 │
│y
= ---------------------------│y =
------------------------------------------------------- = 2042,4│
│ n - 1 │ 6 - 1 │
├───────────────────────────────┴────────────────────────────────────────────────────────────────────┤
│ Средний
абсолютный прирост │
├───────────────────────────────┬────────────────────────────────────────────────────────────────────┤
│ y - y
│
│
│ _ n
1 │
_ 2018,0 - 2075,4 │
│ ДЕЛЬТА y = ------- │ДЕЛЬТА y = --------------- =
-11,48 │
│ n - 1 │ 6 - 1 │
├───────────────────────────────┴────────────────────────────────────────────────────────────────────┤
│
Средний темп роста │
├───────────────────────────────┬────────────────────────────────────────────────────────────────────┤
│ __ │
│
│ /y │ ______ │
│ _
/ n │_ / 2018
│
│ Т =
n-1 / -- х 100% │Т
= 6-1 / ------ х 100% = 99,4% │
│ d
\/ y │ d \/
2075,4
│
│ 1 │
│
├───────────────────────────────┴────────────────────────────────────────────────────────────────────┤
│ Средний
темп прироста │
├───────────────────────────────┬────────────────────────────────────────────────────────────────────┤
│ _
_ │_
│
│ Т
= Т - 100% │Т = 99,4% - 100% = -0,6% │
│ йота d
d │ йота d │
└───────────────────────────────┴────────────────────────────────────────────────────────────────────┘
8. ШАГ. Проанализировать полученные
результаты (табл. 5, 6).
ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ. Судя по
показателям абсолютного прироста, в Регионе с каждым годом численность
населения снижается. В 2008 г. она была на 57,4 тыс. человек меньше, чем в 2003
г. Вместе с тем уменьшается разница по численности населения от года к году:
если в 2004 г. по сравнению с предыдущим 2003 г. численность населения
снизилась на 16,9 тыс. чел., то в 2008 г. по сравнению с 2007 г. - только на
7,6 тыс. чел. (табл. 5).
Судя по показателям темпа роста, в 2008
году численность составила 97,2% от уровня 2003 года. Наибольшее же уменьшение
показателя за год отмечено в 2004 году, когда численность населения составила
99,2% по отношению к 2003 г., а наименьшее - в 2007 - 2008 гг., когда
численность населения составила 99,6% от предыдущего уровня. Судя по показателям
темпа прироста, в течение всего изученного периода отмечался отрицательный
прирост или убыль населения. К концу периода произошло уменьшение численности
населения на 2,8% по сравнению с началом. Темпы убыли населения снижались: в
2004 показатель сократился на 0,8%, а в 2008 году - на 0,4% по сравнению с
предыдущим годом (табл. 5). В среднем за период 2003 - 2008 гг. численность
населения в Регионе составляла 2042,4 тыс. чел., убывала в среднем на 11,48
тыс. чел., то есть со скоростью 0,6% в год, составляла в среднем 99,4% в каждом
последующем году по сравнению с предыдущим (табл. 6).
Примечания.
Расчет среднего уровня ряда для
интервального ряда динамики, если все интервалы равны между собой,
рассчитывается как средняя арифметическая простая по формуле:
_ SUM y
y = -----,
n
где:
SUM y - сумма уровней ряда;
n - число уровней.
Все расчеты следует проводить
автоматически в Microsoft Excel (рис. 7).
11. АНАЛИЗ
ДИНАМИЧЕСКИХ РЯДОВ. ПРОГНОЗИРОВАНИЕ
11.1. Введение в анализ.
Прогностика - научная дисциплина о
закономерностях разработки прогнозов.
Прогноз - научно обоснованное суждение о
возможных состояниях объекта в будущем и (или) об альтернативных путях и сроках
их осуществления.
Прогнозирование - процесс разработки
прогнозов.
Метод прогнозирования - способ
исследования объекта прогнозирования, направленный на разработку прогноза.
Прогнозный фон - это совокупность внешних
по отношению к объекту прогнозирования условий, существенных для решения задачи
прогноза.
По содержанию выделяют поисковый прогноз
- прогноз, содержанием которого является определение возможных состояний
объекта прогнозирования в будущем; нормативный прогноз - прогноз, содержанием
которого является определение путей и сроков достижения возможных состояний
объекта прогнозирования в будущем, принимаемых в качестве цели.
По степени точности результатов выделяют
интервальный прогноз - прогноз, результат которого представлен в виде
доверительного интервала характеристики объекта прогнозирования для заданной
вероятности осуществления прогноза; точечный прогноз - прогноз, результат
которого представлен в виде единственного значения характеристики объекта
прогнозирования без указания доверительного интервала.
По периоду упреждения выделяют:
оперативный прогноз - прогноз до 1 месяца; краткосрочный - от 1 месяца до 1
года; среднесрочный - от 1 года до 5 лет; долгосрочный - от 5 лет до 15 лет;
дальнесрочный прогноз - прогноз свыше 15 лет.
Методы прогнозирования: статистический -
основан на построении и анализе динамических рядов характеристик объекта
прогнозирования; метод математической аналогии - основан на установлении
аналогии математических описаний процессов развития различных по природе
объектов с последующим использованием более изученного и более точного
математического описания одного из них для разработки другого; публикационный -
опережающий метод, основанный на оценке публикаций об объекте прогнозирования
(по принятой системе критериев) и исследовании динамики их опубликования;
экспертный - основан на мнении экспертов.
Каждое значение (уровень) ряда динамики
формируется под воздействием большого числа факторов, которые можно условно
разделить на три группы: 1) факторы, формирующие тенденцию ряда (тренд, T); 2)
факторы, формирующие циклические колебания ряда (циклическая составляющая, S);
3) случайные факторы (E). Тенденция характеризует долговременное воздействие
факторов на динамику показателя. Тенденция может быть возрастающей или
убывающей. Зависимость тренда от времени может принимать разные формы, поэтому
для ее формализации используют различные виды функций: линейный,
гиперболический, экспоненциальный, степенной, параболический (полиномиальный)
тренд второго и более высоких порядков. Циклические колебания могут носить
сезонный характер. Случайные факторы представляют собой влияние неучтенных
факторов (рис. 8).
Реальные данные часто содержат все три
компоненты. В большинстве случаев временной ряд можно представить как сумму или
произведение трендовой, циклической и случайной компонент <2>. Построение
модели сводится к расчету значении тенденции, циклической составляющей и
случайных колебания для каждого уровня ряда. Процесс построения модели,
несмотря на имеющиеся технические возможности, довольно сложен <3>, и
поэтому самостоятельно проводить прогнозирование на основе тенденции следует
только в случае "простой" формы динамического ряда, без выраженных
колебаний. В иных случаях необходима консультация специалиста в области
медицинской статистики.
--------------------------------
<2> Выделяют аддитивную и
мультипликативные модели временного ряда (рассчитываются по формулам,
соответственно: y = T + S + E и y = T х S х E, где: T - трендовая составляющая,
S - циклическая составляющая, E - случайная составляющая).
<3> Включает в себя следующие шаги:
1) выравнивание исходного ряда методом скользящей средней; 2) расчет значений
сезонной компоненты S; 3) устранение сезонной компоненты из исходных уровней
ряда и получение выровненных данных (T + E) в аддитивной или (T х E) в
мультипликативной модели; 4) аналитическое выравнивание уровней (T + E) или (T
х E) и расчет значений T с использованием полученного уравнения тренда; 5) расчет
полученных по модели значений (T + S) или (T х S); 6) расчет абсолютных и
относительных ошибок.
11.2. Задачи анализа.
Задача прогнозирования ряда динамики
состоит в том, чтобы по значениям наблюдений, собранных к данному моменту,
определить значения в следующие моменты в целях своевременного принятия
управленческих решений.
11.3. Ход работы.
Пример. Требуется спрогнозировать
численность населения Региона в 2010 г.
1. ШАГ. В Microsoft Excel интервале A1-B7
сформировать динамический ряд Год и Численность населения (рис. 9).
2. ШАГ. На основе данного динамического
ряда, используя функции Мастера диаграмм, построить диаграмму типа График.
3.
ШАГ. Для создания линии тренда
(тенденции) щелкнуть правой кнопкой
мыши на
одной из точек графика и в меню правой кнопки
применить функцию
"Добавить линию
тренда". Выбирать тенденцию следует путем перебора разных
вариантов, предлагаемых
Microsoft Excel в
открывшемся окне, следует
сравнивать форму
имеющегося ряда численности
населения с каждым из
вариантов (линейным,
степенным, полиномиальным и
проч.). Выбрать
Полиномиальную. В окне Параметры задать: Прогноз вперед на 2
периода (2009
и 2010
гг.), Показывать уравнение на диаграмме и Поместить на
диаграмму
2
величину
достоверности R (рис. 9).
4.
ШАГ. Для расчета
значений численности населения
в 2009 г.
использовать уравнение, полученное в результате
предыдущего шага, при этом
вместо x ввести номер следующего периода - 7
(поскольку период 2003 - 2008
/\
гг. включает
шесть лет). В клетку
B8 ввести: =1,037*7
2-18,62*7+2092.
Будет получено
значение 2012,5 (рис. 9).
5.
ШАГ. Для расчета
значений численности населения
в 2010 г.
рассчитанное значение
2009 г. продлить в клетку B9, а цифры 7 заменить на
/\
цифры 8,
так что формула
примет вид: =1,037*8
2-18,62*8+2092. Будет
получено
значение 2009,4 (рис. 9).
6. ШАГ. Для расчета ошибки прогноза
следует применить функцию расчета стандартной ошибки регрессии. Ввести в клетку
C9 формулу: =СТОШYX(B2:B9;A2:A9) (рис. 9).
7. ШАГ. Проанализировать результаты.
ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ. В 2010 г.
население региона будет уменьшаться и насчитывать 2009,4 +/- 5,4 тыс. человек
(в интервале от 2004,0 до 2014,8 тыс. чел.).
Примечания.
Точность прогноза в большой мере зависит
от неизменности прогнозного фона - факторов и условий среды обитания. Меняются
внешние к объекту прогнозирования факторы, политические, экономические,
социальные, культурные. Именно поэтому социальные процессы трудно
прогнозировать, и прогнозы медико-демографических процессов, получаемых на
основании тенденции, должны быть, как правило, не более чем среднесрочные - до
5 лет. Точность интервалов прогноза (сокращение размеров интервалов) можно
улучшить путем увеличения динамического ряда, на основании которого строится
прогноз. Есть мнение, что прогнозировать на основании динамического ряда можно
следующим образом: семь лет ряда - один год прогноза, 14 лет ряда - два года
прогноза и т.д. Вместе с тем наиболее важным для прогноза является последний
период.
Проведение прогнозирования требует
участия подготовленного специалиста в области статистического анализа
медицинских данных.
12. МЕТОДЫ
КЛАССИФИКАЦИИ. КЛАСТЕРНЫЙ АНАЛИЗ
12.1. Введение в анализ.
Кластерный анализ - это различные
процедуры, используемые для проведения классификации, в результате которых
исходная совокупность объектов разделяется на кластеры или группы, классы
схожих между собой объектов. Реальные объекты (например, регионы) являются
многомерными, то есть описываются не одним, а несколькими параметрами, поэтому
объединение объектов в группы проводится в пространстве многих измерений.
К понятиям кластерного анализа относится
расстояние между объектами как мера их сходства: чем ближе расстояние, тем
более схожи объекты по нескольким признакам, отобранным для классификации
<4>. Каждый класс объектов имеет свой центр. Расстояние между объектом и
классом есть расстояние между объектом и центром класса. Центр класса
рассчитывается, в частности, по средним значениям для каждого класса.
--------------------------------
<4> Расстояние определяют
несколькими способами: с применением евклидовой метрики, определяемое по
теореме Пифагора, либо с применением т.н. манхэттенского расстояния или
"расстояния городских кварталов" (когда можно перемещаться только по
улицам, но нельзя по диагонали квартала), а также другие.
В качестве метода кластерного анализа
предлагается метод группировки k-средних (k-means clastering) <5>.
--------------------------------
<5> В этом методе объект относится
к тому классу, расстояние до которого минимально, то есть метод k-средних
строит ровно k различных кластеров, расположенных на возможно больших
расстояниях друг от друга. С вычислительной точки зрения можно рассматривать
метод k-средних, как дисперсионный анализ "наоборот". Программа
начинает с k случайно выбранных кластеров, а затем изменяет принадлежность
объектов к ним, чтобы: минимизировать изменчивость внутри кластеров и
максимизировать изменчивость между кластерами. Данный способ аналогичен методу
"дисперсионный анализ (ANOVA) наоборот" в том смысле, что критерий
значимости в дисперсионном анализе сравнивает межгрупповую изменчивость с
внутригрупповой при проверке гипотезы о том, что средние в группах отличаются
друг от друга. В кластеризации методом k-средних программа перемещает объекты
из одних групп (кластеров) в другие для того, чтобы получить наиболее значимый
результат при проведении дисперсионного анализа (ANOVA). Значения F-статистики,
полученные для каждого измерения, являются индикатором того, насколько хорошо
соответствующее измерение дискриминирует кластеры.
12.2. Задачи анализа.
Кластерный анализ следует применять для
классификации субтерриторий по одному или нескольким признакам (многомерной
классификации) и отбора наиболее типичных субтерриторий. Результаты многомерной
классификации следует применять в ходе изучения причинно-следственных связей и
разработки регионально-ориентированных профилактических программ.
12.3. Ход работы.
ПРИМЕР. Требуется провести классификацию
муниципальных образований Региона по ряду информативных признаков
санитарно-эпидемиологического благополучия населения районов (классификационных
характеристик): 1) плотность населения, человек на 1 кв. км территории; 2)
заболеваемость детей в возрасте 0 - 14 лет, на 100 тыс. детей; 3) инвалидность
детей, на 10 тыс. детей; 4) общий коэффициент смертности, на 1000 человек
населения; 5) обеспеченность населения врачами, на 10 тыс.; 6) число посещений
амбулаторно-поликлинических учреждений на 1 жителя; 7) среднемесячная
заработная плата, руб. По результатам классификации необходимо выделить районы
области, схожие между собой по указанным характеристикам, с целью уточнения
регионально-ориентированных профилактических программ. Анализ следует проводить
в Statistica 6.0.
1. ШАГ. В файле Statistica сформировать
базу данных вида: m х n, где: m - перечень районов Региона (32), а n - семь
классификационных характеристик (рис. 10).
2. ШАГ. Провести стандартизацию всех
данных в меню Данные - Стандартизация, в окне Переменные - Выбор всего.
Стандартизация обязательна вследствие необходимости получения сопоставимых
данных.
3. ШАГ. Выбрать меню Статистика -
Многомерные исследующие методы - Групповой анализ - k-средних (k-means
clastering). Провести выбор параметров исследования: переменных: в окне
Переменные - Выбор всего; способа классификации: в окне Cluster - по случаям
(Cases); числа классов или кластеров: в окне Количество групп - 3; число
итераций - 10.
4. ШАГ. Провести интерпретацию полученных
автоматически результатов кластерного анализа путем: 1) изучения результатов
дисперсионного анализа; 2) графического анализа диаграммы; 3) изучения состава
каждого класса (рис. 10).
5. ШАГ. На основании результатов
дисперсионного анализа следует судить о значимости различий между полученными
классами по всем классификационным характеристикам по значению уровня
значимости p (должен быть меньше 0,05). То есть на этом этапе следует
установить, насколько разнятся между собой полученные классы, и в случае
значимых различий вести анализ дальше.
6. ШАГ. Провести графический анализ
результатов классификации на основании диаграммы (рис. 11). На диаграмме
представлены средние значения по каждой классификационной характеристике для
всех классов (кластеров). В данном примере выделены три разные тенденции
формирования здоровья населения. Класс (кластер) 1 следует считать более
благополучным среди других районов Региона. Несмотря на высокие показатели
заболеваемости детей, инвалидность детей и смертности населения минимальны.
В районах класса 1 отмечается наибольшая
плотность населения (что косвенно указывает на привлекательность этих районов
для населения), высока обеспеченность врачами и амбулаторной помощью, наиболее
высокая в Регионе заработная плата. В этих условиях высокую заболеваемость
детей следует расценивать положительно как результат хорошей диспансерной
работы и профилактику инвалидности детей (рис. 11).
Класс (кластер) 2 следует считать самым
неблагополучным в Регионе в отношении социально-экономических факторов среды
обитания. В районах этого класса минимально обеспечение населения
квалифицированной медицинской помощью (врачами), амбулаторной помощью.
Причинами высокой смертности населения в этих районах можно считать также
низкую заработную плату и минимальную плотность населения (которая снижает
доступность населения к инфраструктуре, в частности, здравоохранения).
Диспансерную работу здравоохранения следует считать неэффективной, так как
минимальные показатели заболеваемости детей не оправданы ввиду высоких
показателей инвалидности детей (рис. 11).
Класс (кластер) 3 - наиболее
неблагополучный в отношении потерь здоровья населения - максимальные показатели
инвалидности детей, смертности населения, высокая заболеваемость детей. Следует
отметить, что наилучшая в Регионе обеспеченность населения врачебной и
амбулаторной помощью не приводит к улучшению здоровья. Одной из возможных
причин неэффективности работы здравоохранения является низкая плотность
населения, которая требует иных форм организации медицинской помощи, например,
функционирования мобильных врачебно-диагностических бригад. В районах этого
класса население получает низкую заработную плату (рис. 11).
Кластер 1: Таврический, Азовский,
Исилькульский, Калачинский, Кормиловский, Марьяновский, Москаленский, Омский,
Нововаршавский, Одесский, Павлоградский, Полтавский, Русско-Полянский,
Шербакульский районы.
Кластер 2: Тевризский, Знаменский,
Седельниковский, Усть-Ишимский, Колосовский, Крутинский, Называевский,
Нижнеомский, Тюкалинский, Оконешниковский.
Кластер 3: Большереченский,
Большеуковский, Тарский, Горьковский, Муромцевский, Саргатский, Любинский,
Черлакский.
7. ШАГ. Провести анализ состава каждого
класса с использованием опции "Элементы каждого кластера &
расстояния": где указано число районов в классе, их перечень и расстояние
каждого объекта до центра класса. По числу районов в классе следует судить о
степени типичности класса для всей совокупности районов Региона. По расстоянию
расстояние каждого объекта (района) до центра класса судят о степени типичности
района для соответствующего класса: минимальное расстояние указывает на
наибольшую типичность (рис. 11).
В данном примере класс 1 (благополучный)
составили 14 районов Региона, все - из его южной половины, степной и
лесостепной зон. Апробацию профилактических программ следует проводить в
наиболее типичном районе этого класса - Таврическом (рис. 11).
Класс 2 (неблагополучный в отношении
социально-экономических факторов среды обитания) составили 10 районов. 9 из них
расположены в северной половине области, 1 (Оконешниковский) - в южной
лесостепи. Известно, что в Оконешниковском районе области самая низкая среди
районов южной половины Региона плотность населения, что и обусловило
принадлежность этого района в класс 2. Наиболее типичный район этого класса -
Тевризский (рис. 11).
Класс 3 (неблагополучный в отношении
потерь здоровья населения) составили 8 районов, 6 из которых расположены в
северной половине Региона. Наиболее типичный район этого класса -
Большереченский (рис. 11).
8. ШАГ. ЗАКЛЮЧЕНИЕ.
В результате кластерного анализа
определены медико-географические закономерности формирования
санитарно-эпидемиологического благополучия населения районов Региона по ряду
информативных характеристик. Уровень потерь здоровья населения в регионе
зависит:
от географических характеристик (на
севере региона потери здоровья выше, чем в его южной половине);
от плотности населения (на малозаселенных
территориях смертности населения и инвалидность детей выше, чем на
густозаселенных);
от обеспеченности квалифицированной
амбулаторной медицинской помощью: ее высокие показатели в восьми районах
области не приводят к снижению инвалидности детей и смертности населения,
очевидна необходимость иной организации медицинского обеспечения;
от материального положения населения:
высокая заработная плата способствует снижению смертности и инвалидности;
от качества диспансерной работы
учреждений здравоохранения: чем выше заболеваемость детей, тем ниже
инвалидность. Высокие цифры заболеваемости детей свидетельствуют в этой
ситуации не о худшем здоровье, а о лучшей диспансеризации.
10 районов класса 2 нуждаются в улучшении
обеспечения населения квалифицированной врачебной амбулаторной помощью;
повышении выявления заболеваний и проведении профилактической работы среди
больных детей; в повышении уровня заработной платы среди населения. На
малозаселенных территориях следует повышать доступность населению медицинской
помощи путем организации, в частности, мобильных врачебно-диагностических
пунктов. Планирование снижения заболеваемости детей в этих районах некорректно.
Основными направлениями профилактической
программы для восьми районов класса 3 должны стать повышение уровня заработной
платы среди населения и организация мобильных врачебно-диагностических пунктов.
Основными результатами профилактики должны стать снижение смертности населения
и инвалидности среди детей.
Примечания.
Проведение кластерного анализа требует
участия подготовленного специалиста в области статистического анализа
медицинских данных в виду необходимости решения ряда вопросов (отбор
классификационных характеристик, выбор числа классов, числа итераций) и
невозможности формализации этих решений. Подготовленный специалист должен
обладать соответствующими знаниями, опытом и интуицией.
Отбор классификационных характеристик
следует проводить на основании результатов информационного поиска и других
видов статистического анализа (корреляционный, факторный анализ). Вопрос выбора
классификационных характеристик нельзя решить формально, однозначных
рекомендаций не существует. Большое значение имеет интуиция исследователя и
желаемый результат.
Выбор числа классов проводится
произвольно, после серии статистических экспериментов, в зависимости от числа
территорий и осмысленности получаемых результатов. В процессе анализа следует
сравнивать результаты: если они получаются близкими для двух кластеров, число
кластеров следует уменьшить. В любом случае число классов не должно быть
слишком большим вследствие трудности интерпретации результатов (обычно выбирают
3 - 5 классов).
Выбор числа итераций осуществляется, пока
число итераций не превысит заданное пользователем. Если в появившемся окне
результатов полученное число итераций ниже указанного исследователем, а другие
результаты удовлетворительно интерпретируются, то на данном числе итераций
можно остановиться. Если число то же самое, то число итераций еще увеличить.
Добавление итераций способствует увеличению точности результатов.
13.
ПРИЧИННО-СЛЕДСТВЕННЫЕ СВЯЗИ.
КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ
13.1. Введение в анализ.
Корреляция - это описание взаимосвязи
количественных или порядковых признаков.
Интерпретация корреляции
проводится на основании:
1) коэффициента
2
корреляции (r)
и его квадрата
- коэффициент детерминации (R ), которые
2
свидетельствуют о
силе связи; R представляет собой долю вариации, общую
для двух
переменных (иными словами, "степень" зависимости или
связанности
двух переменных); 2)
уровня значимости, вычисленного
для каждого
коэффициента корреляции,
позволяющего судить о надежности
корреляции; 3)
визуального
анализа связи.
Коэффициент корреляции - мера корреляции,
показывает, в какой степени изменение значения одного признака сопровождается
изменением значения другого признака в данной выборке. Значения коэффициента
корреляции изменяются в интервале от -1 до 1. Знак (плюс или минус) при
коэффициенте корреляции указывает направление связи. При отрицательном значении
коэффициента корреляции связь обратная, т.е. чем больше значение одного
признака, тем меньше значение второго признака, при положительном знаке связь
прямая: чем больше, тем больше. Принята следующая классификация силы корреляции
в зависимости от значения коэффициента корреляции r: |r| <= 0,3 - слабая
связь, 0,3 < |r| < 0,7 - умеренная корреляция (средней силы), |r| >=
0,7 - сильная связь.
Вместе с тем даже в случае сильной связи,
она может быть статистически не значима, например, в случае малого объема
выборки. Для оценки значимости связи необходимо проводить специальные расчеты
уровня значимости (аналогично многим другим видам анализа). Пакет Statistica
делает это автоматически.
Однако и оценки уровня значимости
недостаточно. Необходим визуальный анализ связи на точечном графике рассеяния
объектов исследования с учетом по форме связи ("облака" точек) и по
наличию выбросов на диаграмме рассеяния. "Выбросы" - крайние значения
признаков, не характерные для данной выборки, слишком большие или слишком малые
значении, аномальные, при удалении которых связь полностью может измениться.
Наличие корреляции не является
доказательством причинно-следственной связи признаков. Даже сильно связанные
друг с другом признаки могут зависеть от какого-либо третьего фактора.
Отношение "причина - следствие" возможно на основании логического
продолжения корреляционного анализа - регрессионного. Продолжать следует в том
случае, когда найдено логическое объяснение полученной связи и можно
утверждать, который из коррелированных между собой показателей причина, а
который - следствие.
Регрессионный анализ - один из методов статистического
моделирования, позволяющий получить характеристику изменения одной переменной в
зависимости от изменения другой. Моделью является уравнение регрессии. В
регрессионном анализе изменение зависимой переменной Y зависит от изменения
независимой переменной X. При этом вопрос, какую именно переменную считать за
X, а какую принимать за Y - решает автор, исходя из логики изучаемого процесса.
В этом принципиальное отличие корреляционного и регрессионного анализов.
Важность регрессионного анализа в том, что на основе регрессионных моделей
разрабатываются прогнозы развития зависимой переменной Y от изменений
независимой (нескольких независимых) переменной X. Если модель построена на
основании нескольких переменных X, то регрессия называется множественной.
Регрессионная модель задается уравнением:
Y = a + b х X, при этом переменная Y выражается через константу (a) и
коэффициент (b), умноженный на переменную X. Константу называют также свободным
членом a, а угловой коэффициент - регрессионным или B-коэффициентом. В
уравнении регрессии оба коэффициенты должны быть значимы, как и вся модель.
Линия регрессии выражает наилучшее
предсказание зависимой переменной (Y) по независимым переменным (X). Однако
природа редко (если вообще когда-нибудь) бывает полностью предсказуемой, и
обычно имеется существенный разброс наблюдаемых точек относительно подогнанной
прямой. Отклонение отдельной точки от линии регрессии (от предсказанного
значения) называется остатком.
13.2. Задачи анализа.
Корреляционно-регрессионный анализ позволяет
выполнить основные задачи социально-гигиенического мониторинга, исходящие из
его определения: выявить причинно-следственные связи, прогнозировать на их
основе изменение ситуации, разработать конкретные меры профилактики.
13.3. Ход работы:
ПРИМЕР: Требуется проверить, насколько
младенческая смертность в районах Региона зависит от показателей медицинского
обеспечения населения? Можно ли, корректируя медицинское обеспечение населения,
снизить младенческую смертность? Что надо изменить и насколько?
1. ШАГ. В файле Statistica сформировать
базу данных вида: m х n, где: m - перечень районов Региона (32), а n - пять
характеристик: 1 - младенческая смертность, на 1000 новорожденных; 2 -
обеспеченность населения средним медицинским персоналом, на 1000 населения; 3 -
обеспеченность населения врачами, на 1000 населения; 4 - обеспеченность
населения койками, на 1000 населения; 5 - обеспеченность населения амбулаторной
помощью (число посещений амбулаторно-поликлинических учреждений на 1 жителя в
год).
2. ШАГ. Применить меню Основные
статистики - Корреляционная матрица. В окнах Переменные выбрать показатели: в
левом окне выделить переменную Младенческая смертность, в правом - все
характеристики медицинского обеспечения (всего 4). Нажать Итог: матрица
корреляций. В окне результатов появятся коэффициенты корреляции Пирсона,
значимые из них выделены красным цветом.
3. ШАГ. Проанализировать результаты.
Коэффициенты корреляции младенческой смертности и характеристик медицинского
обеспечения значимы только в двух случаях из четырех, причем обе связи
обратные: с показателями обеспеченности населения врачами (r = -0,35) и
посещаемостью амбулаторных учреждений (r = -0,62). Обеспеченность населения
средним персоналом и койками с показателями младенческой смертности не связаны (коэффициенты,
соответственно, 0,09 и 0,12). Прежде чем делать выводы, следует обязательно
проверять полученные связи визуально.
4. ШАГ. Для визуальной проверки применить
опцию Вычерчивание..., в результате чего будет получен ряд графиков рассеяния,
на которых автоматически нанесена линия тренда (рис. 12).
5. ШАГ. Проанализировать результат (рис.
12), обращая внимание на форму "облака" точек (во всех случаях
вытянута вдоль линии тренда, выбросов нет) и наклон линии тренда <6>,
указывающий на силу и направление связи. В данном случае, исходя из силы связи,
наибольший эффект для снижения младенческой смертности следует предположить при
увеличении посещаемости населением амбулаторных учреждений. Это допущение
следует проверить в ходе дальнейшего регрессионного анализа.
--------------------------------
<6> Построена по методу наименьших
квадратов.
6.
ШАГ. Применить опцию
Множественная регрессия. В окне
Переменные
выбрать переменные:
как зависимую Y - младенческую
смертность, как
независимую X -
обеспеченность населения амбулаторной помощью. Нажать Итог:
результаты
регрессии. В появившемся окне будут получены основные результаты
2
регрессии: сила
связи r =
0,62, коэффициент детерминации
R = 0,36,
критерий значимости F = 18,8, уровень значимости связи
p = 0,000, значение
ошибки регрессии
S = 2,0. В другом окне следует обратить внимание на
y
значения и
статистическую значимость обоих полученных коэффициентов a и b
(оба выделены
красным цветом). Следует записать уравнение:
y = 25,8 - 1,75x,
где:
y - младенческая смертность;
x - обеспеченность населения амбулаторной
помощью.
7. ШАГ. Для получения графика применить
функцию Остатки/предположения/предсказания - Выполнить остаточный анализ -
Разбросы - Предсказанные (значения) относительно измеренных (реальных). На
полученный график, применив меню правой кнопки на одной из точек, нанести
Доверительный эллипс.
8. ШАГ. Проанализировать результаты (рис.
13), учитывая форму облака (эллипса), линейность связи. Чем более плоский
эллипс, тем связь сильнее.
9. ШАГ. Вернувшись в меню
Остатки/предположения/предсказания применить функцию Предсказать связанную
переменную. Эта опция позволит, введя любое значение переменной X (в данном
случае это посещаемость населением амбулаторных учреждений), получить
прогнозное значение переменной Y (в данном случае это младенческая смертность).
Следует предварительно рассчитать среднее значение посещаемости населением
амбулаторных учреждений и ввести в окно опции несколько большую цифру.
Например, среднее число посещений амбулаторно-поликлинических учреждений на 1
жителя в год составило в реальности 6,2. При этом среднее значение младенческой
смертности в регионе - 15,0 на 1000 новорожденных. При введении в окно опции
"Предсказать связанную переменную" другого числа, например, 7 (то
есть 7, а не 6,2 посещений амбулаторно-поликлинических учреждений на 1 жителя в
год), получается цифра младенческой смертности 13,6 (точнее в диапазоне от 12,6
до 14,6), а не 15,0, как в реальности. Если нужно запланировать снижение
младенческой смертности до 14,0, то число посещений амбулаторно-поликлинических
учреждений следует увеличить до 6,8 на 1 жителя в год.
10. ШАГ. Сделать окончательное
заключение.
ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ.
В ходе изучения связей между показателями
младенческой смертности и медицинского обеспечения в районах Региона
установлено следующее: чем меньше в районе врачей и чем реже население посещает
амбулаторные учреждения, тем выше младенческая смертность. Обеспеченность
населения средним персоналом и койками на показатели младенческой смертности не
влияют. Наибольший из проанализированных показателей вклад в формирование
младенческой смертности в районах Региона вносит доступность амбулаторной
помощи - 36%. То есть, чем чаще население районов Региона посещает
амбулаторно-поликлинические учреждения, тем реже умирают младенцы. Объяснение
этому факту мы видим в общей профилактической роли этого вида медицинской
помощи, во-первых. Во-вторых, и женские консультации и детские поликлиники,
деятельность которых непосредственно влияет на здоровье новорожденных и детей
первого года жизни, - являются одним из видов амбулаторной помощи населению.
Следует, очевидно, расширить понимание природы младенческой смертности и для ее
снижения принимать меры не только в отношении беременных, рожениц и детей
первого года жизни, но и в отношении всего населения. Для снижения младенческой
смертности в Регионе с существующего уровня 15,0 на 1000 новорожденных до 14,0
число количеств посещений амбулаторно-поликлинических учреждений на 1 жителя в
год следует увеличить до 6,8 (в настоящее время 6,2).
Примечания.
В случае отсутствия Statistica
корреляционный и регрессионный анализ следует проводить в Microsoft Excel,
применяя функции Коррел, Пирсон, Анализ данных.
Регрессионный анализ также весьма сложен
для начинающих аналитиков, кроме того, имеет ряд т.н. ограничений. В частности,
предполагается линейный характер связи (что можно увидеть на графике
рассеяния), и при существенных отклонениях связи от линейной формы этот анализ
неприемлем. Переменные должны быть нормально распределены, как и остатки.
Ограничен выбор числа переменных X. Имеет место мультиколлинеарность, то есть
взаимообусловленность, взаимосвязь показателей, что препятствует анализу.
Поэтому регрессионный анализ, особенно множественная регрессия, также требуют
участия опытных специалистов.
14. МЕТОД
СОКРАЩЕНИЯ ЧИСЛА ПЕРЕМЕННЫХ. ФАКТОРНЫЙ АНАЛИЗ
14.1. Введение в анализ.
Факторный анализ применяется в случае
необходимости анализа объемного признакового пространства (большого количества
характеристик большого количества объектов).
Факторный анализ - это ряд
последовательных математических процедур, в результате которых сокращается
исходное количество изученных характеристик (переменных) и выделяются новые
факторы, число которых значительно меньше исходного количества переменных. В
факторном анализе термин фактор имеет другое, отличное от привычного значения -
причина, условие, влияющие на что-либо. Факторы факторного анализа или
компоненты компонентного анализа (его разновидности) являются гипотетическими,
скрытыми, их нельзя измерить непосредственно, в реальности они не существуют,
однако характеризуют структуру исходного признакового пространства.
Сокращение числа переменных достигается
путем выделения скрытых общих факторов, объясняющих связи между наблюдаемыми
признаками объекта. В основном процедура выделения факторов подобна вращению,
максимизирующему дисперсию (варимакс) исходного пространства переменных. Цель
вращения заключается в максимизации изменчивости новой переменной (фактора) и
минимизации разброса исходных переменных. Выделенные таким образом факторы
называют общими, так как они воздействуют на все признаки (параметры) объекта,
а не какой-то один или группу признаков.
Одной из основных задач, решаемых при
проведении факторного анализа, является то, сколько факторов следует оставить
для окончательной интерпретации. Данное решение произвольно и остается за
исследователем, однако имеются общеупотребительные критерии - Кайзера,
каменистой осыпи и др. Критерий Кайзера предполагает отбор факторов с
собственными значениями, большими 1, то есть если фактор не выделяет дисперсию,
эквивалентную дисперсии одной переменной, то он опускается. Критерий каменистой
осыпи. Критерий каменистой осыпи является графическим методом, отображающим
собственные значения полученных факторов (точечный график). На графике
отмечается место, где убывание собственных значений слева направо максимально
замедляется, и выбираются факторы слева от определенной точки. Учитывают также
факторы с собственными значениями, большими 1, то есть если фактор не выделяет
дисперсию, эквивалентную дисперсии одной переменной, то он не информативен. Обычно
исследуется несколько решений с большим или меньшим числом факторов, и затем
выбирается одно наиболее "осмысленное".
14.2. Задачи анализа.
Факторный анализ в
социально-гигиеническом мониторинге необходим в силу необходимости выделения
приоритетных влияний (факторов) обширного признакового пространства,
накопленного согласно структуре информационного фонда. Факторный анализ
используется для оценки причинно-следственных связей. Факторный анализ
позволяет также оценить информативность характеристик, отобранных для анализа.
14.3. Ход работы.
ПРИМЕР. Проведено изучение ряда
медико-демографических показателей в совокупности районов Региона:
заболеваемости детей, заболеваемости подростков, инвалидности детей,
младенческой смертности и общей смертности населения (пять переменных).
Необходимо сократить количество переменных и выделить те из них, которые в
наибольшей степени определяют вариацию медико-демографической ситуации в
Регионе, а также решить вопрос, насколько отобранные для характеристики
медико-демографической ситуации переменные на самом деле ее характеризуют,
насколько они информативны?
1. ШАГ. В файле Statistica сформировать
базу данных вида: m х n, где: m - перечень районов (32), а n - пять
классификационных характеристик (заболеваемости детей, заболеваемости
подростков, инвалидности детей, младенческой смертности и общей смертности
населения).
2. ШАГ. Провести стандартизацию всех
данных в меню Данные - Стандартизация, в окне Переменные - Выбор всего.
Стандартизация обязательна для получения сопоставимых данных.
3. ШАГ. Выбрать меню Статистика -
Многомерные исследующие методы - Анализ особенностей. Провести выбор параметров
исследования: переменных: в окне Переменные - Выбор всего. В появившемся окне в
ячейке Максимальное (количество факторов) поставить число, соответствующее
количеству выбранных переменных (5), в ячейке Минимальное - 0. ОК.
4. ШАГ. Провести интерпретацию полученных
результатов факторного анализа путем просмотра появившихся цифр синего цвета
после слова Собственные (значения факторов): учитывать, сколько получилось
значений больше 1 или близкое к 1.
5. ШАГ. Поскольку в результате
предыдущего шага выявлено 3 фактора, имеющие собственные значения больше 1 или
близкое к 1, то следует предыдущую процедуру повторить, введя в ячейку
Максимальное цифру 3.
6. ШАГ. В появившемся окне нажать вкладку
Быстрый (анализ), и появится ячейка Поворот. Выбрать для данной ячейки Варимакс
необработанный (он же называется исходный). Нажать Summary. Появляется таблица
факторных нагрузок (табл. 7). Перед тем, как ее содержательно интерпретировать,
следует убедиться в значимости полученных результатов, о чем свидетельствует
значение доли общей дисперсии, объясненной полученными компонентами. Это
значение приводится в таблице собственных значений (табл. 8).
Таблица 7
РЕЗУЛЬТАТЫ ФАКТОРНОГО АНАЛИЗА
МЕДИКО-ДЕМОГРАФИЧЕСКИХ
ПОКАЗАТЕЛЕЙ: ТАБЛИЦА ФАКТОРНЫХ НАГРУЗОК <*>
--------------------------------
<*> В таблице приведены значения
корреляционных коэффициентов переменных с фактором.
┌────────────────────┬──────────────┬──────────────┬─────────────┐
│\ N фактора│ Фактор 1
│ Фактор 2 │
Фактор 3 │
│ \ │ │ │ │
│ \ │ │ │ │
│ \
│ │ │ │
│ \ │ │ │ │
│Наименование \ │ │ │ │
│переменной \ │ │ │ │
├────────────────────┼──────────────┼──────────────┼─────────────┤
│Заболеваемость
детей│-0,85 │-0,05 │-0,37 │
├────────────────────┼──────────────┼──────────────┼─────────────┤
│Заболеваемость │-0,95 │-0,09 │-0,01 │
│подростков │ │ │ │
├────────────────────┼──────────────┼──────────────┼─────────────┤
│Инвалидность
детей │-0,09 │0,93 │-0,09 │
├────────────────────┼──────────────┼──────────────┼─────────────┤
│Младенческая │0,14 │-0,02 │0,98 │
│смертность │ │ │ │
├────────────────────┼──────────────┼──────────────┼─────────────┤
│Смертность
населения│0,42 │0,80 │0,13 │
└────────────────────┴──────────────┴──────────────┴─────────────┘
7. ШАГ. В окне Результаты анализа -
Объяснимая дисперсия нажать кнопку Eigenvalue. Будет получена таблица
собственных значений главных компонент, в которой приведены основные
стандартные результаты анализа (табл. 8).
Таблица 8
РЕЗУЛЬТАТЫ ФАКТОРНОГО АНАЛИЗА
МЕДИКО-ДЕМОГРАФИЧЕСКИХ
ПОКАЗАТЕЛЕЙ: ТАБЛИЦА СОБСТВЕННЫХ ЗНАЧЕНИЙ
ФАКТОРОВ
N
фак-
тора
|
Собственные
значения
факторов
|
Вклад фактора
в общую
дисперсию, %
|
Кумулятивная
дисперсия
|
Кумулятивный
вклад
фактора в общую
дисперсию, %
|
1
|
2,26
|
45,3
|
2,26
|
45,3
|
2
|
1,41
|
28,1
|
3,67
|
73,4
|
3
|
0,81
|
16,2
|
4,48
|
89,7
|
8. ШАГ. Провести интерпретацию таблицы
собственных значений, обращая внимание на нижнее значение в четвертом столбце.
Это суммарная дисперсия всех факторов, выраженная в процентах (89,7). Известно,
что хорошим результатом считается значение порядка 80%, поэтому следует сделать
вывод о том, что данная совокупность переменных удовлетворительно объясняет
общую вариабельность признакового пространства медико-демографической ситуации
в Регионе, исходные переменные информативны.
9. ШАГ. Провести графический анализ
результатов, применив опции Объяснимая дисперсия - Вычерчивание.
Проанализировать график каменистой осыпи (рис. 14), ответив на вопрос: сколько
факторов следует оставить. Судя по критерию каменистой осыпи и с учетом собственных
значений факторов, следует оставить для интерпретации 3 фактора.
10. ШАГ. Провести содержательную
интерпретацию полученных факторов, исходя из названий переменных, которые в
сильной степени (> 0,70) связаны с каждым из факторов (компонент). Это означает,
что именно эти переменные в наибольшей степени определяют выделенные факторы и
именно с этой точки зрения следует проводить качественный анализ результатов. В
процессе интерпретации следует учитывать также те переменные, которые показали
связи средней силы с теми или иными компонентами. В данном примере полученные
факторы можно интерпретировать как: 1 - фактор заболеваемости детей, 2 - фактор
тяжелых потерь здоровья населения и 3 - фактор младенческой смертности.
Обращает внимание разная направленность знаков переменных, объединившихся в
фактор 1 (чем больше заболеваемость детей и подростков, тем ниже смертность) и
фактор 3 (чем выше младенческая смертность, тем ниже заболеваемость детей).
11. ШАГ. Сделать окончательные выводы,
обобщив все результаты.
ЗАКЛЮЧЕНИЕ ПО ПРИМЕРУ: в результате
факторного анализа установлено следующее. Во-первых, исходные переменные -
показатели заболеваемости детей, заболеваемости подростков, инвалидности детей,
младенческой смертности и общей смертности населения - высоко информативны,
поскольку удовлетворительно описывают медико-демографическую ситуацию в
Регионе, объясняя 89,7% исходной изменчивости. Во-вторых, сокращено исходное
количество переменных с пяти до трех факторов. В-третьих, выделено три главных
фактора медико-демографической ситуации в Регионе (табл. 7). Фактор 1 - фактор
заболеваемости, который обусловили показатели заболеваемости детей и
подростков, причем с увеличением заболеваемости детей отмечается одновременное
увеличение заболеваемости подростков. Фактор 1 объясняет почти половину (45,3%)
общей вариации. Фактор 2 (фактор тяжелых потерь здоровья) отражает тесную
взаимосвязь инвалидности детей и смертности населения, при увеличении одного
показателя отмечается рост второго, что позволяет также высоко оценить качество
учета инвалидности детей. Фактор 2 объясняет 28,1% общей вариации. Фактор 3 -
фактор младенческой смертности, выделившийся в самостоятельную компоненту, что
указывает на большую общность районов Региона в отношении этой характеристики и
относительную независимость от остальных показателей, отобранных для анализа.
Очевидны усилия здравоохранения по минимизации различий между районами области
в сфере снижения младенческой смертности. Фактор 3 объясняет 16,2% общей
вариации. Наибольший вклад в общую дисперсию фактора 1 указывает на то, что для
уменьшения тяжелых потерь здоровья (а именно инвалидности детей и смертности
населения) в Регионе должны стать мероприятия, направленные на минимизацию
различий в районах области по показателям заболеваемости, на улучшение
диспансерной работы, выявление заболеваемости среди детей и подростков в
районах с высокими показателями инвалидности детей, смертности населения и
детей до 1 года.
Примечания.
Отбор переменных для факторного анализа
следует проводить на основании результатов информационного поиска и других
видов статистического анализа данных.
Факторный анализ относится к сложным
многомерным методам, он имеет ряд допусков и предположений <7>, ряд его
процедур невозможно вполне формализовать в отличие от многих других видов
анализа, поэтому в процессе его проведения обязательно участие
квалифицированного специалиста-статистика.
--------------------------------
<7> Обычно в моделях факторного
анализа предполагаются выполненными следующие предположения: 1) все переменные
имеют нормальное распределение; 2) общие факторы являются либо
некоррелированными случайными величинами с дисперсией 1, либо неизвестными
случайными параметрами; 3) остатки (остаточные факторы) имеют нормальное
распределение, не коррелированны между собой и не зависят от общих факторов.
СПИСОК
ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. Боровиков В. STATISTICA: искусство
анализа данных на компьютере. Для профессионалов/В. Боровиков. СПб.: Питер,
2001. 656 с.
2. Боровиков В.П. Программа STATISTICA
для студентов и инженеров/В.П. Боровиков. 2-е изд. М.: Компьютер-Пресс, 2001.
301 с.
3. Гланц С. Медико-биологическая
статистика: Пер. с англ./С. Гланц. М.: Практика, 1998. 459 с.
4. Гудинова Ж.В. Дружелюбная статистика:
статистический анализ, прогнозирование: пошаговые инструкции/Ж.В. Гудинова/ФГУП
"Всероссийский научно-технический информационный центр". Св-во N
72200800023 от 19.05.08. 78 с.
5. Гудинова Ж.В. Методика анализа баз
данных "Персентиль-профиль" Ж.В. Гудинова, Г.Н. Жернакова/ФГУП
"Всероссийский научно-технический информационный центр". Св-во N
72200800022 от 19.05.08. 6 с.
6. Елисеева И.И. Статистика: Учебник/И.И.
Елисеева, И.И. Егорова, С.В. Курышева, В.И. Лаптев и др. Под ред. проф. И.И.
Елисеевой. М.: ТК Велби, Изд-во Проспект, 2003. 448 с.
7. Зайцев В.М. Прикладная медицинская
статистика/В.М. Зайцев, В.Г. Лифляндский, В.И. Маринкин. СПб.: ООО
"Издательство ФОЛИАНТ", 2003. 432 с.
8. Иберла К. Факторный анализ: Пер. с
немецкого В.М. Ивановой/К. Иберла. М.: Статистика, 1980. 398 с.
9. Инвалидность детского населения
России/А.А. Баранов, В.Ю. Альбицкий, Д.И. Зелинская, Р.Н. Терлецкая, З.М.
Аминова, Е.А. Антонова, С.А. Валиуллина, И.В. Винярская, Ж.В. Гудинова, Л.В.
Нефедовская, Р.М. Торшхоева, М.А. Позднякова, З.А. Хуснутдинова, Т.В. Яковлена.
М.: Центр развития межсекторальных программ, 2008. 240 с.
10. Мерков А.М. Санитарная статистика:
Пособие для врачей/А.М. Мерков, Л.С. Поляков. Л.: Медицина, 1974. 384 с.
11. Общая гигиена: пропедевтика гигиены:
Учеб. для иностр. студентов/Е.И. Гончарук, Ю.И. Кундиев, В.Г. Бардов и др. К.:
Вища школа, 1999. 652 с.
12. Окунь Я. Факторный анализ: Пер. с
польского Г.З. Давидовича/Я. Окунь. М.: Статистика, 1974. 200 с.
13. Рабочая книга по прогнозированию/под
ред. И.В. Бестужев-Лада. М., Мысль, 1982. 430 с.
14. Реброва О.Ю. Статистический анализ
медицинских данных. Применение пакета прикладных программ STATISTICA/О.Ю.
Реброва. М.: Медиасфера, 2006. 312 с.
15. Сепетлиев Д. Статистические методы в
научных медицинских исследованиях/Д. Сепетлиев. М.: Медицина, 1968. 419 с.
16. Советский энциклопедический
словарь/Гл. ред. А.М. Прохорова. 4-е изд. М.: Советская энциклопедия, 1988.
1600 с.
17. Социально-гигиенический мониторинг.
Инвалидность детей. Сбор, обработка и анализ показателей: метод. рекомендации
МР ФЦ/3718 от 01.12.2004: утв. заместителем Главного государственного
санитарного врача Российской Федерации/Ж.В. Гудинова [и др.]. М: Федеральный
центр Госсанэпиднадзора, 2004. 68 с.
18. Петри А. Наглядная статистика в
медицине: Пер. с англ. В.П. Леонова/А. Петри, К. Сэбин. М.: ГЭОТАР-МЕД, 2003.
144 с.
19. Плохинский Н.А. Биометрия/Н.А.
Плохинский. Новосибирск, 1961. 364 с.
20. Рабочая книга по прогнозированию/Под
ред. И.В. Бестужев-Лада. М., Мысль, 1982. 430 с.
21. Федеральная служба по надзору в сфере
защиты прав потребителей и благополучия человека. Приказ от 30 декабря 2005 г.
N 810 "О перечне показателей и данных для формирования федерального
информационного фонда социально-гигиенического
мониторинга"/ [Электронный ресурс]: справочная правовая
система, М., 2008. [Дата обращения: 10.04.2008].
22. Электронная справка Microsoft Excel.
23. Электронный учебник по статистике
компании StatSoft. Internet: www.statsoft.ru.
|