Домой Психосоматика Введение в многомерный статистический анализ. Оценивание линейной прогностической функции

Введение в многомерный статистический анализ. Оценивание линейной прогностической функции

Социальные и экономические объекты, как правило, характеризуются достаточно большим числом параметров, образующих многомерные векторы, и особое значение в экономических и социальных исследованиях приобретают задачи изучения взаимосвязей между компонентами этих векторов, причем эти взаимосвязи необходимо выявлять на основании ограниченного числа многомерных наблюдений.

Многомерным статистическим анализом называется раздел математической статистики, изучающий методы сбора и обработки многомерных статистических данных, их систематизации и обработки с целью выявления характера и структуры взаимосвязей между компонентами исследуемого многомерного признака, получения практических выводов.

Отметим, что способы сбора данных могут различаться. Так, если исследуется мировая экономика, то естественно взять в качестве объектов, на которых наблюдаются значения вектора X, страны, если же изучается национальная экономическая система, то естественно наблюдать значения вектора X на одной и той же (интересующей исследователя) стране в различные моменты времени.

Такие статистические методы, как множественный корреляционный и регрессионный анализ, традиционно изучаются в курсах теории вероятностей и математической статистики , рассмотрению прикладных аспектов регрессионного анализа посвящена дисциплина «Эконометрика» .

Другим методам исследования многомерных генеральных совокупностей на основании статистических данных посвящено данное пособие.

Методы снижения размерности многомерного пространства позволяют без существенной потери информации перейти от первоначальной системы большого числа наблюдаемых взаимосвязанных факторов к системе существенно меньшего числа скрытых (ненаблюдаемых) факторов, определяющих вариацию первоначальных признаков. В первой главе описываются методы компонентного и факторного анализа, с использованием которых можно выявлять объективно существующие, но непосредственно не наблюдаемые закономерности при помощи главных компонент или факторов.

Методы многомерной классификации предназначены для разделения совокупностей объектов (характеризующиеся большим числом признаков) на классы, в каждый из которых должны входить объекты, в определенном смысле однородные или близкие. Такую классификацию на основании статистических данных о значениях признаков на объектах можно провести методами кластерного и дискриминантного анализа, рассматриваемыми во второй главе (Многомерный статистический анализ с использованием “STATISTICA”).

Развитие вычислительной техники и программного обеспечения способствует широкому внедрению методов многомерного статистического анализа в практику. Пакеты прикладных программ с удобным пользовательским интерфейсом, такие как SPSS, Statistica, SAS и др., снимают трудности в применении указанных методов, заключающиеся в сложности математического аппарата, опирающегося на линейную алгебру, теорию вероятностей и математическую статистику, и громоздкости вычислений.

Однако применение программ без понимания математической сущности используемых алгоритмов способствует развитию у исследователя иллюзии простоты применения многомерных статистических методов, что может привести к неверным или необоснованным результатам. Значимые практические результаты могут быть получены только на основе профессиональных знаний в предметной области, подкрепленных владением математическими методами и пакетами прикладных программ, в которых эти методы реализованы.

Поэтому для каждого из рассматриваемых в данной книге методов приводятся основные теоретические сведения, в том числе алгоритмы; обсуждается реализация этих методов и алгоритмов в пакетах прикладных программ. Рассматриваемые методы иллюстрируются примерами их практического применения в экономике с использованием пакета SPSS.

Пособие написано на основе опыта чтения курса «Многомерные статистические методы» студентам Государственного университета управления. Для более подробного изучения методов прикладного многомерного статистического анализа рекомендуются книги .

Предполагается, что читатель хорошо знаком с курсами линейной алгебры (например, в объеме учебника и приложения к учебнику ), теории вероятностей и математической статистики (например, в объеме учебника ).

Из предисловия автора
Глава 1. Введение
1.1. Многомерное нормальное распределение как модель
1.2. Общий обзор многомерных методов
Литература
Глава 2. Многомерное нормальное распределение
2.1. Введение
2.2. Понятия, связанные с многомерными распределениями
2.3. Многомерное нормальное распределение
2.4. Распределение линейной комбинации нормально распределенных величин; независимость величин; частные распределения
2.5. Условные распределения и множественный коэффициент корреляции
2.6. Характеристическая функция; моменты
Литература
Задачи
Глава 3. Оценка вектора среднего значения и ковариационной матрицы
3.1. Введение
3.2. Оценки наибольшего правдоподобия для вектора среднего значения и ковариационной матрицы
3.3. Распределение вектора выборочного среднего; заключение о среднем значении, когда ковариационная матрица известна
Литература
Задачи
Глава 4. Распределения и использование выборочных коэффициентов корреляции
4.1. Введение
4.2. Коэффициент корреляции двумерной выборки
4.3. Частные коэффициенты корреляции
4.4. Множественный коэффициент корреляции
Литература
Задачи
Глава 5. Обобщенная T2-статистика
5.1. Введение
5.2. Обобщенная T2-статистика и ее распределение
5.3. Применения T2-статистики
5.4. Распределение T2-статистики при наличии конкурирующих гипотез; функция мощности
5.5. Некоторые оптимальные свойства критерия Т2
5.6. Многомерная проблема Беренса - Фишера
Литература
Задачи
Глава 6. Классификация наблюдений
6.1. Проблема классификации
6.2. Принципы правильной классификации
6.3. Методы классификации наблюдений в случае двух генеральных совокупностей с известным распределением вероятностей
6.4. Классификация наблюдений в случае двух генеральных совокупностей, имеющих известные многомерные нормальные распределения
6.5. Классификация наблюдений в случае двух многомерных нормальных генеральных совокупностей, параметры которых оцениваются по выборке
6.6. Классификация наблюдений в случае нескольких генеральных совокупностей
6.7. Классификация наблюдений в случае нескольких многомерных нормальных совокупностей
6.8. Пример классификации в случае нескольких многомерных нормальных генеральных совокупностей
Литература
Задачи
Глава 7. Распределение выборочной ковариационной матрицы и выборочной обобщенной дисперсии
7.1. Введение
7.2. Распределение Уишарта
7.3. Некоторые свойства распределения Уишарта
7.4. Теорема Кохрена
7.5. Обобщенная дисперсия
7.6. Распределение множества коэффициентов корреляции в случае диагональной ковариационной матрицы совокупности
Литература
Задачи
Глава 8. Проверка общих линейных гипотез. Дисперсионный анализ
8.1. Введение
8.2. Оценки параметров многомерной линейной регрессии
8.3. Критерии отношения правдоподобия для проверки линейных гипотез о коэффициентах регрессии
8.4. Моменты отношения правдоподобия в случае, когда справедлива нулевая гипотеза
8.5. Некоторые распределения величин U
8.6. Асимптотическое разложение распределения отношения правдоподобия
8.7. Проверка гипотез о матрицах коэффициентов регрессии и доверительные области
8.8. Проверка гипотезы о равенстве средних значений нормальных распределений с общей ковариационной матрицей
8.9. Обобщенный дисперсионный анализ
8.10. Другие критерии для проверки линейной гипотезы
8.11. Каноническая форма
Литература
Задачи
Глава 9. Проверка гипотезы о независимости множеств случайных величин
9.1. Введение
9.2. Отношение правдоподобия как критерий для проверки гипотезы о независимости множеств случайных величин
9.3. Моменты отношения правдоподобия при условии, что справедлива нулевая гипотеза
9.4. Некоторые распределения отношения правдоподобия
9.5. Асимптотическое разложение распределения величины h (отношения правдоподобия)
9.6. Пример
9.7. Случай двух множеств случайных величин
Литература
Задачи
Глава 10. Проверка гипотез о равенстве ковариационных матриц и о равенстве одновременно векторов среднего значения и ковариационных матриц
10.1 Введение
10.2 Критерии проверки гипотез о равенстве нескольких ковариационных матриц
10.3. Критерии проверки гипотезы об эквивалентности нескольких нормальных совокупностей
10.4. Моменты отношения правдоподобия
10.5. Асимптотические разложения функций распределения величин V1 и V
10.6. Случай двух генеральных совокупностей
10.7. Проверка гипотезы о том, что ковариационная матрица пропорциональна заданной матрице. Критерий сферичности
10.8. Проверка гипотезы о том, что ковариационная матрица равна данной матрице
10.9. Проверка гипотезы о том, что вектор среднего значения и ковариационная матрица соответственно равны данному вектору и данной матрице
Литература
Задачи
Глава 11. Главные компоненты
11.1. Введение
11.2. Определение главных компонент совокупности
11.3. Оценки наибольшего правдоподобия для главных компонент и их дисперсий
11.4. Вычисление оценок наибольшего правдоподобия для главных компонент
11.5. Пример
Литература
Задачи
Глава 12. Канонические корреляции и канонические величины
12.1. Введение
12.2. Канонические корреляции и канонические величины генеральной совокупности
12.3. Оценка канонических корреляций и канонических величин
12.4. Способ вычислений
12.5. Пример
Литература
Задачи
Глава 13. Распределение некоторых характеристических корней и векторов, не зависящих от параметров
13.1. Введение
13.2. Случай двух матриц Уишарта
13.3. Случай одной невырожденной матрицы Уишарта
13.4. Канонические корреляции
Литература
Задачи
Глава 14. Обзор некоторых других работ по многомерному анализу
14.1. Введение
14.2 Проверка гипотез о ранге и оценка линейных ограничений на коэффициенты регрессии. Канонические корреляции и канонические величины
14.3. Нецентральное распределение Уишарта
14.4. Распределение некоторых характеристических корней и векторов, зависящих от параметров
14.5. Асимптотическое распределение некоторых характеристических корней и векторов
14.6. Главные компоненты
14.7. Факторный анализ
14.8. Стохастические уравнения
14.9. Анализ временных рядов
Литература
Приложение. Теория матриц
1. Определение матриц. Действия над матрицами
2. Характеристические корни и векторы
3. Разбиение векторов и матриц на блоки
4. Некоторые результаты
5. Метод сокращения Дулиттла и метод сгущения по оси для решения систем линейных уравнений
Литература
Предметный указатель

Учебное пособие создано на основе опыта преподавания автором курсов многомерного статистического анализа и эконометрики. Содержит материалы по дискриминантному, факторному, регрессионному анализу, анализу соответствий и теории временных рядов. Изложены подходы к задачам многомерного шкалирования и некоторым другим задачам многомерной статистики.

Группировка и цензурирование.
Задача формирования групп выборочных данных таким образом, чтобы сгруппированные данные могли предоставить практически тот же объем информации для принятия решения, что и выборка до группировки, решается исследователем в первую очередь. Целями группировки, как правило, служат снижение объемов информации, упрощение вычислений и придание наглядности данным. Некоторые статистические критерии изначально ориентированы на работу со сгруппированной выборкой. В определенных аспектах задача группировки очень близка задаче классификации, о которой подробнее речь пойдет ниже. Одновременно с задачей группировки исследователь решает и задачу цензурирования выборки, т.е. исключения из нее резко выпадающих данных, как правило, являющихся следствием грубых ошибок наблюдений. Естественно, желательно обеспечить отсутствие таких ошибок еще в процессе самих наблюдений, по сделать это удается не всегда. Простейшие методы решения упомянутых двух задач рассмотрены в этой главе.

Оглавление
1 Предварительные сведения
1.1 Анализ и алгебра
1.2 Теория вероятностей
1.3 Математическая статистика
2 Многомерные распределения
2.1 Случайные векторы
2.2 Независимость
2.3 Числовые характеристики
2.4 Нормальное распределение в многомерном случае
2.5 Корреляционная теория
3 Группировка и цензурирование
3.1 Одномерная группировка
3.2 Одномерное цензурирование
3.3 Таблицы сопряженности
3.3.1 Гипотеза независимости
3.3.2 Гипотеза однородности
3.3.3 Поле корреляции
3.4 Многомерная группировка
3.5 Многомерное цензурирование
4 Нечисловые данные
4.1 Вводные замечания
4.2 Шкалы сравнений
4.3 Экспертные оценки
4.4 Группы экспертов
5 Доверительные множества
5.1 Доверительные интервалы
5.2 Доверительные множества
5.2.1 Многомерный параметр
5.2.2 Многомерная выборка
5.3 Толерантные множества
5.4 Малая выборка
6 Регрессионный анализ
6.1 Постановка задачи
6.2 Поиск ОМНК
6.3 Ограничения
6.4 Матрица плана
6.5 Статистический прогноз
7 Дисперсионный анализ
7.1 Вводные замечания
7.1.1 Нормальность
7.1.2 Однородность дисперсий
7.2 Один фактор
7.3 Два фактора
7.4 Общий случай
8 Снижение размерности
8.1 Зачем нужна классификация
8.2 Модель и примеры
8.2.1 Метод главных компонент
8.2.2 Экстремальная группировка признаков
8.2.3 Многомерное шкалирование
8.2.4 Отбор показателей для дискриминантного анализа
8.2.5 Отбор показателей в модели регрессии
9 Дискриминантный анализ
9.1 Применимость модели
9.2 Линейное прогностическое правило
9.3 Практические рекомендации
9.4 Один пример
9.5 Более двух классов
9.6 Проверка качества дискриминации
10 Эвристические методы
10.1 Экстремальная группировка
10.1.1 Критерий квадратов
10.1.2 Критерий модулей
10 2 Метод плеяд
11 Метод главных компонент
11 1 Постановка задачи
112 Вычисление главных компонент
11.3 Пример
114 Свойства главных компонент
11.4.1 Самовоспроизводимость
11.4.2 Геометрические свойства
12 Факторный анализ
12.1 Постановка задачи
12.1.1 Связь с главными компонентами
12.1.2 Однозначность решения
12.2 Математическая модель
12.2.1 Условия на Аt А
12.2.2 Условия на матрицу нагрузок. Центроидный метод
12.3 Латентные факторы
12.3.1 Метод Бартлетта
12.3.2 Метод Томсона
12.4 Пример
13 Оцифровка
13.1 Анализ соответствий
13.1.1 Расстояние хи-квадрат
13.1.2 Оцифровка для задач дискриминантного анализа
13.2 Более двух переменных
13.2.1 Использование бинарной матрицы данных в качестве матрицы соответствий
13.2.2 Максимальные корреляции
13.3 Размерность
13.4 Пример
13.5 Случай смешанных данных
14 Многомерное шкалирование
14.1 Вводные замечания
14.2 Модель Торгерсона
14.2.1 Стресс-критерий
14.3 Алгоритм Торгерсона
14.4 Индивидуальные различия
15 Временные ряды
15.1 Общие положения
15.2 Критерии случайности
15.2.1 Пики и ямы
15.2.2 Распределение длины фазы
15.2.3 Критерии, основанные на ранговой корреляции
15.2.4 Коррелограмма
15.3 Тренд и сезонность
15.3.1 Полиномиальные тренды
15.3.2 Выбор степени тренда
15.3.3 Сглаживание
15.3.4 Оценка сезонных колебаний
А Нормальное распределение
В Распределение X2
С Распределение Стьюдента
D Распределение Фишера.


Бесплатно скачать электронную книгу в удобном формате, смотреть и читать:
Скачать книгу Многомерный статистический анализ, Дронов С.В., 2003 - fileskachat.com, быстрое и бесплатное скачивание.

Скачать pdf
Ниже можно купить эту книгу по лучшей цене со скидкой с доставкой по всей России.

Многомерный статистический анализ применяют при решении следующих задач:

  • * исследование зависимости между признаками;
  • * классификация объектов или признаков, заданных векторами;
  • * снижение размерности пространства признаков.

При этом результат наблюдений - вектор значений фиксированного числа количественных и иногда качественных признаков, измеренных у объекта. Количественный признак - признак наблюдаемой единицы, который можно непосредственно выразить числом и единицей измерения. Количественный признак противопоставляется качественному - признаку наблюдаемой единицы, определяемому отнесением к одной из двух или более условных категорий (если имеется ровно две категории, то признак называется альтернативным). Статистический анализ качественных признаков - часть статистики объектов нечисловой природы. Количественные признаки делятся на признаки, измеренные в шкалах интервалов, отношений, разностей, абсолютной.

А качественные - на признаки, измеренные в шкале наименований и порядковой шкале. Методы обработки данных должны быть согласованы со шкалами, в которых измерены рассматриваемые признаки.

Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами Х и У применяют корреляционный анализ. Если совместное распределение Х и У является нормальным, то статистические выводы основывают на выборочном коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена, а для качественных признаков - критерий хи-квадрат.

Регрессионный анализ применяют для изучения функциональной зависимости количественного признака У от количественных признаков x(1), x(2), … , x(k). Эту зависимость называют регрессионной или, кратко, регрессией. Простейшая вероятностная модель регрессионного анализа (в случае k = 1) использует в качестве исходной информации набор пар результатов наблюдений (xi, yi), i = 1, 2, … , n, и имеет вид

yi = axi + b + еi, i = 1, 2, … , n,

где еi - ошибки наблюдений. Иногда предполагают, что еi - независимые случайные величины с одним и тем же нормальным распределением N(0, у2). Поскольку распределение ошибок наблюдения обычно отлично от нормального, то целесообразно рассматривать регрессионную модель в непараметрической постановке, т.е. при произвольном распределении еi.

Основная задача регрессионного анализа состоит в оценке неизвестных параметров а и b, задающих линейную зависимость y от x. Для решения этой задачи применяют разработанный еще К.Гауссом в 1794 г. метод наименьших квадратов, т.е. находят оценки неизвестных параметров моделиa и b из условия минимизации суммы квадратов

по переменным а и b.

Дисперсионный анализ применяют для изучения влияния качественных признаков на количественную переменную. Например, пусть имеются k выборок результатов измерений количественного показателя качества единиц продукции, выпущенных на k станках, т.е. набор чисел (x1(j), x2(j), … , xn(j)), где j - номер станка, j = 1, 2, …, k, а n - объем выборки. В распространенной постановке дисперсионного анализа предполагают, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), у2) с одной и той же дисперсией.

Проверка однородности качества продукции, т.е. отсутствия влияния номера станка на качество продукции, сводится к проверке гипотезы

H0: m(1) = m(2) = … = m(k).

В дисперсионном анализе разработаны методы проверки подобных гипотез.

Гипотезу Н0 проверяют против альтернативной гипотезы Н1, согласно которой хотя бы одно из указанных равенств не выполнено. Проверка этой гипотезы основана на следующем «разложении дисперсий», указанном Р.А.Фишером:

где s2 - выборочная дисперсия в объединенной выборке, т.е.

Таким образом, первое слагаемое в правой части формулы (7) отражает внутригрупповую дисперсию. Наконец, - межгрупповая дисперсия,

Область прикладной статистики, связанную с разложениями дисперсии типа формулы (7), называют дисперсионным анализом. В качестве примера задачи дисперсионного анализа рассмотрим проверку приведенной выше гипотезы Н0 в предположении, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), у2) с одной и той же дисперсией. При справедливости Н0 первое слагаемое в правой части формулы (7), деленное на у2, имеет распределение хи-квадрат с k(n-1) степенями свободы, а второе слагаемое, деленное на у2, также имеет распределение хи-квадрат, но с (k-1) степенями свободы, причем первое и второе слагаемые независимы как случайные величины. Поэтому случайная величина

имеет распределение Фишера с (k-1) степенями свободы числителя и k(n-1) степенями свободы знаменателя. Гипотеза Н0 принимается, если F < F1-б, и отвергается в противном случае, где F1-б - квантиль порядка 1-б распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при Н1 величина F безгранично увеличивается при росте объема выборок n. Значения F1-б берут из соответствующих таблиц.

Разработаны непараметрические методы решения классических задач дисперсионного анализа, в частности, проверки гипотезы Н0.

Следующий тип задач многомерного статистического анализа - задачи классификации. Они делятся на три принципиально различных вида - дискриминантный анализ, кластер-анализ, задачи группировки.

Задача дискриминантного анализа состоит в нахождении правила отнесения наблюдаемого объекта к одному из ранее описанных классов. При этом объекты описывают в математической модели с помощью векторов, координаты которых - результаты наблюдения ряда признаков у каждого объекта. Классы описывают либо непосредственно в математических терминах, либо с помощью обучающих выборок. Обучающая выборка - это выборка, для каждого элемента которой указано, к какому классу он относится.

Рассмотрим пример применения дискриминантного анализа для принятия решений в технической диагностике. Пусть по результатам измерения ряда параметров продукции необходимо установить наличие или отсутствие дефектов. В этом случае для элементов обучающей выборки указаны дефекты, обнаруженные в ходе дополнительного исследования, например, проведенного после определенного периода эксплуатации. Дискриминантный анализ позволяет сократить объем контроля, а также предсказать будущее поведение продукции. Дискриминантный анализ сходен с регрессионным - первый позволяет предсказывать значение качественного признака, а второй - количественного. В статистике объектов нечисловой природы разработана математическая схема, частными случаями которой являются регрессионный и дискриминантный анализы.

Кластерный анализ применяют, когда по статистическим данным необходимо разделить элементы выборки на группы. Причем два элемента группы из одной и той же группы должны быть «близкими» по совокупности значений измеренных у них признаков, а два элемента из разных групп должны быть «далекими» в том же смысле. В отличие от дискриминантного анализа в кластер-анализе классы не заданы, а формируются в процессе обработки статистических данных. Например, кластер-анализ может быть применен для разбиения совокупности марок стали (или марок холодильников) на группы сходных между собой.

Другой вид кластер-анализа - разбиение признаков на группы близких между собой. Показателем близости признаков может служить выборочный коэффициент корреляции. Цель кластер-анализа признаков может состоять в уменьшении числа контролируемых параметров, что позволяет существенно сократить затраты на контроль. Для этого из группы тесно связанных между собой признаков (у которых коэффициент корреляции близок к 1 - своему максимальному значению) измеряют значение одного, а значения остальных рассчитывают с помощью регрессионного анализа.

Задачи группировки решают тогда, когда классы заранее не заданы и не обязаны быть «далекими» друг от друга. Примером является группировка студентов по учебным группам. В технике решением задачи группировки часто является параметрический ряд - возможные типоразмеры группируются согласно элементам параметрического ряда. В литературе, нормативно-технических и инструктивно-методических документах по прикладной статистике также иногда используется группировка результатов наблюдений (например, при построении гистограмм).

Задачи классификации решают не только в многомерном статистическом анализе, но и тогда, когда результатами наблюдений являются числа, функции или объекты нечисловой природы. Так, многие алгоритмы кластер-анализа используют только расстояния между объектами. Поэтому их можно применять и для классификации объектов нечисловой природы, лишь бы были заданы расстояния между ними. Простейшая задача классификации такова: даны две независимые выборки, требуется определить, представляют они два класса или один. В одномерной статистике эта задача сводится к проверке гипотезы однородности.

Третий раздел многомерного статистического анализа - задачи снижения размерности (сжатия информации). Цель их решения состоит в определении набора производных показателей, полученных преобразованием исходных признаков, такого, что число производных показателей значительно меньше числа исходных признаков, но они содержат возможно большую часть информации, имеющейся в исходных статистических данных. Задачи снижения размерности решают с помощью методов многомерного шкалирования, главных компонент, факторного анализа и др. Например, в простейшей модели многомерного шкалирования исходные данные - попарные расстояния между k объектами, а цель расчетов состоит в представлении объектов точками на плоскости. Это дает возможность в буквальном смысле слова увидеть, как объекты соотносятся между собой. Для достижения этой цели необходимо каждому объекту поставить в соответствие точку на плоскости так, чтобы попарные расстояния sij между точками, соответствующими объектам с номерами i и j, возможно точнее воспроизводили расстояния сijмежду этими объектами. Согласно основной идее метода наименьших квадратов находят точки на плоскости так, чтобы величина

достигала своего наименьшего значения. Есть и многие другие постановки задач снижения размерности и визуализации данных.

вероятность математический статистика качество


выборочной табл. сопряженности макс, правдоподобных оценок:

G 2 = -2 ^ п щ Щт т ■ п ш)

имеет асимптотическое χ 2 -распределе­ние. На этом основана стат. проверка гипотезы о взаимосвязях.

Опыт обработки данных с помощью А.л. показал его эффективность как спо­соба целенаправленного анализа много­мерной табл. сопряженности, содержа­щей (в случае содержательно разумного выбора переменных) огромный, по срав­нению с двухмерными табл., объем ин­тересующей социолога информации. Метод позволяет сжато описать эту табл. (в виде гипотезы о связях) и в то же вре­мя детально проанализировать конкр. взаимосвязь. Ал. обычно применяется многоэтапно, в форме диалога социо­лог-ЭВМ. Т.о., А.л. обладает значитель­ной гибкостью, представляет возмож­ность формулировать разнообразного вида предположения о взаимосвязях, включать опыт социолога в процедуру формального анализа данных.

Лит.: Аптоп Г. Анализ табл. сопря­женности. М., 1982; Типология и клас­сификация в социол. иссл-ях. М., 1982; Bishop Y.M.M. et ai. Discrete Multivariate Analysis. N.Y., 1975; Agresti A. An Introduction to Categorical Data Analysis. N.Y., 1966.

А.А. Мирзоев

АНАЛИЗ МНОГОМЕРНЫЙ СТАТИ­СТИЧЕСКИЙ - разд. статистики ма­тематической, посвященный матем. ме­тодам, направленным на выявление ха­рактера и структуры взаимосвязей между компонентами исследуемого признака многомерного и предназначенным для получения науч. и практических выво­дов. Исходным массивом многомерных данных для проведения А.м.с. обычно служат рез-ты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных на­блюдений (см. Наблюдение в статисти­ке). Многомерный признак чаще всего интерпретируется как многомерная вели-


чина случайная, а последовательность многомерных наблюдений - как выбор­ка из генеральной совокупности. В этом случае выбор метода обработки исход­ных стат. данных производится на осно­ве тех или иных допущений относитель­но природы закона распределения изучае­мого многомерного признака (см. Рас­пределение вероятностей).

1. А.м.с. многомерных распределений и их осн. характеристик охватывает си­туации, когда обрабатываемые наблюде­ния имеют вероятностную природу, т.е. интерпретируются как выборка из соотв. генеральной совокупности. К осн. зада­чам этого подраздела относятся; оцени­вание статистическое исследуемых мно­гомерных распределений и их осн. пара­метров; иссл-е свойств используемых стат. оценок; иссл-е распределений веро­ятностей для ряда статистик, с помощью к-рых строятся стат. критерии проверки разл. гипотез о вероятностной природе анализируемых многомерных данных (см. Проверка статистических гипотез).

2. А.м.с. характера и структуры взаи­мосвязей компонент исследуемого мно­гомерного признака объединяет понятия и рез-ты, присущие таким методам и моделям, как анализ регрессионный, ана­лиз дисперсионный, анализ ковариацион­ный, анализ факторный, анализ латентно-структурный, анализ логяшейный, поиск взаимодействий. Методы, принадлежа­щие к этой гр., включают как алгорит­мы, осн. на предположении о вероятно­стной природе данных, так и методы, не укладывающиеся в рамки к.-л. вероят­ностной модели (последние чаще отно­сят к методам анализа данных).

3. А.м.с. геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и рез-ты, свойственные таким моделям и методам, как анализ дискриминантиый, анализ кластерный (см. Методы класси­фикации, Шкала). Узловым для этих мо­делей явл. понятие расстояния либо ме­ры близости между анализируемыми элементами как точками нек-рого про-

АНАЛИЗ ПРИЧИННЫЙ


странства. При этом анализироваться могут как объекты (как точки, задавае­мые в признаковом пространстве), так и признаки (как точки, задаваемые в «объ­ектном» пространстве).

Прикладное значение А.м.с. состоит в осн. в обслуживании след. трех про­блем: стат. иссл-я зависимостей между рассматриваемыми показателями; клас­сификации элементов (объектов) или признаков; снижения размерности рас­сматриваемого признакового простран­ства и отбора наиб, информативных признаков.

Лит.: Стат. методы анализа социол. информации. М., 1979; Типология и клас­сификация в социол. иссл-ях. М., 1982; Интерпретация и анализ данных в соци­ол, иссл-ях. М., 1987; Айвазян С.А., Мхи-тарян В. С. Прикладная статистика и ос­новы эконометрики: Учеб. М., 1998; Сош-никова Л.А. и др. Многомерный стат. ана­лиз в экономике. М., 1999; Дубров А.М., Мхитарян В. С, Трошин Л.И. Многомер­ные стат. методы для экономистов и ме­неджеров. М., 2000; Ростовцев B.C., Кова­лева Т.Д. Анализ социол. данных с приме­нением стат. пакета SPSS. Новосибирск, 2001; Тюрин Ю.Н., Макаров А. А. Анализ данных на компьютере. Ы., 2003; Крыш-тановский А. О. Анализ социол. данных с помощью пакета SPSS. Μ., 2006.

ЮН. Толстова

АНАЛИЗ ПРИЧИННЫЙ - методы мо­делирования причинных отношений меж­ду признаками с помощью систем стат. уравнений, чаще всего регрессионных (см. Анализ регрессионный). Существуют и др. названия этой довольно обширной и постоянно изменяющейся области ме­тодов: путевой анализ, как впервые на­звал его основоположник С. Райт; мето­ды структурных эконометрических урав­нений, как принято в эконометрике, и др. Осн. понятиями А.п. явл.: путевая (структурная, причинная) диаграмма, причинный (путевой) коэффициент, прямые, косвенные и мнимые компо­ненты связи между признаками. Ис­пользуемое в А.п. понятие «причинное отношение* не затрагивает сложных фи-


лос. проблем, связанных с понятием «причинность». Причинный коэффици­ент опред. вполне операционально. Ма-тем. аппарат дает возможность проверки наличия прямых и косвенных причин­ных связей между признаками, а также выявления тех компонент корреляцион­ных коэффициентов (см. Корреляция), к-рые связаны с прямыми, косвенными и мнимыми связями.

Путевая диаграмма отражает графи­чески гипотетически предполагаемые причинные, направленные связи между признаками. Система признаков с одно­направленными связями называется ре­курсивной. Нерекурсивные причинные системы учитывают также и обратные связи, напр., два признака системы мо­гут быть одновременно и причиной, и следствием по отношению друг к другу. Все признаки делятся на признаки-след­ствия (зависимые, эндогенные) и при­знаки-причины (независимые, экзоген­ные). Однако в системе уравнений эндо­генные признаки одного из уравнений могут быть экзогенными признаками др. уравнений. В случае четырех признаков рекурсивная диаграмма всех возможных связей между признаками имеет вид:

х 2
/ N
*1 К
г
к S

Построение диаграммы связей явл. необходимой предпосылкой матем. фор­мулирования системы стат. уравнений, отражающей влияния, представленные на диаграмме. Осн. принципы построе­ния системы регрессионных уравнений проиллюстрируем на примере тех же че­тырех признаков. Идя по ходу стрелок, начиная с Хи находим первый эндоген-

АНАЛИЗ ПРИЧИННЫЙ


ный признак и отмечаем те признаки, к-рые на него влияют как прямо (непо­средственно), так и косвенно (опосредо­ванно) и через др. признаки. Первое стан­дартизированное регрессионное уравне­ние соответствует первому эндогенному признаку Xj и выражает зависимость Χι от тех признаков, к-рые на него влияют, т.е. от Χγ. Т.о., первое уравнение имеет вид: Χι = bi\X\.

Затем выявляем второй эндогенный признак, к-рый имеет направленные на него связи. Это признак Aj, ему соответ­ствуют экзогенные переменные Х\ и Χι, поэтому второе регрессионное уравнение в стандартизированном виде формулиру­ется так: Aj = ЬцХ\ + ЬпХг и т.д. С учетом ошибок измерения U система стандарти­зованных регрессионных моделей для нашей конкретной причинной диа­граммы имеет вид: Х\ = Ui, А? =

- Ь->\Х\ + Ui, Хт, = 631ΑΊ + byiXi + Uy, Χα -

- baXi + binXi + Й43А3 + Щ. Чтобы оце­нить коэффициенты b, s , необходимо ее решить. Решение существует при усло­вии, что данные удовлетворяют нек-рым естеств. стат. требованиям. Ь$ называют­ся причинными коэффициентами и час­то обозначаются как Ру. Т.о., Р# показы­вает ту долю изменения вариации эндо­генного признака;, к-рая происходит при изменении экзогенного признака j на единицу стандартного отклонения этого признака при условии, что влия­ние остальных признаков уравнения ис­ключается (см. Анализ регрессионный). Иначе говоря, Р,у есть прямой эффект признака j на признак г. Косвенный эф­фект признака j на;) вычисляется на ос­нове учета всех путей влияния j на i за исключением прямого.

На диаграмме прямое влияние перво­го признака на четвертый схематически представление прямой стрелой, непо­средственно идущей от Χι к Xt, символи­чески изображаемое как 1->4; оно равно коэффициенту причинного влияния Р, Х 2 , ..., Х Р. Строго регрессионную зависимость можно определить след. об­разом.

Пусть У, Х\, Хг, ..., Х р - случайные
величины с заданным совместным рас­
пределением вероятностей.
Если для каж­
дого набора значений Χ λ =х\, Х 2 = хг, ...,
Х р = х р определено условное матем. ожи­
дание Υ(χ\, Х2, ..., Хр) - E(Y/(X] = xj,
Χι = Х2, ..., Х р = Хр)), то функция Υ(Χ],
Х2,
..., Хр) называется регрессией величи­
ны У по величинам Х\, Хг, ..., Х р, а ее
график - линией регрессии У по Х\, Хг,
..., Х р,
или уравнением регрессии. Зави­
симость У от ΛΊ, Хг ....... Х р проявляется в

изменении средних значений Упри из­
менении Х\, Хг ........ Хр. Хотя при каждом

фиксированном наборе значений X] - xj, Хг = хг, » , Хр ~ Хр величина Τ остается случайной величиной с опред. рассеяни­ем. Для выяснения вопр., насколько точно регрессия оценивает изменение У при изменении ΑΊ, Хг, ..., Х р, использует­ся средняя величина дисперсии У при разных наборах значений Х\, Хг, ..., Хр (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

На практике линия регрессии чаще всего ищется в виде линейной функции У = Ьй + biXi + ЬгХг + - + ЬрХр (линейная регрессия), наилучшим образом прибли­жающей искомую кривую. Делается это с помощью метода наименьших квадра­тов, когда минимизируется сумма квад­ратов отклонений реально наблюдаемых У от их оценок У (имеются в виду оцен­ки с помощью прямой линии, претен­дующей на то, чтобы представлять ис­комую регрессионную зависимость): w

У (У -У) => min (Ν - объем выборки), ы

Этот подход основан на том известном факте, что фигурирующая в приведен­ном выражении сумма принимает ми-ним. значение именно для того случая, когда У= Υ(χ\, хг, --, х Р). Применение

Новое на сайте

>

Самое популярное