Социальные и экономические объекты, как правило, характеризуются достаточно большим числом параметров, образующих многомерные векторы, и особое значение в экономических и социальных исследованиях приобретают задачи изучения взаимосвязей между компонентами этих векторов, причем эти взаимосвязи необходимо выявлять на основании ограниченного числа многомерных наблюдений.
Многомерным статистическим анализом называется раздел математической статистики, изучающий методы сбора и обработки многомерных статистических данных, их систематизации и обработки с целью выявления характера и структуры взаимосвязей между компонентами исследуемого многомерного признака, получения практических выводов.
Отметим, что способы сбора данных могут различаться. Так, если исследуется мировая экономика, то естественно взять в качестве объектов, на которых наблюдаются значения вектора X, страны, если же изучается национальная экономическая система, то естественно наблюдать значения вектора X на одной и той же (интересующей исследователя) стране в различные моменты времени.
Такие статистические методы, как множественный корреляционный и регрессионный анализ, традиционно изучаются в курсах теории вероятностей и математической статистики , рассмотрению прикладных аспектов регрессионного анализа посвящена дисциплина «Эконометрика» .
Другим методам исследования многомерных генеральных совокупностей на основании статистических данных посвящено данное пособие.
Методы снижения размерности многомерного пространства позволяют без существенной потери информации перейти от первоначальной системы большого числа наблюдаемых взаимосвязанных факторов к системе существенно меньшего числа скрытых (ненаблюдаемых) факторов, определяющих вариацию первоначальных признаков. В первой главе описываются методы компонентного и факторного анализа, с использованием которых можно выявлять объективно существующие, но непосредственно не наблюдаемые закономерности при помощи главных компонент или факторов.
Методы многомерной классификации предназначены для разделения совокупностей объектов (характеризующиеся большим числом признаков) на классы, в каждый из которых должны входить объекты, в определенном смысле однородные или близкие. Такую классификацию на основании статистических данных о значениях признаков на объектах можно провести методами кластерного и дискриминантного анализа, рассматриваемыми во второй главе (Многомерный статистический анализ с использованием “STATISTICA”).
Развитие вычислительной техники и программного обеспечения способствует широкому внедрению методов многомерного статистического анализа в практику. Пакеты прикладных программ с удобным пользовательским интерфейсом, такие как SPSS, Statistica, SAS и др., снимают трудности в применении указанных методов, заключающиеся в сложности математического аппарата, опирающегося на линейную алгебру, теорию вероятностей и математическую статистику, и громоздкости вычислений.
Однако применение программ без понимания математической сущности используемых алгоритмов способствует развитию у исследователя иллюзии простоты применения многомерных статистических методов, что может привести к неверным или необоснованным результатам. Значимые практические результаты могут быть получены только на основе профессиональных знаний в предметной области, подкрепленных владением математическими методами и пакетами прикладных программ, в которых эти методы реализованы.
Поэтому для каждого из рассматриваемых в данной книге методов приводятся основные теоретические сведения, в том числе алгоритмы; обсуждается реализация этих методов и алгоритмов в пакетах прикладных программ. Рассматриваемые методы иллюстрируются примерами их практического применения в экономике с использованием пакета SPSS.
Пособие написано на основе опыта чтения курса «Многомерные статистические методы» студентам Государственного университета управления. Для более подробного изучения методов прикладного многомерного статистического анализа рекомендуются книги .
Предполагается, что читатель хорошо знаком с курсами линейной алгебры (например, в объеме учебника и приложения к учебнику ), теории вероятностей и математической статистики (например, в объеме учебника ).
Из предисловия автора
Глава 1. Введение
1.1. Многомерное нормальное распределение как модель
1.2. Общий обзор многомерных методов
Литература
Глава 2. Многомерное нормальное распределение
2.1. Введение
2.2. Понятия, связанные с многомерными распределениями
2.3. Многомерное нормальное распределение
2.4. Распределение линейной комбинации нормально распределенных величин; независимость величин; частные распределения
2.5. Условные распределения и множественный коэффициент корреляции
2.6. Характеристическая функция; моменты
Литература
Задачи
Глава 3. Оценка вектора среднего значения и ковариационной матрицы
3.1. Введение
3.2. Оценки наибольшего правдоподобия для вектора среднего значения и ковариационной матрицы
3.3. Распределение вектора выборочного среднего; заключение о среднем значении, когда ковариационная матрица известна
Литература
Задачи
Глава 4. Распределения и использование выборочных коэффициентов корреляции
4.1. Введение
4.2. Коэффициент корреляции двумерной выборки
4.3. Частные коэффициенты корреляции
4.4. Множественный коэффициент корреляции
Литература
Задачи
Глава 5. Обобщенная T2-статистика
5.1. Введение
5.2. Обобщенная T2-статистика и ее распределение
5.3. Применения T2-статистики
5.4. Распределение T2-статистики при наличии конкурирующих гипотез; функция мощности
5.5. Некоторые оптимальные свойства критерия Т2
5.6. Многомерная проблема Беренса - Фишера
Литература
Задачи
Глава 6. Классификация наблюдений
6.1. Проблема классификации
6.2. Принципы правильной классификации
6.3. Методы классификации наблюдений в случае двух генеральных совокупностей с известным распределением вероятностей
6.4. Классификация наблюдений в случае двух генеральных совокупностей, имеющих известные многомерные нормальные распределения
6.5. Классификация наблюдений в случае двух многомерных нормальных генеральных совокупностей, параметры которых оцениваются по выборке
6.6. Классификация наблюдений в случае нескольких генеральных совокупностей
6.7. Классификация наблюдений в случае нескольких многомерных нормальных совокупностей
6.8. Пример классификации в случае нескольких многомерных нормальных генеральных совокупностей
Литература
Задачи
Глава 7. Распределение выборочной ковариационной матрицы и выборочной обобщенной дисперсии
7.1. Введение
7.2. Распределение Уишарта
7.3. Некоторые свойства распределения Уишарта
7.4. Теорема Кохрена
7.5. Обобщенная дисперсия
7.6. Распределение множества коэффициентов корреляции в случае диагональной ковариационной матрицы совокупности
Литература
Задачи
Глава 8. Проверка общих линейных гипотез. Дисперсионный анализ
8.1. Введение
8.2. Оценки параметров многомерной линейной регрессии
8.3. Критерии отношения правдоподобия для проверки линейных гипотез о коэффициентах регрессии
8.4. Моменты отношения правдоподобия в случае, когда справедлива нулевая гипотеза
8.5. Некоторые распределения величин U
8.6. Асимптотическое разложение распределения отношения правдоподобия
8.7. Проверка гипотез о матрицах коэффициентов регрессии и доверительные области
8.8. Проверка гипотезы о равенстве средних значений нормальных распределений с общей ковариационной матрицей
8.9. Обобщенный дисперсионный анализ
8.10. Другие критерии для проверки линейной гипотезы
8.11. Каноническая форма
Литература
Задачи
Глава 9. Проверка гипотезы о независимости множеств случайных величин
9.1. Введение
9.2. Отношение правдоподобия как критерий для проверки гипотезы о независимости множеств случайных величин
9.3. Моменты отношения правдоподобия при условии, что справедлива нулевая гипотеза
9.4. Некоторые распределения отношения правдоподобия
9.5. Асимптотическое разложение распределения величины h (отношения правдоподобия)
9.6. Пример
9.7. Случай двух множеств случайных величин
Литература
Задачи
Глава 10. Проверка гипотез о равенстве ковариационных матриц и о равенстве одновременно векторов среднего значения и ковариационных матриц
10.1 Введение
10.2 Критерии проверки гипотез о равенстве нескольких ковариационных матриц
10.3. Критерии проверки гипотезы об эквивалентности нескольких нормальных совокупностей
10.4. Моменты отношения правдоподобия
10.5. Асимптотические разложения функций распределения величин V1 и V
10.6. Случай двух генеральных совокупностей
10.7. Проверка гипотезы о том, что ковариационная матрица пропорциональна заданной матрице. Критерий сферичности
10.8. Проверка гипотезы о том, что ковариационная матрица равна данной матрице
10.9. Проверка гипотезы о том, что вектор среднего значения и ковариационная матрица соответственно равны данному вектору и данной матрице
Литература
Задачи
Глава 11. Главные компоненты
11.1. Введение
11.2. Определение главных компонент совокупности
11.3. Оценки наибольшего правдоподобия для главных компонент и их дисперсий
11.4. Вычисление оценок наибольшего правдоподобия для главных компонент
11.5. Пример
Литература
Задачи
Глава 12. Канонические корреляции и канонические величины
12.1. Введение
12.2. Канонические корреляции и канонические величины генеральной совокупности
12.3. Оценка канонических корреляций и канонических величин
12.4. Способ вычислений
12.5. Пример
Литература
Задачи
Глава 13. Распределение некоторых характеристических корней и векторов, не зависящих от параметров
13.1. Введение
13.2. Случай двух матриц Уишарта
13.3. Случай одной невырожденной матрицы Уишарта
13.4. Канонические корреляции
Литература
Задачи
Глава 14. Обзор некоторых других работ по многомерному анализу
14.1. Введение
14.2 Проверка гипотез о ранге и оценка линейных ограничений на коэффициенты регрессии. Канонические корреляции и канонические величины
14.3. Нецентральное распределение Уишарта
14.4. Распределение некоторых характеристических корней и векторов, зависящих от параметров
14.5. Асимптотическое распределение некоторых характеристических корней и векторов
14.6. Главные компоненты
14.7. Факторный анализ
14.8. Стохастические уравнения
14.9. Анализ временных рядов
Литература
Приложение. Теория матриц
1. Определение матриц. Действия над матрицами
2. Характеристические корни и векторы
3. Разбиение векторов и матриц на блоки
4. Некоторые результаты
5. Метод сокращения Дулиттла и метод сгущения по оси для решения систем линейных уравнений
Литература
Предметный указатель
Учебное пособие создано на основе опыта преподавания автором курсов многомерного статистического анализа и эконометрики. Содержит материалы по дискриминантному, факторному, регрессионному анализу, анализу соответствий и теории временных рядов. Изложены подходы к задачам многомерного шкалирования и некоторым другим задачам многомерной статистики.
Группировка и цензурирование.
Задача формирования групп выборочных данных таким образом, чтобы сгруппированные данные могли предоставить практически тот же объем информации для принятия решения, что и выборка до группировки, решается исследователем в первую очередь. Целями группировки, как правило, служат снижение объемов информации, упрощение вычислений и придание наглядности данным. Некоторые статистические критерии изначально ориентированы на работу со сгруппированной выборкой. В определенных аспектах задача группировки очень близка задаче классификации, о которой подробнее речь пойдет ниже. Одновременно с задачей группировки исследователь решает и задачу цензурирования выборки, т.е. исключения из нее резко выпадающих данных, как правило, являющихся следствием грубых ошибок наблюдений. Естественно, желательно обеспечить отсутствие таких ошибок еще в процессе самих наблюдений, по сделать это удается не всегда. Простейшие методы решения упомянутых двух задач рассмотрены в этой главе.
Оглавление
1 Предварительные сведения
1.1 Анализ и алгебра
1.2 Теория вероятностей
1.3 Математическая статистика
2 Многомерные распределения
2.1 Случайные векторы
2.2 Независимость
2.3 Числовые характеристики
2.4 Нормальное распределение в многомерном случае
2.5 Корреляционная теория
3 Группировка и цензурирование
3.1 Одномерная группировка
3.2 Одномерное цензурирование
3.3 Таблицы сопряженности
3.3.1 Гипотеза независимости
3.3.2 Гипотеза однородности
3.3.3 Поле корреляции
3.4 Многомерная группировка
3.5 Многомерное цензурирование
4 Нечисловые данные
4.1 Вводные замечания
4.2 Шкалы сравнений
4.3 Экспертные оценки
4.4 Группы экспертов
5 Доверительные множества
5.1 Доверительные интервалы
5.2 Доверительные множества
5.2.1 Многомерный параметр
5.2.2 Многомерная выборка
5.3 Толерантные множества
5.4 Малая выборка
6 Регрессионный анализ
6.1 Постановка задачи
6.2 Поиск ОМНК
6.3 Ограничения
6.4 Матрица плана
6.5 Статистический прогноз
7 Дисперсионный анализ
7.1 Вводные замечания
7.1.1 Нормальность
7.1.2 Однородность дисперсий
7.2 Один фактор
7.3 Два фактора
7.4 Общий случай
8 Снижение размерности
8.1 Зачем нужна классификация
8.2 Модель и примеры
8.2.1 Метод главных компонент
8.2.2 Экстремальная группировка признаков
8.2.3 Многомерное шкалирование
8.2.4 Отбор показателей для дискриминантного анализа
8.2.5 Отбор показателей в модели регрессии
9 Дискриминантный анализ
9.1 Применимость модели
9.2 Линейное прогностическое правило
9.3 Практические рекомендации
9.4 Один пример
9.5 Более двух классов
9.6 Проверка качества дискриминации
10 Эвристические методы
10.1 Экстремальная группировка
10.1.1 Критерий квадратов
10.1.2 Критерий модулей
10 2 Метод плеяд
11 Метод главных компонент
11 1 Постановка задачи
112 Вычисление главных компонент
11.3 Пример
114 Свойства главных компонент
11.4.1 Самовоспроизводимость
11.4.2 Геометрические свойства
12 Факторный анализ
12.1 Постановка задачи
12.1.1 Связь с главными компонентами
12.1.2 Однозначность решения
12.2 Математическая модель
12.2.1 Условия на Аt А
12.2.2 Условия на матрицу нагрузок. Центроидный метод
12.3 Латентные факторы
12.3.1 Метод Бартлетта
12.3.2 Метод Томсона
12.4 Пример
13 Оцифровка
13.1 Анализ соответствий
13.1.1 Расстояние хи-квадрат
13.1.2 Оцифровка для задач дискриминантного анализа
13.2 Более двух переменных
13.2.1 Использование бинарной матрицы данных в качестве матрицы соответствий
13.2.2 Максимальные корреляции
13.3 Размерность
13.4 Пример
13.5 Случай смешанных данных
14 Многомерное шкалирование
14.1 Вводные замечания
14.2 Модель Торгерсона
14.2.1 Стресс-критерий
14.3 Алгоритм Торгерсона
14.4 Индивидуальные различия
15 Временные ряды
15.1 Общие положения
15.2 Критерии случайности
15.2.1 Пики и ямы
15.2.2 Распределение длины фазы
15.2.3 Критерии, основанные на ранговой корреляции
15.2.4 Коррелограмма
15.3 Тренд и сезонность
15.3.1 Полиномиальные тренды
15.3.2 Выбор степени тренда
15.3.3 Сглаживание
15.3.4 Оценка сезонных колебаний
А Нормальное распределение
В Распределение X2
С Распределение Стьюдента
D Распределение Фишера.
Бесплатно скачать электронную книгу в удобном формате, смотреть и читать:
Скачать книгу Многомерный статистический анализ, Дронов С.В., 2003 - fileskachat.com, быстрое и бесплатное скачивание.
Скачать pdf
Ниже можно купить эту книгу по лучшей цене со скидкой с доставкой по всей России.
Многомерный статистический анализ применяют при решении следующих задач:
- * исследование зависимости между признаками;
- * классификация объектов или признаков, заданных векторами;
- * снижение размерности пространства признаков.
При этом результат наблюдений - вектор значений фиксированного числа количественных и иногда качественных признаков, измеренных у объекта. Количественный признак - признак наблюдаемой единицы, который можно непосредственно выразить числом и единицей измерения. Количественный признак противопоставляется качественному - признаку наблюдаемой единицы, определяемому отнесением к одной из двух или более условных категорий (если имеется ровно две категории, то признак называется альтернативным). Статистический анализ качественных признаков - часть статистики объектов нечисловой природы. Количественные признаки делятся на признаки, измеренные в шкалах интервалов, отношений, разностей, абсолютной.
А качественные - на признаки, измеренные в шкале наименований и порядковой шкале. Методы обработки данных должны быть согласованы со шкалами, в которых измерены рассматриваемые признаки.
Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами Х и У применяют корреляционный анализ. Если совместное распределение Х и У является нормальным, то статистические выводы основывают на выборочном коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена, а для качественных признаков - критерий хи-квадрат.
Регрессионный анализ применяют для изучения функциональной зависимости количественного признака У от количественных признаков x(1), x(2), … , x(k). Эту зависимость называют регрессионной или, кратко, регрессией. Простейшая вероятностная модель регрессионного анализа (в случае k = 1) использует в качестве исходной информации набор пар результатов наблюдений (xi, yi), i = 1, 2, … , n, и имеет вид
yi = axi + b + еi, i = 1, 2, … , n,
где еi - ошибки наблюдений. Иногда предполагают, что еi - независимые случайные величины с одним и тем же нормальным распределением N(0, у2). Поскольку распределение ошибок наблюдения обычно отлично от нормального, то целесообразно рассматривать регрессионную модель в непараметрической постановке, т.е. при произвольном распределении еi.
Основная задача регрессионного анализа состоит в оценке неизвестных параметров а и b, задающих линейную зависимость y от x. Для решения этой задачи применяют разработанный еще К.Гауссом в 1794 г. метод наименьших квадратов, т.е. находят оценки неизвестных параметров моделиa и b из условия минимизации суммы квадратов
по переменным а и b.
Дисперсионный анализ применяют для изучения влияния качественных признаков на количественную переменную. Например, пусть имеются k выборок результатов измерений количественного показателя качества единиц продукции, выпущенных на k станках, т.е. набор чисел (x1(j), x2(j), … , xn(j)), где j - номер станка, j = 1, 2, …, k, а n - объем выборки. В распространенной постановке дисперсионного анализа предполагают, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), у2) с одной и той же дисперсией.
Проверка однородности качества продукции, т.е. отсутствия влияния номера станка на качество продукции, сводится к проверке гипотезы
H0: m(1) = m(2) = … = m(k).
В дисперсионном анализе разработаны методы проверки подобных гипотез.
Гипотезу Н0 проверяют против альтернативной гипотезы Н1, согласно которой хотя бы одно из указанных равенств не выполнено. Проверка этой гипотезы основана на следующем «разложении дисперсий», указанном Р.А.Фишером:
где s2 - выборочная дисперсия в объединенной выборке, т.е.
Таким образом, первое слагаемое в правой части формулы (7) отражает внутригрупповую дисперсию. Наконец, - межгрупповая дисперсия,
Область прикладной статистики, связанную с разложениями дисперсии типа формулы (7), называют дисперсионным анализом. В качестве примера задачи дисперсионного анализа рассмотрим проверку приведенной выше гипотезы Н0 в предположении, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), у2) с одной и той же дисперсией. При справедливости Н0 первое слагаемое в правой части формулы (7), деленное на у2, имеет распределение хи-квадрат с k(n-1) степенями свободы, а второе слагаемое, деленное на у2, также имеет распределение хи-квадрат, но с (k-1) степенями свободы, причем первое и второе слагаемые независимы как случайные величины. Поэтому случайная величина

имеет распределение Фишера с (k-1) степенями свободы числителя и k(n-1) степенями свободы знаменателя. Гипотеза Н0 принимается, если F < F1-б, и отвергается в противном случае, где F1-б - квантиль порядка 1-б распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при Н1 величина F безгранично увеличивается при росте объема выборок n. Значения F1-б берут из соответствующих таблиц.
Разработаны непараметрические методы решения классических задач дисперсионного анализа, в частности, проверки гипотезы Н0.
Следующий тип задач многомерного статистического анализа - задачи классификации. Они делятся на три принципиально различных вида - дискриминантный анализ, кластер-анализ, задачи группировки.
Задача дискриминантного анализа состоит в нахождении правила отнесения наблюдаемого объекта к одному из ранее описанных классов. При этом объекты описывают в математической модели с помощью векторов, координаты которых - результаты наблюдения ряда признаков у каждого объекта. Классы описывают либо непосредственно в математических терминах, либо с помощью обучающих выборок. Обучающая выборка - это выборка, для каждого элемента которой указано, к какому классу он относится.
Рассмотрим пример применения дискриминантного анализа для принятия решений в технической диагностике. Пусть по результатам измерения ряда параметров продукции необходимо установить наличие или отсутствие дефектов. В этом случае для элементов обучающей выборки указаны дефекты, обнаруженные в ходе дополнительного исследования, например, проведенного после определенного периода эксплуатации. Дискриминантный анализ позволяет сократить объем контроля, а также предсказать будущее поведение продукции. Дискриминантный анализ сходен с регрессионным - первый позволяет предсказывать значение качественного признака, а второй - количественного. В статистике объектов нечисловой природы разработана математическая схема, частными случаями которой являются регрессионный и дискриминантный анализы.
Кластерный анализ применяют, когда по статистическим данным необходимо разделить элементы выборки на группы. Причем два элемента группы из одной и той же группы должны быть «близкими» по совокупности значений измеренных у них признаков, а два элемента из разных групп должны быть «далекими» в том же смысле. В отличие от дискриминантного анализа в кластер-анализе классы не заданы, а формируются в процессе обработки статистических данных. Например, кластер-анализ может быть применен для разбиения совокупности марок стали (или марок холодильников) на группы сходных между собой.
Другой вид кластер-анализа - разбиение признаков на группы близких между собой. Показателем близости признаков может служить выборочный коэффициент корреляции. Цель кластер-анализа признаков может состоять в уменьшении числа контролируемых параметров, что позволяет существенно сократить затраты на контроль. Для этого из группы тесно связанных между собой признаков (у которых коэффициент корреляции близок к 1 - своему максимальному значению) измеряют значение одного, а значения остальных рассчитывают с помощью регрессионного анализа.
Задачи группировки решают тогда, когда классы заранее не заданы и не обязаны быть «далекими» друг от друга. Примером является группировка студентов по учебным группам. В технике решением задачи группировки часто является параметрический ряд - возможные типоразмеры группируются согласно элементам параметрического ряда. В литературе, нормативно-технических и инструктивно-методических документах по прикладной статистике также иногда используется группировка результатов наблюдений (например, при построении гистограмм).
Задачи классификации решают не только в многомерном статистическом анализе, но и тогда, когда результатами наблюдений являются числа, функции или объекты нечисловой природы. Так, многие алгоритмы кластер-анализа используют только расстояния между объектами. Поэтому их можно применять и для классификации объектов нечисловой природы, лишь бы были заданы расстояния между ними. Простейшая задача классификации такова: даны две независимые выборки, требуется определить, представляют они два класса или один. В одномерной статистике эта задача сводится к проверке гипотезы однородности.
Третий раздел многомерного статистического анализа - задачи снижения размерности (сжатия информации). Цель их решения состоит в определении набора производных показателей, полученных преобразованием исходных признаков, такого, что число производных показателей значительно меньше числа исходных признаков, но они содержат возможно большую часть информации, имеющейся в исходных статистических данных. Задачи снижения размерности решают с помощью методов многомерного шкалирования, главных компонент, факторного анализа и др. Например, в простейшей модели многомерного шкалирования исходные данные - попарные расстояния между k объектами, а цель расчетов состоит в представлении объектов точками на плоскости. Это дает возможность в буквальном смысле слова увидеть, как объекты соотносятся между собой. Для достижения этой цели необходимо каждому объекту поставить в соответствие точку на плоскости так, чтобы попарные расстояния sij между точками, соответствующими объектам с номерами i и j, возможно точнее воспроизводили расстояния сijмежду этими объектами. Согласно основной идее метода наименьших квадратов находят точки на плоскости так, чтобы величина
достигала своего наименьшего значения. Есть и многие другие постановки задач снижения размерности и визуализации данных.
вероятность математический статистика качество
выборочной табл. сопряженности макс, правдоподобных оценок:
G 2 = -2 ^ п щ Щт т ■ п ш)
имеет асимптотическое χ 2 -распределение. На этом основана стат. проверка гипотезы о взаимосвязях.
Опыт обработки данных с помощью А.л. показал его эффективность как способа целенаправленного анализа многомерной табл. сопряженности, содержащей (в случае содержательно разумного выбора переменных) огромный, по сравнению с двухмерными табл., объем интересующей социолога информации. Метод позволяет сжато описать эту табл. (в виде гипотезы о связях) и в то же время детально проанализировать конкр. взаимосвязь. Ал. обычно применяется многоэтапно, в форме диалога социолог-ЭВМ. Т.о., А.л. обладает значительной гибкостью, представляет возможность формулировать разнообразного вида предположения о взаимосвязях, включать опыт социолога в процедуру формального анализа данных.
Лит.: Аптоп Г. Анализ табл. сопряженности. М., 1982; Типология и классификация в социол. иссл-ях. М., 1982; Bishop Y.M.M. et ai. Discrete Multivariate Analysis. N.Y., 1975; Agresti A. An Introduction to Categorical Data Analysis. N.Y., 1966.
А.А. Мирзоев
АНАЛИЗ МНОГОМЕРНЫЙ СТАТИСТИЧЕСКИЙ - разд. статистики математической, посвященный матем. методам, направленным на выявление характера и структуры взаимосвязей между компонентами исследуемого признака многомерного и предназначенным для получения науч. и практических выводов. Исходным массивом многомерных данных для проведения А.м.с. обычно служат рез-ты измерения компонент многомерного признака для каждого из объектов исследуемой совокупности, т.е. последовательность многомерных наблюдений (см. Наблюдение в статистике). Многомерный признак чаще всего интерпретируется как многомерная вели-
чина случайная, а последовательность многомерных наблюдений - как выборка из генеральной совокупности. В этом случае выбор метода обработки исходных стат. данных производится на основе тех или иных допущений относительно природы закона распределения изучаемого многомерного признака (см. Распределение вероятностей).
1. А.м.с. многомерных распределений и их осн. характеристик охватывает ситуации, когда обрабатываемые наблюдения имеют вероятностную природу, т.е. интерпретируются как выборка из соотв. генеральной совокупности. К осн. задачам этого подраздела относятся; оценивание статистическое исследуемых многомерных распределений и их осн. параметров; иссл-е свойств используемых стат. оценок; иссл-е распределений вероятностей для ряда статистик, с помощью к-рых строятся стат. критерии проверки разл. гипотез о вероятностной природе анализируемых многомерных данных (см. Проверка статистических гипотез).
2. А.м.с. характера и структуры взаимосвязей компонент исследуемого многомерного признака объединяет понятия и рез-ты, присущие таким методам и моделям, как анализ регрессионный, анализ дисперсионный, анализ ковариационный, анализ факторный, анализ латентно-структурный, анализ логяшейный, поиск взаимодействий. Методы, принадлежащие к этой гр., включают как алгоритмы, осн. на предположении о вероятностной природе данных, так и методы, не укладывающиеся в рамки к.-л. вероятностной модели (последние чаще относят к методам анализа данных).
3. А.м.с. геометрической структуры исследуемой совокупности многомерных наблюдений объединяет понятия и рез-ты, свойственные таким моделям и методам, как анализ дискриминантиый, анализ кластерный (см. Методы классификации, Шкала). Узловым для этих моделей явл. понятие расстояния либо меры близости между анализируемыми элементами как точками нек-рого про-
АНАЛИЗ ПРИЧИННЫЙ
странства. При этом анализироваться могут как объекты (как точки, задаваемые в признаковом пространстве), так и признаки (как точки, задаваемые в «объектном» пространстве).
Прикладное значение А.м.с. состоит в осн. в обслуживании след. трех проблем: стат. иссл-я зависимостей между рассматриваемыми показателями; классификации элементов (объектов) или признаков; снижения размерности рассматриваемого признакового пространства и отбора наиб, информативных признаков.
Лит.: Стат. методы анализа социол. информации. М., 1979; Типология и классификация в социол. иссл-ях. М., 1982; Интерпретация и анализ данных в социол, иссл-ях. М., 1987; Айвазян С.А., Мхи-тарян В. С. Прикладная статистика и основы эконометрики: Учеб. М., 1998; Сош-никова Л.А. и др. Многомерный стат. анализ в экономике. М., 1999; Дубров А.М., Мхитарян В. С, Трошин Л.И. Многомерные стат. методы для экономистов и менеджеров. М., 2000; Ростовцев B.C., Ковалева Т.Д. Анализ социол. данных с применением стат. пакета SPSS. Новосибирск, 2001; Тюрин Ю.Н., Макаров А. А. Анализ данных на компьютере. Ы., 2003; Крыш-тановский А. О. Анализ социол. данных с помощью пакета SPSS. Μ., 2006.
ЮН. Толстова
АНАЛИЗ ПРИЧИННЫЙ - методы моделирования причинных отношений между признаками с помощью систем стат. уравнений, чаще всего регрессионных (см. Анализ регрессионный). Существуют и др. названия этой довольно обширной и постоянно изменяющейся области методов: путевой анализ, как впервые назвал его основоположник С. Райт; методы структурных эконометрических уравнений, как принято в эконометрике, и др. Осн. понятиями А.п. явл.: путевая (структурная, причинная) диаграмма, причинный (путевой) коэффициент, прямые, косвенные и мнимые компоненты связи между признаками. Используемое в А.п. понятие «причинное отношение* не затрагивает сложных фи-
лос. проблем, связанных с понятием «причинность». Причинный коэффициент опред. вполне операционально. Ма-тем. аппарат дает возможность проверки наличия прямых и косвенных причинных связей между признаками, а также выявления тех компонент корреляционных коэффициентов (см. Корреляция), к-рые связаны с прямыми, косвенными и мнимыми связями.
Путевая диаграмма отражает графически гипотетически предполагаемые причинные, направленные связи между признаками. Система признаков с однонаправленными связями называется рекурсивной. Нерекурсивные причинные системы учитывают также и обратные связи, напр., два признака системы могут быть одновременно и причиной, и следствием по отношению друг к другу. Все признаки делятся на признаки-следствия (зависимые, эндогенные) и признаки-причины (независимые, экзогенные). Однако в системе уравнений эндогенные признаки одного из уравнений могут быть экзогенными признаками др. уравнений. В случае четырех признаков рекурсивная диаграмма всех возможных связей между признаками имеет вид:
| х 2 | |||||
| / | N | ||||
| *1 | К | ||||
| г | |||||
| к | S |
Построение диаграммы связей явл. необходимой предпосылкой матем. формулирования системы стат. уравнений, отражающей влияния, представленные на диаграмме. Осн. принципы построения системы регрессионных уравнений проиллюстрируем на примере тех же четырех признаков. Идя по ходу стрелок, начиная с Хи находим первый эндоген-
АНАЛИЗ ПРИЧИННЫЙ
ный признак и отмечаем те признаки, к-рые на него влияют как прямо (непосредственно), так и косвенно (опосредованно) и через др. признаки. Первое стандартизированное регрессионное уравнение соответствует первому эндогенному признаку Xj и выражает зависимость Χι от тех признаков, к-рые на него влияют, т.е. от Χγ. Т.о., первое уравнение имеет вид: Χι = bi\X\.
Затем выявляем второй эндогенный признак, к-рый имеет направленные на него связи. Это признак Aj, ему соответствуют экзогенные переменные Х\ и Χι, поэтому второе регрессионное уравнение в стандартизированном виде формулируется так: Aj = ЬцХ\ + ЬпХг и т.д. С учетом ошибок измерения U система стандартизованных регрессионных моделей для нашей конкретной причинной диаграммы имеет вид: Х\ = Ui, А? =
- Ь->\Х\ + Ui, Хт, = 631ΑΊ + byiXi + Uy, Χα -
- baXi + binXi + Й43А3 + Щ. Чтобы оценить коэффициенты b, s , необходимо ее решить. Решение существует при условии, что данные удовлетворяют нек-рым естеств. стат. требованиям. Ь$ называются причинными коэффициентами и часто обозначаются как Ру. Т.о., Р# показывает ту долю изменения вариации эндогенного признака;, к-рая происходит при изменении экзогенного признака j на единицу стандартного отклонения этого признака при условии, что влияние остальных признаков уравнения исключается (см. Анализ регрессионный). Иначе говоря, Р,у есть прямой эффект признака j на признак г. Косвенный эффект признака j на;) вычисляется на основе учета всех путей влияния j на i за исключением прямого.
На диаграмме прямое влияние первого признака на четвертый схематически представление прямой стрелой, непосредственно идущей от Χι к Xt, символически изображаемое как 1->4; оно равно коэффициенту причинного влияния Р, Х 2 , ..., Х Р. Строго регрессионную зависимость можно определить след. образом.
Пусть У, Х\, Хг,
..., Х р -
случайные
величины с заданным совместным рас
пределением вероятностей.
Если для каж
дого набора значений Χ λ =х\, Х 2
= хг,
...,
Х р = х р
определено условное матем. ожи
дание Υ(χ\, Х2,
..., Хр) - E(Y/(X]
= xj,
Χι
= Х2, ..., Х р = Хр)),
то функция Υ(Χ],
Х2,
..., Хр)
называется регрессией величи
ны У по величинам Х\, Хг,
..., Х р,
а ее
график - линией регрессии У по Х\, Хг,
..., Х р,
или уравнением регрессии. Зави
симость У от ΛΊ, Хг
....... Х р
проявляется в
изменении средних значений Упри из
менении Х\, Хг
........ Хр.
Хотя при каждом
фиксированном наборе значений X] - xj, Хг = хг, » , Хр ~ Хр величина Τ остается случайной величиной с опред. рассеянием. Для выяснения вопр., насколько точно регрессия оценивает изменение У при изменении ΑΊ, Хг, ..., Х р, используется средняя величина дисперсии У при разных наборах значений Х\, Хг, ..., Хр (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).
На практике линия регрессии чаще всего ищется в виде линейной функции У = Ьй + biXi + ЬгХг + - + ЬрХр (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых У от их оценок У (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость): w
У (У -У) => min (Ν - объем выборки), ы
Этот подход основан на том известном факте, что фигурирующая в приведенном выражении сумма принимает ми-ним. значение именно для того случая, когда У= Υ(χ\, хг, --, х Р). Применение







