Интересные свойства ковариационной матрицы

Определения[править | править код]

  • Пусть X : Ω → R n {displaystyle mathbf {X} :Omega to mathbb {R} ^{n}} {mathbf  {X}}:Omega to {mathbb  {R}}^{n}, Y : Ω → R m {displaystyle mathbf {Y} :Omega to mathbb {R} ^{m}} {mathbf  {Y}}:Omega to {mathbb  {R}}^{m} — два случайных вектора размерности n {displaystyle n} n и m {displaystyle m} m соответственно. Пусть также случайные величины X i , Y j , i = 1 , … , n , j = 1 , … , m {displaystyle X_{i},Y_{j},;i=1,ldots ,n,;j=1,ldots ,m} X_{i},Y_{j},;i=1,ldots ,n,;j=1,ldots ,m имеют конечный второй момент (дисперсию), то есть X i , Y j ∈ L 2 {displaystyle X_{i},Y_{j}in L^{2}} X_{i},Y_{j}in L^{2}. Тогда матрицей ковариации векторов X , Y {displaystyle mathbf {X} ,mathbf {Y} } {mathbf  {X}},{mathbf  {Y}} называется

Σ = c o v ( X , Y ) = E [ ( X − E X ) ( Y − E Y ) ⊤ ] , {displaystyle Sigma =mathrm {cov} (mathbf {X} ,mathbf {Y} )=mathbb {E} left[(mathbf {X} -mathbb {E} mathbf {X} )(mathbf {Y} -mathbb {E} mathbf {Y} )^{top }right],} Sigma ={mathrm  {cov}}({mathbf  {X}},{mathbf  {Y}})={mathbb  {E}}left[({mathbf  {X}}-{mathbb  {E}}{mathbf  {X}})({mathbf  {Y}}-{mathbb  {E}}{mathbf  {Y}})^{{top }}right],

то есть

Σ = ( σ i j ) {displaystyle Sigma =(sigma _{ij})} Sigma =(sigma _{{ij}}),

где

σ i j = c o v ( X i , Y j ) ≡ E [ ( X i − E X i ) ( Y j − E Y j ) ] , i = 1 , … , n , j = 1 , … , m {displaystyle sigma _{ij}=mathrm {cov} (X_{i},Y_{j})equiv mathbb {E} left[(X_{i}-mathbb {E} X_{i})(Y_{j}-mathbb {E} Y_{j})right],;i=1,ldots ,n,;j=1,ldots ,m} sigma _{{ij}}={mathrm  {cov}}(X_{i},Y_{j})equiv {mathbb  {E}}left[(X_{i}-{mathbb  {E}}X_{i})(Y_{j}-{mathbb  {E}}Y_{j})right],;i=1,ldots ,n,;j=1,ldots ,m, E {displaystyle mathbb {E} } {mathbb  {E}} — математическое ожидание.

5.1Напоминание: постановка задачи и метод наименьших квадратов

Наша модель выглядит следующим образом. Есть набор

x1,,xnRd

. Мы их считаем фиксированными (неслучайными). Также есть некоторыйфиксированный вектор весов

wRd

. Значения

yi

определяютсяследующим образом:

yi=w,xi+εi,(5.1)

где

εi

— случайные величины со следующими свойствами:

  1. E[εi]=0;
  2. D[εi]=σ2<;
  3. cov(εi,εj)=0 для ij.

Напомним, что

ковариацией

случайных величин

ξ

и

η

называется число

cov(ξ,η)=E[(ξE[ξ])(ηE[η])].

Если случайные величины независимы, их ковариация равна нулю.

Обозначим через X матрицу, в которой по строкам записаны векторы xi. Этоматрица с n строками и d столбцами. Пусть y=(y1,,yn) — векторправильных ответов и ε=(ε1,,εn) — вектор ошибок.Уравнение (5.1) можно записать в матричной форме:

y=Xw+ε

МНК-оценкой для

w

называется вектор

^wRd

,который является решением оптимизационной задачи

X^wy2min^w.(5.2)

Если столбцы матрицы

X

линейно независимы, то решение этой задачи являетсяединственным и его можно найти с помощью формулы

^w=(XTX)1XTy.(5.3)

5.1.1Геометрическая интерпретация

Рассмотрим пространство

Rn

. Обозначим столбцы матрицы

X

через

x(1),,x(d)

, они являются элементами

Rn

. Рассмотриммножество

L={XwwRn}

. Оно задаёт

d

-мерное линейноеподпространство в пространстве

Rn

, натянутое на столбцы матрицы

X

.Оптимизационная задача

(5.2)

состоит в нахождении точки

^y=X^w

, ближайшей к точке

y

. Чтобы найти такую точку, достаточноспроектировать

y

на

L

ортогонально. Чтобы найти

^w

, нужно разложить

^y

по базису в

L

, составленному из столбцов матрицы

X

.

Эта интерпретация часто бывает полезна, но про некоторые вещи с её помощьюневозможно думать: например, невозможно себе представить, что значит «найтипредсказание для нового x (отличного от тех, что есть в обучающей выборке)».

Субковариантные матрицы

Ковариационная матрица может быть разложена на множество уникальных (2×2) ковариационных матриц. Количество уникальных субковариационных матриц равно количеству элементов в нижней половине матрицы, исключая основную диагональ. Ковариационные матрицы (DxD) будут иметь уникальные субковариационные матрицы D * (D + 1) / 2-D. Например, трехмерная ковариационная матрица показана в уравнении (0).

Можно видеть, что каждый элемент в ковариационной матрице представлен ковариацией между каждой (i, j) размерной парой. Уравнение (1) показывает разложение (DxD) на несколько (2×2) ковариационных матриц. Для размерного случая (3×3) будут 3 * 4 / 2–3 или 3 уникальные субковариантные матрицы.

Обратите внимание, что генерация случайных субковариационных матриц может не привести к действительной ковариационной матрице. Ковариационная матрица должна быть положительной полуопределенной, и дисперсия для каждого диагонального элемента субковариантной матрицы должна совпадать с дисперсией по диагонали ковариационной матрицы.

3.10 Коэффициент корреляции. Свойства. Линейная корреляционная зависимость.

Коэффициент корреляции-это мера линейной зависимости двух случайных величин.

img-Wd2VpA.png

Где Kxy обозначает ковариацию, а D- дисперсию.

1)img-7gVWtw.png

2) Коэффициент корреляции равен +- 1 тогда и только тогда, когда X и Y линейно зависимы:

img-iD1V84.png

3) Если X,Y независимые случайные величины, то qX,Y = 0. Обратное, вообще говоря, неверно.

Корреляционная зависимость между х и у называется линейной, если обе линии регрессии (по у и у по х) являются прямыми.

3.11 Двумерное нормальное распределение. Центр рассеивания. Формула вероятности

попадания в прямоугольник.

Двумерный случайный вектор имеет нормальное распределение, если его плотность равна

img-KDvQj7.png

Средние значения (математические ожидания) М[x]=a M[Y]=b определяют точку (a,b) , называемую центром совместного распределения вероятностей или центром рассеивания.

Формула вероятности попадания…

img-D1HwGU.png

img-hHiu4_.png

img-Ikdj9G.pngimg-K0tcih.png

img-5bgSoD.png

5.2Несмещённость МНК-оценки

Утверждение 1.

МНК-оценка является несмещённой, то есть

E[^w]=w.

Доказательство.

Для доказательства нам потребуются две вспомогательные леммы (очень простые).

Лемма 1.

Матожидание коммутирует со скалярным произведением на фиксированныйвектор, то есть для любого случайного вектора

zRk

ипостоянного вектора

uRk

E[u,z]=u,E[z]

Доказательство леммы.

Это переформулировка линейности матожидания. Пусть

u=(u1,,uk)

и

z=(z1,,zk)

. Тогда

E[u,z]=E[u1z1++ukzk]=u1E[z1]++ukE[zk]=u,E[z].

Лемма 2.

Матожидание коммутирует с умножением на фиксированную матрицу, то естьдля любого случайного вектора

zRk

и постоянной матрицы

A

с

k

столбцами справедливо:

E[Az]=AE[z]

Доказательство леммы.

Каждая компонента вектора

Az

является скалярным произведением строкиматрицы

A

на вектор

z

. Дальше применяем

лемму 1

покомпонентно и получаем требуемое.

Вернёмся к доказательству утверждения. Имеем:E[^w]=E[(XTX)1XTy]=E[(XTX)1XT(Xw+ε)]==E[(XTX)1(XTX)w]+E[(XTX)1XTε]==E[w]+(XTX)1XTE[ε]=E[w].В предпоследнем переходе мы воспользовались леммой 2, впоследнем — предположением о том, что матожидание ε равно нулю.

Геометрические последствия

Еще один способдумать оковариационная матрица геометрически. По сути, ковариационная матрица представляет направление и масштаб распространения данных. Чтобы понять эту перспективу, необходимо будет понять собственные значения и собственные векторы.

Уравнение (4) показывает определение собственного вектора и связанного с ним собственного значения. Следующее утверждение важно для понимания собственных векторов и собственных значений. Z является собственным вектором M, если умножение матрицы M * z приводит к одному и тому же вектору z, масштабированному по некоторому значению lambda. Другими словами, мы можем думать о матрице M как о матрице преобразования, которая делаетнеизменить направление z или z является базисным вектором матрицы M.

Лямбда – скаляр собственного значения (1×1), z – матрица собственного вектора (Dx1), а M – ковариационная матрица (DxD). Положительная полуопределенная (DxD) ковариационная матрица будет иметь D собственных значений и (DxD) собственных векторов. Первый собственный вектор всегда находится в направлении наибольшего разброса данных, все собственные векторы ортогональны друг другу, и все собственные векторы нормированы, т.е. они имеют значения между 0 и 1. Уравнение (5) показывает векторизованное соотношение между ковариационной матрицей, Собственные векторы и собственные значения.

S – матрица диагонального масштабирования (DxD), где диагональные значения соответствуют собственному значению и представляют дисперсию каждого собственного вектора. R – матрица вращения (DxD), которая представляет направление каждого собственного значения.

Матрицы собственных векторов и собственных значений представлены в уравнениях выше для уникальной (i, j) субковариантной матрицы. Собственные векторы субковариационной матрицы, показанные в уравнении (6), для каждого столбца имеют один параметр, тета, который управляет величиной поворота между каждой (i, j) размерной парой. Собственные значения ковариационной матрицы находятся по диагональным элементам уравнения (7) и представляют дисперсию каждого измерения. Он имеет D параметров, которые контролируют масштаб каждого собственного вектора

Построение контуров гауссовой смеси

Контуры гауссовой смеси можно визуализировать в нескольких измерениях путем преобразования (2×2) единичного круга с помощью субковариантной матрицы. Контур с конкретным стандартным отклонением может быть нанесен путем умножения матрицы масштабирования на квадрат значения желаемого стандартного отклонения. Затем кластеры сдвигаются к соответствующим значениям центроидов. Код для генерации сюжета ниже можно найтиВот,

Рисунок 2. Контуры гауссовой смеси

На рисунке 2. показано решение с 3-кластерной моделью гауссовой смеси, обученное на наборе данных радужной оболочки Контуры представляют плотность вероятности смеси при определенном стандартном отклонении от центроида. На рисунке 2. контуры построены для 1 стандартного отклонения и 2 стандартных отклонений от центроида каждого кластера.

5.2 Неравенство Маркова для с.В. Принимающих неотрицательные значения

Пусть Х — случайная величина, принимающая лишь неотрицательные значения. Тогда можно получить следующее неравенство:

img-dGwevq.png; где img-Mduhha.png

Для определенности предположим, что Х — непрерывная случайная величина с плотностью f(х). По определению математического ожидания получаем

img-IZoRO0.pngimg-FBdcr4.png

Оба слагаемых в правой части не отрицательны, в силу условий леммы, поэтому

62fcedaa30d148f0b90eb962585b6ce9.jpg

В первой части мы рассказали о сути преобразования девиации и его применении к матрице квадратов расстояний. Во второй немного напустили туману на спектры простых геометрических наборов.

В данной статье мы постараемся раскрыть смысл преобразования девиации, для чего обратимся к прикладным задачам, связанным с обработкой и анализом данных. Покажем, как связано преобразование девиации матрицы расстояний со статистикой — с дисперсией, корреляцией и ковариацией.

Смотри также

  • Выборка
  • Метод главных компонент
  • Регрессионный анализ

Примечания[править | править код]

  1. 1 2 А. Н. Ширяев. Глава 2, §6. Случайные величины II // Вероятность. — 3-е изд. — Cambridge, New York,…: МЦНМО, 2004. — Т. 1. — С. 301. — 520 с.
Рейтинг
( 1 оценка, среднее 5 из 5 )
Загрузка ...