§2. Методы обработки данных, имеющих распределения с тяжелыми хвостами

§2. Методы обработки данных, имеющих распределения с тяжелыми хвостами
Один из общих подходов к обработке положительных величин, имеющих распределения с тяжелым хвостом, состоит в переходе от наблюдаемых величин xi к их логарифмам yi = ln xi. В случае степенного убывания хвостов с любым показателем степени величины yi уже будут иметь все статистические моменты и, таким образом, к ним можно применять стандартные методы статистической обработки. Методика оценки параметров устойчивых законов (в том числе и устойчивых законов с тяжелыми хвостами)

Следует отметить два недостатка этого подхода. Во-первых, переход к логарифмам часто приводит к асимметричным распределениям, которые медленно сходятся к гауссовому закону. А во-вторых, и это гораздо важнее, если нас интересует суммарный эффект Sn, то переход к логарифмам не поможет, ибо связать поведение Sn и ln x1 + ln x2 +… + ln xn в общем случае очень трудно.

Остановимся подробнее на важном частном случае, когда можно считать априори известным, что хвост распределения удовлетворительно описывается степенной зависимостью при x, превышающем некоторый также известный порог x0 (отметим, что для каждого типа природных и техногенных катастроф этот вопрос должен рассматриваться отдельно на основе известной статистики или результатов математического моделирования). При этом не обязательно, чтобы это приближение выполнялось для всего диапазона наблюдаемых значений, достаточно, чтобы оно выполнялось для хвоста распределения, т.е. при x > x0. Действительно, для распределений с тяжелыми хвостами основной вклад в суммарный эффект Sn вносят наибольшие наблюдения. Поэтому указанное пороговое ограничение не скажется заметно на оценке вероятностных характеристик сумм Sn при достаточно больших значениях n. После перенормировки на известное значение порога можно считать, что нормированные величины x/x0 имеют распределение Парето (1). Нужно только выбирать порог x0 так, чтобы осталось достаточное для оценки параметра a число наблюдений выше этого порога. Практика показывает, что следует оставлять не менее 2530 наибольших наблюдений. Оценка максимального правдоподобия для параметра a имеет вид:

. (5)

В качестве разброса этой оценки можно взять стандартное отклонение sa

. (6)

Если для медианы максимального члена med mn использовать выражение (3), то в качестве оценки характерного значения суммы можно взять значение

, где (7)

. (8)

Для распределения Парето математическое ожидание (8) можно вычислить точно:

,

где через b(x;y) обозначена бета-функция. В табл. 1 приведены величины Rn для некоторых значений a и n.

Таблица 1.Средние значения отношений Sn/mn

Параметр a Объем выборки, n
10 20 50 100 2000 5000 1000 Ґ
0,7 2,23 2,52 2,78 2,92 3,03 3,13 3,18 3,33
0,9 2,66 3,21 4,32 4,74 5,25 5,60 6,60 10,0
1,0 2,97 3,62 4,51 5,19 5,88 6,79 7,49 Ґ
1,5 5,84 7,36 9,98 12,58 15,85 21,51 27,10 Ґ

Неизвестный параметр a в (7) и (8) надо заменить на его оценку (5). При этом погрешность такой замены можно проконтролировать, подставив в (7) и (8) значения ±sa, где sa берется из (6). Оценку бSnс по формуле (7) можно использовать для предсказания будущих характерных значений суммарного эффекта Sn. Как мы уже отмечали и как это видно из формулы (7), эта оценка растет нелинейно с увеличением n. Поскольку величина n обычно пропорциональна интервалу времени наблюдения, то можно сказать, что суммарный эффект растет нелинейно со временем.

Заметим, что хотя среднее значение отношения Sn/mn согласно (4) стремится при n ® Ґ к константе 1/(1 – a) в случае a < 1, дисперсия этого отношения не уменьшается до нуля; она также стремится к некоторой константе.

Характерные значения сумм Sn растут согласно уравнению (7). Однако случайные отклонения весьма велики. Поэтому во многих приложениях прогноз суммарного эффекта целесообразней делать не в виде точечной оценки (7), а в виде доверительного интервала такого, что

,

где e – задаваемое исследователем малое число, характеризующее уровень доверия. Можно дать следующую приближенную оценку для верхней доверительной границы

. (9)

Оценка для нижней доверительной границы – соответственно:

. (10)

На рис. 3 приведены доверительные 68%е интервалы для суммарного числа людей, потерявших жилье в результате наводнений, рассчитанные по описанной методике.

Рис. 3. Прогноз будущих возможных накопленных ущербов

Значение Sn (суммарное число бездомных в результате будущих n наводнений) представлено медианой med S и верхней и нижней доверительными кривыми с уровнем доверия 0,68 в зависимости от n. Upper. lim здесь верхняя граница, lower. lim – нижняя граница, ломаная линия – реальные накопленные ущербы за 19641991 гг.

Подводя итоги изложенной в данном разделе методики статистического прогноза характерных значений Sn в виде соотношения (7) и доверительных интервалов для них в виде (9)–(10), можно сделать следующие выводы.

Для наблюдений с тяжелыми хвостами методика статистической обработки должна быть нетрадиционной. Прежде всего, учитывая упоминавшийся выше нелинейный рост суммарного ущерба со временем, не следует даже ставить вопрос о среднегодовых значениях ущерба – их теоретических аналогов просто не существует. Обычные средневыборочные значения не только ни к чему не сходятся, но и имеют тенденцию роста с увеличением длины каталога. Такой рост можно ошибочно принять за нестационарность ряда наблюдений (что иногда и делается со ссылками на предполагаемое общее ухудшение геоэкологической обстановки). Однако нелинейный ускоренный рост ущерба со временем имеет место даже и в том случае, когда все характеристики используемой статистической модели неизменны во времени, и, следовательно, система стационарна. Эффект кажущейся нестационарности статистически не зависит от момента времени начала накопления каталога. Напротив, реальная нестационарность зависит от изменения начала отсчета.

Для случая распределений с тяжелыми хвостами пропорционально времени нарастает не суммарный ущерб, а количество событий в определенном диапазоне значений ущербов. Если исходить из этого (адекватного задаче) критерия стационарности, то режим природных катастроф в XX веке оказывается довольно стационарным. Так, для наиболее исследованного случая землетрясений количество катастроф, повлекших большое количество жертв (например, не менее тысячи человек), нарастает пропорционально времени. Более быстрое увеличение числа слабых катастроф (например, вызвавших гибель от одного до 10 чел.) связано, по-видимому, с худшей регистрацией слабых катастроф в первой половине нашего века. Во всяком случае, к концу столетия рост числа таких катастроф становится пропорциональным времени, причем раньше это происходит в экономически более развитых странах, с лучшей системой регистрации.

Целесообразней характеризовать величину суммарного ущерба интервалом возможных значений, который содержит истинное значение с заданной, близкой к единице, вероятностью. Разумно использовать 90%е и 95%е доверительные интервалы, которые покрывают истинное значение суммарного ущерба.