§3. Пределы применимости распределения Парето. Усеченное распределение Парето

§3. Пределы применимости распределения Парето. Усеченное распределение Парето
Принципиально важным является ответ на вопрос, до каких пор можно прогнозировать нелинейный рост ожидаемого ущерба во времени. Действительно, для интервалов времени, превышающих период повторяемости максимально возможных катастроф, описанные выше нелинейные эффекты роста накопленных ущербов должны исчезнуть, и можно вновь применять закон больших чисел и центральную предельную теорему. Очевидно также, что возможная сила катастроф ограничена, хотя бы в силу конечности размеров нашей планеты. Действительно, очаг землетрясения не может превышать размер сейсмогенного пояса, а число жертв – всей численности населения Земли.

Определение характерного периода повторяемости максимально возможных катастроф может быть проведено на основе каталогов катастроф длительностью больше этого периода либо физически (или экономически) обоснованных ограничений на величину возможных бедствий. Однако оба эти подхода не дают пока удовлетворительного результата.

Существующие каталоги, большинство из которых охватывают относительно короткие (в несколько десятков лет) интервалы времени, не дают оснований судить о невозможности катастроф с ущербами, существенно большими, чем максимальный зафиксированный ущерб. Напротив, исторические сведения и данные по палеокатастрофам дают основание полагать, что катастрофы намного сильнее описанных в современных каталогах имели место в прошлом и, соответственно, возможны в будущем. При этом периоды повторяемости таких катастроф могут достигать нескольких тысячелетий, что намного больше длительности любых известных каталогов.

Что касается физически или экономически обоснованных пределов возможной силы катастроф, то единственно несомненные из них связаны с ограниченностью размеров нашей планеты. Такие ограничения, однако, неконструктивны, так как соответствующие им события аналогичны по своим последствиям глобальной катастрофе – "концу света".

В качестве более реалистичной статистической модели для описания потерь от природных катастроф рассмотрим усеченное распределение Парето с функцией распределения

. (11)

Попытаемся оценить точку усечения x0, исходя из выборки x1, x2, …xn. В работе для оценки параметра x0 получена несмещенная оценка, имеющая минимальную дисперсию среди всех несмещенных оценок. Она имеет вид:

, (12)

где j(x/x0) = F'(x/x0) – плотность вероятности. Подставив в (12) усеченный закон Парето (11), получим:

. (13)

Рассмотрим медиану максимального члена выборки med mn. Она определяется уравнением Fn(x/x0) = 0,5. Отсюда находим:

.

График зависимости med mn от n в логарифмическом масштабе показан на рис. 4. При относительно небольших значениях n, когда n << ln 2Ч, можно считать, что med mn ~ n1/a. При очень больших n med mn » x0.

В качестве приближенной оценки точки перелома, где нелинейный рост суммарного эффекта сменяется линейным, можно взять следующее значение n*:

(14)

В выборе n* есть некоторый произвол. Возможны и другие варианты выбора этой константы, но эти детали несущественны. Таким образом, медиану med mn можно приблизить в логарифмическом масштабе ломаной линией:

.

Рис. 4. График медианы распределения максимального члена выборки med mn для усеченного распределения Парето

Вертикальная линия: значение n*, разделяющее области нелинейного и линейного роста суммарного эффекта.

Мы видим, что нелинейный рост медианы с показателем n1/a происходит до тех пор, пока n << 2 ln 2Ч, затем он выходит на константу. Этот результат можно интерпретировать так: при достаточно малых n < n* максимальный член выборки растет как n1/a, так же, как и в случае неограниченного закона Парето. Поэтому в этом диапазоне значений n будут, в принципе, наблюдаться все эффекты, свойственные неограниченному закону Парето. В частности, средние выборочные значения будут неустойчивы и максимальный член mn будет сравним по величине с суммой Sn. Напротив, для больших значений n >> n* отношение mn/Sn будет мало, а распределение Sn будет сходиться к гауссовому закону, так как усеченное распределение Парето имеет все моменты.

Из формулы (14) видно, что для вычисления n* нужны оценки величин x0, a. Выше мы приводили такие оценки (см. (5), (13)). Их можно подставить в (14), в результате получим:

.

Следует отметить, что на практике оценки параметров a, n* часто бывают ненадежны из-за малочисленности данных в области больших значений. Поэтому любые оценки этих параметров становятся "зависимыми от моделей". Это означает, что различные законы убывания вида

дают примерно одинаковое качество подгонки в области умеренных значений. В то же время в области больших значений, которая как раз существенна для оценки n*, они могут дать сильно различаться. Тем не менее, даже если стандартное отклонение величины n* имеет порядок самой величины, такая оценка все же несет некоторую грубую информацию о диапазоне значений n, в котором плотность вероятности убывает гораздо круче, чем для умеренных значений.

Величину n* можно условно назвать "интервалом повторения сильнейших возможных событий". Для числа людей, потерявших кров из-за наводнений (рис. 2), мы получили оценку n* = 300 и затем перевели ее в годы T*, учитывая, что число событий в году в среднем равно 79/28 = 2,82. Отсюда следующая оценка интервала повторения сильнейших событий T* = 110±67 лет и оценка x0 имеет вид = (85±57)Ч106. Таким образом, можно сказать, что "наибольший возможный ущерб" в 85 млн бездомных от одного наводнения повторяется в среднем раз в 110 лет. Однако разброс вокруг этих средних значений очень велик.