§1. Статистика катастроф и бедствий. Распределения с тяжелыми хвостами

§1. Статистика катастроф и бедствий. Распределения с тяжелыми хвостами

Рис. 1. Кумулятивная гистограмма распределения 30и природных катастроф 1970-1995 гг. с наибольшим количеством жертв

По оси абсцисс отложено количество x жертв в тысячах, а по оси ординат – количество событий N, число жертв в которых было больше данного аргумента x. Прямая линия в логарифмическом масштабе – закон Парето с a = 0,70.

При внимательном анализе статистических данных по крупнейшим катастрофам выясняется, что они проявляют весьма необычные особенности, плохо укладывающиеся в привычные представления. Так, при Тянь-Шанском землетрясении 28.07.1976 г. в Китае погибло (по разным источникам) от 240 до 650 тыс. чел., что в десятки тысяч раз превосходит число погибших при обычном, "рядовом" разрушительном землетрясении.

Эта же закономерность наблюдается для наводнений. При наводнении 1931 г. на реке Янцзы в Китае погибло около 1,3 млн чел. Наводнение 1970 г. в Бангладеш вызвало гибель более 500 тыс. чел. Гигантские экстраординарные значения наблюдаются и для стоимостных характеристик ущерба, что типично для наиболее экономически развитых стран. При этом перечисленные катастрофы (происшедшие в нашем столетии), по-видимому, не являются максимально возможными. Во всяком случае, летописные источники и древнейшие памятники человечества описывают еще более разрушительные катаклизмы.

Таким образом, в ряду ущербов от катастроф изредка встречаются суперэкстремальные значения, несоизмеримые по величине со значениями для подавляющей части событий. Ущерб от этих суперэкстремальных событий сравним с суммарным ущербом от всех катастроф за тот же период времени.

На рис. 1 приведена накопленная гистограмма хвоста выборочного распределения для 30 наихудших, в смысле количества человеческих жертв, природных катастроф (землетрясения, ураганы, наводнения) за 1970-1995 гг. Данные взяты из книги Здесь N(xi > x) – количество событий с числом жертв xi, большим заданного аргумента x. Из рис. 1 видно, что в логарифмическом масштабе хвост распределения хорошо приближается прямой с наклоном около 0,7, т.е. N(xi > x) ~ x0,7 в рассматриваемом диапазоне значений. Таким образом, количество событий с числом жертв, превышающим x, убывает очень медленно при x ® Ґ. И если при анализе "привычных" статистических зависимостей мы обыкновенно пренебрегаем возможностью очень крупных событий, лежащих на быстро убывающем "хвосте" распределения, то здесь мы этого сделать не можем. Более того, по причинам, которые будут указаны далее, можно рассматривать только "хвост", отвлекаясь от поведения распределения при малых x. Подобные распределения называются распределениями с тяжелыми хвостами (heavy tails или fat tails). Мы не будем давать строгое определение этого термина, поскольку в литературе можно найти различные его трактовки. Суть их всех состоит в одном и том же: распределение с тяжелым хвостом – это распределение, хвост которого нельзя "отрезать", т.е. нельзя пренебречь крупными, но редкими событиями.

Простейшим распределением, имеющим тяжелый хвост, является так называемое распределение Парето, для которого функция распределения F(x) = Prob{x < x}, определяющая вероятность того, что соответствующая случайная величина принимает значение, меньшее x, задается соотношением

. (1)

Соответственно плотность вероятности j(x) = F'(x) ~ x(1+a). Основная "неприятность", связанная с такими распределениями, состоит в том, что моменты достаточно высокого порядка

у них расходятся:

. (2)

Для распределения Парето с a Ј 1 бесконечно уже среднее M1 = Ґ. Очевидно, что на расходимость моментов влияет только тяжелый хвост распределения, "перевешивающий голову", описывающую вероятность наиболее частых, но небольших событий. Вид "головы" при этом оказывается не очень существенным, а решающую роль играет только асимптотика хвоста.

Рассмотрим распределение Парето (1) с a < 1. Сумма Sn = x1+x2+…+xn при нормировке на n1/a сходится к так называемому устойчивому закону с соответствующим показателем. Иными словами, сумма Sn с ростом n растет нелинейно как n1/a. Этот же вывод можно получить более простым способом, не прибегая к помощи устойчивых законов и необходимой для сходимости к ним нормировки на множитель n1/a. Рассмотрим максимальный член mn выборки x1, x2,… xn:

.

Распределение mn выписывается сразу:

.

Уравнение для медианы med mn (медианой распределения называется такое число, что ровно в половине случаев случайная величина принимает значения меньше него и, соответственно, ровно в половине случаев – больше) имеет вид F n(x) = 0,5. Отсюда находим:

. (3)

Из равенства (3) следует, что характерная величина максимального члена mn, если в качестве этой величины взять медиану med mn, растет с точностью до множителя как n1/a. Поскольку для неотрицательных величин Sn і mn, то мы снова убеждаемся в том, что Sn должна возрастать с ростом n нелинейно, а именно, не медленнее, чем n1/a.

На самом деле можно доказать что для распределений неотрицательных величин с тяжелыми хвостами величины Sn и mn имеют одинаковый порядок и, более того, математическое ожидание их отношения

. (4)

Это свойство распределений с тяжелыми хвостами выглядит парадоксально: сумма положительных эффектов с точностью до множителя порядка 1/(1 - a) определяется одним, максимальным членом mn, причем этот факт справедлив для сколь угодно больших выборок. В обычной ситуации, когда у случайной величины имеются конечные моменты, отношение Sn/mn, естественно, стремится к бесконечности с ростом n. В этой ситуации вклад любого отдельного слагаемого (в том числе и максимального) в сумму Sn стремится к нулю.

На рис. 2 приведена аналогичная хвостовая гистограмма для числа лиц, потерявших кров в результате 80и наиболее разрушительных наводнений 19641991 гг. Данные взяты из отчета. Мы видим, что и в этом случае наблюдения хорошо приближаются законом Парето (1), причем значения показателя a = 0,76 также меньше 1.

Рис. 2. Кумулятивная гистограмма хвоста распределения числа бездомных из-за наводнений 1964-1991 гг.

По оси абсцисс отложен десятичный логарифм числа бездомных, по оси ординат – десятичный логарифм количества наводнений, для которых число бездомных было больше данного аргумента x. Прямая линия – закон Парето с a = 0,76.

Другие примеры распределений с тяжелыми хвостами можно найти. Они относятся к ущербам от ураганов и землетрясений, а также к максимальным расходам воды в реках.

С большой долей уверенности можно предполагать, что распределения с тяжелыми хвостами характерны не только для потерь от природных катастроф, но также и для потерь от техногенных катастроф типа Чернобыльской аварии, разливов нефти в морях в результате аварий танкеров, аварий химических предприятий, пожаров, разрушений нефтепроводов, аварий глобальных компьютерных сетей и т.п. Этот вопрос требует дальнейшего тщательного изучения.

Ниже будет теоретически показано, что в случае распределений с тяжелыми хвостами выборочные средние неустойчивы и малоинформативны из-за неприменимости закона больших чисел. Покажем неустойчивость и слабую информативность средних значений ущерба на конкретных примерах. По данным ЮНЕСКО за 19471960 гг. от тайфунов, ураганов, наводнений погибло 900 тыс. чел., что за год в среднем составило 64300 жертв. Если сравнить это среднегодовое значение с числом жертв от отдельных катастроф, то оказывается, что эти последние могут быть в десятки раз больше. Так, при наводнениях в Китае в 1931 г. погибло около 1 300 тыс. чел., а в 1938 г. – 500 тыс. чел., в 1970 г. в Бангладеш жертвами наводнения стали более 500 тыс. чел. Ясно, что среднегодовые показатели не дают представления о возможности таких гигантских катастроф. О неустойчивости среднегодового значения числа жертв говорит следующий факт. По материалам каталога, подготовленного в рамках Международной программы Десятилетия борьбы со стихийными бедствиями, среднегодовое число жертв за 19621992 годы от тех же катастроф составило 36000. Уменьшение среднегодового числа жертв, по сравнению с периодом 1947-1960 гг., почти в два раза было бы большим успехом, если бы оно не носило случайного характера.

Случайность уменьшения числа жертв продемонстрируем на примере землетрясений – наиболее изученного вида катастроф. Согласно подборке данных проф. Н.В. Шебалина (Институт физики Земли РАН) в 19471970 гг. от землетрясений погибла 151 тыс. чел., что дает среднегодовое число жертв 6300. В то же время, по данным за 19621992 гг. число жертв от землетрясений составило 577600 чел.; т.е., несмотря на успехи сейсмостойкого строительства, среднегодовое число погибших увеличилось до 18600 чел. Таким образом, среднегодовые показатели разнятся втрое, причем оба показателя много меньше максимальных потерь от единичного события (при землетрясении 28.07.1976 в Китае погибло, по меньшей мере, 240 тыс. чел.).

Из приведенных примеров безо всякого специального анализа видно, что среднегодовые значения весьма неустойчивы и потому неинформативны.

Многочисленные примеры распределений с тяжелыми хвостами в лингвистике, экономике, социологии, биологии можно найти в работах Ципфа и других авторов.