Информационные технологии в эконометрике
Реферат
По эконометрике
Эконометрические информационные технологии
СОДЕРЖАНИЕ
Проблема множественных проверок статистических гипотез. 3
Методы статистических испытаний (Монте-Карло) и датчики псевдослучайных чисел. 25
Методы размножения выборок (бутстреп-методы) 30
Эконометрика в контроллинге. 35
Литература.. 41
Проблема множественных проверок статистических гипотез
Практика применения эконометрических методов часто выходит за границы классической математико-статистической теории. В качестве примера рассмотрим проверку статистических гипотез.
Базовая теоретическая модель касается проверки одной-единственной статистической гипотезы. На практике же при выполнении того или иного прикладного исследования гипотезы зачастую проверяют неоднократно. При этом, как правило, остается неясным, как влияют результаты предыдущих проверок на характеристики (уровень значимости, мощность) последующих проверок. Есть ли вообще влияние? Как его оценить? Как его учесть при формулировке окончательных выводов?
Изучены лишь некоторые схемы множественных проверок, например, схема последовательного анализа А. Вальда или схема оценивания степени полинома в регрессии путем последовательной проверки адекватности модели (см. главу 5 выше). В таких исключительных постановках удается рассчитать характеристики статистических процедур, включающих множественные проверки статистических гипотез.
Однако в большинстве важных для практики случаев статистические свойства процедур анализа данных, основанных на множественных проверках, остаются пока неизвестными. Примерами являются процедуры нахождения информативных подмножеств признаков (коэффициенты для таких и только таких признаков отличны от 0) в регрессионном анализе или выявления отклонений параметров в автоматизированных системах управления.
В таких системах происходит слежение за большим числом параметров. Резкое изменение значения параметра свидетельствует об изменении режима работы системы, что, как правило, требует управляющего воздействия. Существует теория для определения границ допустимых колебаний одного или фиксированного числа параметров. Например, можно использовать контрольные карты Шухарта или кумулятивных сумм, а также их многомерные аналоги (см. главу 13). В подавляющем большинстве постановок, согласно обычно используемым вероятностным моделям, для каждого параметра, находящемся в стабильном ("налаженном") состоянии, существует хотя и малая, но положительная вероятность того, что его значение выйдет за заданные границы. Тогда система зафиксирует резкое изменение значения параметра ("ложная разладка"). При достаточно большом числе параметров с вероятностью, близкой к 1, будет обнаружено несколько "случайных сбоев", среди которых могут "затеряться" и реальные отказы подсистем. Можно доказать, что при большом числе параметров имеется два крайних случая - независимых (в совокупности) параметров и функционально связанных параметров, а для всех остальных систем вероятность обнаружения резкого отклонения хотя бы у одного параметра лежит между соответствующими вероятностями для этих двух крайних случаев.
Почему трудно изучать статистические процедуры, использующие множественные проверки гипотез? Причина состоит в том, что результаты последовательно проводящихся проверок, как правило, не являются независимыми (в смысле независимости случайных величин). Более того, последовательность проверок зачастую задается исследователем произвольно.
Проблема множественных проверок статистических гипотез - часть более общей проблемы "стыковки" (сопряжения) статистических процедур. Дело в том, что каждая процедура может применяться лишь при некоторых условиях, а в результате применения предыдущих процедур эти условия могут нарушаться. Например, часто рекомендуют перед восстановлением зависимости (регрессионным анализом) разбить данные на однородные группы с помощью какого-либо алгоритма классификации, а затем строить зависимости для каждой из выделенных групп отдельно. Здесь идет речь о "стыковке" алгоритмов классификации и регрессии. Как вытекает из рассмотрений главы 5 выше, попадающие в одну однородную группу результаты наблюдений зависимы и их распределение не является нормальным (гауссовым), поскольку они лежат в ограниченной по некоторым направлениям области, а границы зависят от всей совокупности результатов наблюдений. При этом при росте объема выборки зависимость уменьшается, но ненормальность остается Распределение результатов наблюдений, попавших в одну группу, приближается не к нормальному, а к усеченному нормальному. Следовательно, алгоритмами регрессионного анализа, основанными на "нормальной теории", пользоваться некорректно. Согласно рекомендациям главы 10 целесообразно применять робастную регрессию.
Проблема "стыковки" статистических процедур обсуждается давно. По проблеме "стыковки" был проведен ряд исследований, результаты некоторые из которых упомянуты выше, но сколько-нибудь окончательных результатов получено не было. По нашему мнению, на скорое решение проблемы "стыковки" рассчитывать нельзя. Возможно, она является столь же "вечной", как и проблема выбора между средним арифметическим и медианой как характеристиками "центра" выборки.
В качестве примера обсудим одно интересное исследование по проблеме повторных проверок статистических гипотез - работу С.Г. Корнилова (1).
Как уже отмечалось, теоретическое исследование является весьма сложным, сколько-нибудь интересные результаты удается получить лишь для отдельных постановок. Поэтому вполне естественно, что С.Г. Корнилов применил метод статистического моделирования на ЭВМ. Однако нельзя забывать о проблеме качества псевдослучайных чисел. Достоинства и недостатки различных алгоритмов получения псевдослучайных чисел много лет обсуждаются в различных изданиях (см. ниже).
В работе С.Г. Корнилова хорошо моделируется мышление статистика-прикладника. Видно, насколько мешает устаревшее представление о том, что для проверки гипотез необходимо задавать определенный уровень значимости. Особенно оно мешает, если в дальнейшем понадобятся дальнейшие проверки. Гораздо удобнее использовать "достигаемый уровень значимости", т.е. вероятность того, что статистика критерия покажет большее отклонение от нулевой гипотезы, чем то, что соответствует имеющимся экспериментальным данным (см. терминологическое приложение 1 в конце книги). Если есть желание, можно сравнивать "достигаемый уровень значимости" с заданными значениями 0,05 или 0,01. Так, если "достигаемый уровень значимости" меньше 0,01, то нулевая гипотеза отвергается на уровне значимости 0,01, в противном случае - принимается. Следует рассчитывать "достигаемый уровень значимости" всегда, когда для этого есть вычислительные возможности.
Переход к "достигаемому уровню значимости" может избавить прикладника от еще одной трудности, связанной с использованием непараметрических критериев. Дело в том, что их распределения, как правило, дискретны, поскольку эти критерии используют только ранги наблюдений. Поэтому невозможно построить критерий с заданным номинальным уровнем значимости, реальный уровень значимости может принимать лишь конечное число значений, среди которых, как правило, нет ни 0,05, ни 0,01, ни других популярных номинальных значений.
Невозможность построения критических областей критериев с заданными уровнями значимости затрудняет сравнение критериев по мощности, как это продемонстрировано в работе (2). Есть формальный способ достичь заданного номинального уровня значимости - провести рандомизацию, т.е. при определенном (граничном) значении статистики критерия провести независимый случайный эксперимент, в котором одни исходы (с заданной суммарной вероятностью) приводят к принятию гипотезы, а остальные - к ее отклонению. Однако подобную процедуру рандомизации прикладнику трудно принять - как оправдать то, что одни и те же экспериментальные данные могут быть основанием как для принятия гипотезы, так и для ее отклонения? Вспоминается обложка журнала "Крокодил", на которой один хозяйственник говорит другому: "Бросим монетку. Упадет гербом - будем строить завод, а упадет решкой - нет". Описанная процедура рандомизации имеет практический смысл лишь при массовой рутинной проверке гипотез, например, при статистическом контроле больших выборок изделий или деталей (см. главу 13, посвященную эконометрике качества).
У все еще распространенных критерия Стьюдента и других параметрических статистических критериев - свои проблемы. Они исходят из предположения о том, что функции распределения результатов наблюдений входят в определенные параметрические семейства небольшой размерности. Наиболее распространена гипотеза нормальности распределения. Однако давно известно, что подавляющее большинство реальных распределений результатов измерений не являются нормальными. Об этом говорится, например, в классической для инженеров и организаторов производства монографии проф.В. В. Налимова (3). Ряд недавно полученных конкретных экспериментальных фактов и теоретических соображений рассмотрен в главе 4.
Как же быть? Проверять нормальность распределения своих данных? Но это дело непростое, можно допустить те или иные ошибки, в частности, применяя критерии типа Колмогорова или омега-квадрат (одна из наиболее распространенных ошибок состоит в том, что в статистики вместо неизвестных параметров подставляют их оценки, но при этом пользуются критическими значениями, рассчитанными для случая, когда параметры полностью известны (4)). Кроме того, для сколько-нибудь надежной проверки нормальности нужны тысячи наблюдений (см. главу 4). Поэтому в подавляющем большинстве реальных задач нет оснований принимать гипотезу нормальности. В лучшем случае можно говорить о том, что распределение результатов наблюдений мало отличается от нормального.
Как влияют отклонения от нормальности на свойства статистических процедур? Для разных процедур - разный ответ. Если речь идет об отбраковке выбросов - влияние отклонений от нормальности настолько велико, что делает процедуру отбраковки с практической точки зрения эвристической, а не научно обоснованной (см. главу 4). Если же речь идет о проверке однородности двух выборок с помощью критерия Стьюдента (при априорном предположении о равенстве дисперсий) или Крамера-Уэлча (при отсутствии такого предположения), то при росте объемов выборок влияние отклонений от нормальности убывает, как это подробно показано в главе 4). Это вытекает из Центральной Предельной Теоремы. Правда, при этом оказывается, что процентные точки распределения Стьюдента не приносят реальной пользы, достаточно использовать процентные точки предельного нормального распределения.
Весьма важна обсуждаемая, в частности, в работе (1) постоянно встающая перед эконометриком проблема выбора того или иного статистического критерия для решения конкретной прикладной задачи. Например, как проверять однородность двух независимых выборок числовых результатов наблюдений? Известны параметрические критерии: Стьюдента, Лорда; непараметрические: Крамера-Уэлча, Вилкоксона, Ван-дер-Вардена, Сэвиджа, Мартынова, Смирнова, типа омега-квадрат (Лемана-Розенблатта) и многие другие (см., например, главу 4 и справочник (5)). Какой из них выбрать для конкретных расчетов?
Некоторые авторы предлагают формировать технологию принятия статистического решения, согласно которой решающее правило формируется на основе комбинации нескольких критериев. Например, технология может предусматривать проведение "голосования": если из 5 критериев большинство "высказывается" за отклонение гипотезы, то итоговое решение - отвергнуть ее, в противном случае - принять. Эти авторы не всегда понимают, что в их подходе нет ничего принципиально нового, просто к уже имеющимся критериям они добавляют их комбинации - очередные варианты, тем или иным образом выделяющие критические области в пространствах возможных значений результатов измерений, т.е. увеличивают число рассматриваемых критериев.
Итак, имеется некоторая совокупность критериев. У каждого - свой набор значений уровней значимости и мощностей на возможных альтернативах. Математическая статистика демонстрирует в этой ситуации виртуозную математическую технику для анализа частных случаев и полную беспомощность при выдаче практических рекомендаций. Так, оказывается, что практически каждый из известных критериев является оптимальным в том или ином смысле для какого-то набора нулевых гипотез и альтернатив. Математики изучают асимптотическую эффективность в разных смыслах - по Питмену, по Бахадуру и т.д., но - для узкого класса альтернативных гипотез, обычно для альтернативы сдвига. При попытке переноса асимптотических результатов на конечные объемы выборок возникают новые нерешенные проблемы, связанные, в частности, с численным оцениванием скорости сходимости (см. главу 10). В целом эта область математической статистики может активно развиваться еще многие десятилетия, выдавая "на гора" превосходные теоремы (которые могут послужить основанием для защит кандидатских и докторских диссертаций, выборов в академики РАН и т.д.), но не давая ничего практике. Хорошо бы, чтобы этот пессимистический прогноз не вполне оправдался!
С точки зрения эконометрики и прикладной статистики необходимо изучать проблему выбора критерия проверки однородности двух независимых выборок. Такое изучение было проведено, в том числе методом статистических испытаний, и в результате был получен вывод о том, что наиболее целесообразно применять критерий Лемана-Розенблатта типа омега-квадрат (см. главу 4).
В литературе по прикладным статистическим методам, как справедливо замечает С.Г. Корнилов в работе (1), имеется масса ошибочных рекомендаций. Чего стоят хотя бы принципиально неверные государственные стандарты СССР по статистическим методам, а также соответствующие им стандарты СЭВ и ИСО, т.е. Международной организации по стандартизации. Особо выделяются своим количеством ошибочные рекомендации по применению критерия Колмогорова для проверки нормальности (см. ссылки в работе (4)). Ошибки есть и в научных статьях, и в нормативных документах (государственных стандартах), и в методических разработках, и даже в вузовских учебниках. К сожалению, нет способа оградить инженера и научного работника, экономиста и менеджера, нуждающихся в применении эконометрических и статистических методов, от литературных источников и нормативно-технических и инструктивно-методических документов с ошибками, неточностями и погрешностями. Единственный способ - либо постоянно поддерживать профессиональные контакты с квалифицированными специалистами в эконометрике, либо самому стать таким специалистом.
Как оценить достигаемый уровень значимости конкретного критерия, предусматривающего повторные проверки? Сразу ясно, что в большинстве случаев никакая современная теория математической статистики не поможет. Остается использовать современные компьютеры. Методика статистического моделирования, описанная в работе (1), может стать ежедневным рабочим инструментом специалиста, занимающегося применением эконометрических методов. Для этого она должна быть реализована в виде соответствующей диалоговой программной системы. Современные персональные компьютеры позволяют проводить статистическое моделирование весьма быстро (за доли секунд). Можно использовать различные модификации бутстрепа - одного из вариантов применения статистического моделирования (см. ниже).
Проведенное обсуждение показывает, как много нерешенных проблем стоит перед специалистом, занимающимся, казалось бы, рутинным применением стандартных статистических процедур. Эконометрика - молодая наука, ее основные проблемы, по нашему мнению, еще не до конца решены. Много работы как в сравнительно новых областях, например, в анализе нечисловых и интервальных данных (см. главы 8 и 9 выше), так и в классических.
Проблемы разработки и обоснования статистических технологий
В настоящем пункте рассматриваются проблемы практического использования эконометрических методов для системного анализа конкретных экономических данных. При этом применяются не отдельные методы описания данных, оценивания, проверки гипотез, а развернутые цельные процедуры - так называемые "статистические технологии". Понятия "статистические технологии" или "эконометрические технологии" аналогичны понятию "технологический процесс" в теории организации производства.
Статистические технологии. Поскольку термин "технология" сравнительно редко используется применительно к эконометрике и статистике, поясним суть рассматриваемой проблемы. Статистический анализ конкретных экономических данных, как правило, включает в себя целый ряд процедур и алгоритмов, выполняемых последовательно, параллельно или по более сложной схеме. В частности, с точки зрения менеджера эконометрического проекта можно выделить следующие этапы:
- планирование статистического исследования (включая разработку форм учета, их апробацию; подготовку сценариев интервью и анализа данных и т.п.);
- организация сбора необходимых статистических данных по оптимальной или рациональной программе (планирование выборки, создание организационной структуры и подбор команды статистиков, подготовка кадров, которые будут заниматься сбором данных, а также контролеров данных и т.п.);
- непосредственный сбор данных и их фиксация на тех или иных носителях (с контролем качества сбора и отбраковкой ошибочных данных по соображениям предметной области);
- первичное описание данных (расчет различных выборочных характеристик, функций распределения, непараметрических оценок плотности, построение гистограмм, корреляционных полей, различных таблиц и диаграмм и т.д.),
- оценивание тех или иных числовых или нечисловых характеристик и параметров распределений (например, непараметрическое интервальное оценивание коэффициента вариации или восстановление зависимости между откликом и факторами, т.е. оценивание функции),
- проверка статистических гипотез (иногда их цепочек - после проверки предыдущей гипотезы принимается решение о проверке той или иной последующей гипотезы; например, после проверки адекватности линейной регрессионной модели и отклонения этой гипотезы может проверяться адекватность квадратичной модели),
- более углубленное изучение, т.е. одновременное применение различных алгоритмов многомерного статистического анализа, алгоритмов диагностики и построения классификации, статистики нечисловых и интервальных данных, анализа временных рядов и др.;
- проверка устойчивости полученных оценок и выводов относительно допустимых отклонений исходных данных и предпосылок используемых вероятностно-статистических моделей, в частности, изучение свойств оценок методом размножения выборок и другими численными методами;
- применение полученных статистических результатов в прикладных целях, т.е. для формулировки выводов в терминах содержательной области (например, для диагностики конкретных материалов, построения прогнозов, выбора инвестиционного проекта из предложенных вариантов, нахождения оптимальных режима осуществления технологического процесса, подведения итогов испытаний образцов технических устройств и др.),
- составление итоговых отчетов, в частности, предназначенных для тех, кто не является специалистами в статистических методах анализа данных, в том числе для руководства - "лиц, принимающих решения".
Возможны и многие иные структуризации различных статистических технологий (см., например, аналогичную схему для процедур экспертных оценок в главе 12). Важно подчеркнуть, что квалифицированное и результативное применение статистических методов - это отнюдь не проверка одной отдельно взятой статистической гипотезы или оценка характеристик или параметров одного заданного распределения из фиксированного семейства. Подобного рода операции - только отдельные кирпичики, из которых складывается статистическая технология. Между тем учебники и монографии по статистике обычно рассказывают только об отдельных кирпичиках, но не обсуждают проблемы их организации в технологию, предназначенную для прикладного использования.
Итак, процедура статистического анализа данных – это информационный технологический процесс, другими словами, та или иная информационная технология. Статистическая информация подвергается разнообразным операциям (последовательно, параллельно или по более сложным схемам). В настоящее время об автоматизации всего процесса статистического анализа данных говорить было бы несерьезно, поскольку имеется слишком много нерешенных проблем, вызывающих дискуссии среди эконометриков и статистиков. Так называемые "экспертные системы" в области статистического анализа данных пока не стали рабочим инструментом статистиков. Ясно, что и не могли стать. Можно сказать и жестче - это пока научная фантастика или даже вредная утопия.
Проблема "стыковки" алгоритмов. В литературе статистические технологии рассматриваются явно недостаточно. В частности, обычно все внимание сосредотачивается на том или ином элементе технологической цепочки, а переход от одного элемента к другому остается в тени. Между тем проблема "стыковки" статистических алгоритмов, как известно, требует специального рассмотрения (см. предыдущий пункт настоящей главы), поскольку в результате использования предыдущего алгоритма зачастую нарушаются условия применимости последующего. В частности, результаты наблюдений могут перестать быть независимыми, может измениться их распределение и т.п.
Так, вполне резонной выглядит рекомендация: сначала разбейте данные на однородные группы, а потом в каждой из групп проводите статистическую обработку, например, регрессионный анализ. Однако эта рекомендация под кажущейся прозрачностью содержит подводные камни. Действительно, как поставить задачу в вероятностно-статистических терминах? Если, как обычно, примем, что исходные данные - это выборка, т.е. совокупность независимых одинаково распределенных случайных элементов, то классификация приведет к разбиению этих элементов на группы. В каждой группе элементы будут зависимы между собой, а их распределение будет зависеть от группы, куда они попали. Отметим, что в типовых ситуациях границы классов стабилизируются, а это значит, что асимптотически элементы кластеров статновятся независимыми. Однако их распределение не может быть нормальным. Например, если исходное распределение было нормальным, то распределения в классах будет усеченным нормальным. Это означает, что необходимо пользоваться непараметрическими методами, о чем уже не раз говорилось в главах 4 и 5 (подробнее этот пример разобран в работе (7)).
Разберем другой пример При проверке статистических гипотез большое значение имеют такие хорошо известные характеристики статистических критериев, как уровень значимости и мощность. Методы их расчета и использования при проверке одной гипотезы обычно хорошо известны. Если же сначала проверяется одна гипотеза, а потом с учетом результатов ее проверки (конкретнее, если первая гипотеза принята) - вторая, то итоговая процедура, которую также можно рассматривать как проверку некоторой (более сложной) статистической гипотезы, имеет характеристики (уровень значимости и мощность), которые, как правило, нельзя простыми формулами выразить через характеристики двух составляющих гипотез, а потому они обычно неизвестны. Лишь в некоторых простых случаях характеристики итоговой процедуры можно рассчитать (см. примеры в главе 13). В результате итоговую процедуру нельзя рассматривать как научно обоснованную, она относится к эвристическим алгоритмам. Конечно, после соответствующего изучения, например, методом Монте-Карло, она может войти в число научно обоснованных процедур эконометрики или прикладной статистики.
О термине "высокие статистические технологии". Как понятно, технологии бывают разные. Бывают адекватные и неадекватные, современные и устаревшие. Обратим внимание на термин "высокие технологии". Он популярен в современной научно-технической литературе и используется для обозначения наиболее передовых технологий, опирающихся на последние достижения научно-технического прогресса. Есть такие технологии и среди технологий эконометрического и статистического анализа данных - как в любой интенсивно развивающейся научно-практической области.
Примеры высоких эконометрических и статистических технологий и входящих в них алгоритмов анализа экономических данных постоянно обсуждаются на страницах настоящей книги. Подробный анализ современного состояния и перспектив развития эконометрики дан в главе 15 при обсуждении “точек роста” нашей научно-практической дисциплины. В этой главе в качестве примеров "высоких статистических технологий" выделены технологии непараметрического анализа данных (см. главы 4, 5 и 6); устойчивые (робастные) технологии (см. главу 10); технологии, основанные на размножении выборок (см. ниже в настоящей главе), на использовании достижений статистики нечисловых данных (см. главы 8 и 12) и статистики интервальных данных (см. главу 9).
Подробнее обсудим здесь пока не вполне привычный термин "высокие статистические технологии". Каждое из трех слов несет свою смысловую нагрузку.
"Высокие", как и в других научно-технических областях, означает, что статистическая технология опирается на современные научные достижения и передовой опыт реальной деятельности, а именно, достижения эконометрической и статистической теории и практики, в частности, на современные результаты теории вероятностей и прикладной математической статистики. При этом формулировка "опирается на современные научные достижения" означает, во-первых, что математическая основа технологии получена сравнительно недавно в рамках соответствующей научной дисциплины, во-вторых, что алгоритмы расчетов разработаны и обоснованы в соответствии с нею (а не являются т. н. "эвристическими"). Со временем, если новые подходы и результаты не заставляют пересмотреть оценку применимости и возможностей технологии, заменить ее на более современную, "высокие статистические технологии" переходят в "классические статистические технологии", такие, как метод наименьших квадратов. Как известно, несмотря на солидный возраст (более 200 лет), метод наименьших квадратов остается одним из наиболее часто используемых эконометрических методов. Итак, высокие статистические технологии - плоды недавних серьезных научных исследований. Здесь два ключевых понятия - "молодость" технологии (во всяком случае, не старше 50 лет, а лучше - не старше 10 или 30 лет), и опора на "высокую науку".
Термин "статистические" привычен, но разъяснить его нелегко. Во всяком случае, к деятельности Государственного комитета РФ по статистике высокие статистические технологии непосредственного отношения не имеют. В главе 1 уже шла речь о том разрыве между различными группами лиц, употребляющих термин "статистика", который имеется в нашей стране. Впрочем, сам термин "статистика" пррошел долгий путь. Как известно, сотрудники проф.В. В. Налимова, одного из наиболее известных отечественных статистиков ХХ в., собрали более 200 определений термина "статистика" (8). Полемика вокруг терминологии иногда принимает весьма острые формы (см., например, редакционные замечания к статье (9), написанные в стиле известных высказываний о генетике и кибернетике 1940-х годов - впрочем, каких-либо организационных выводов не последовало). Современное представление о терминологии в области теории вероятностей и прикладной математической статистики отражено в приложении 1 к настоящей книге, подготовленной в противовес распространенным ошибкам и неточностям в этой области. В частности, с точки зрения эконометрики статистические данные – это результаты измерений, наблюдений, испытаний, анализов, опытов, а "статистические технологии" - это технологии анализа статистических данных.
Всегда ли нужны "высокие статистические технологии"? "Высоким статистическим технологиям" противостоят, естественно, "низкие статистические технологии" (а между ними расположены "классические статистические технологии"). Это те технологии, которые не соответствуют современному уровню науки и практики. Обычно они одновременно и устарели, и не вполне адекватны сути решаемых эконометрических и статистических задач.
Примеры таких технологий неоднократно критически рассматривались, в том числе и на страницах этой книги. Достаточно вспомнить критику использования критерия Стьюдента для проверки однородности при отсутствии нормальности и равенства дисперсии или критику применения классических процентных точек критериев Колмогорова и омега-квадрат в ситуациях, когда параметры оцениваются по выборке и эти оценки подставляются в "теоретическую" функцию распределения (подробный разбор проведен, например, в работе (4)). Приходилось констатировать широкое распространение таких порочных технологий и конкретных алгоритмов, в том числе в государственных и международных стандартах (перечень ошибочных стандартов дан в работе (10)), учебниках и распространенных пособиях. Тиражирование ошибок происходит обычно в процессе обучения в вузах или путем самообразования при использовании недоброкачественной литературы.
На первый взгляд вызывает удивление устойчивость "низких статистических технологий", их постоянное возрождение во все новых статьях, монографиях, учебниках. Поэтому, как ни странно, наиболее "долгоживущими" оказываются не работы, посвященные новым научным результатам, а публикации, разоблачающие ошибки, типа статьи (4). Прошло больше 15 лет с момента ее публикации, но она по-прежнему актуальна, поскольку ошибочное применение критериев Колмогорова и омега-квадрат по-прежнему распространено.
Целесообразно рассмотреть здесь по крайней мере четыре обстоятельства, которые определяют эту устойчивость ошибок.
Во-первых, прочно закрепившаяся традиция. Учебники по т. н. "Общей теории статистики", написанные "чистыми" экономистами (поскольку учебная дисциплина "Статистика" официально относится к экономике), если беспристрастно проанализировать их содержание, состоят в основном из введения в прикладную статистику, изложенного в стиле "низких статистических технологий", т.е. на уровне 1950-х годов, а во многом и на уровне начала ХХ в. . К "низкой" прикладной статистике добавлена некоторая информация о деятельности органов Госкомстата РФ. Некорректно обвинять только экономистов - примерно таково же положение со статистическими методами в медицине: одни и те же "низкие статистические технологии" переписываются из книги в книгу. Новое поколение, обучившись ошибочным подходам, идеям, алгоритмам, их использует, а с течением времени и достижением должностей, ученых званий и степеней – пишет новые учебники со старыми ошибками.
Второе обстоятельство связано с большими трудностями при оценке экономической эффективности применения статистических методов вообще и при оценке вреда от применения ошибочных методов в частности. (А без такой оценки как докажешь, что "высокие статистические технологии" лучше "низких"?) Некоторые соображения по первому из этих вопросов приведены в статье (9), содержащей оценки экономической эффективности ряда работ по применению статистических методов (см. также главу 13, посвященную эконометрике качества). При оценке вреда от применения ошибочных методов приходится учитывать, что общий успех в конкретной инженерной или научной работе вполне мог быть достигнут вопреки применению ошибочных методов, за счет "запаса прочности" других составляющих общей работы. Например, преимущество одного технологического приема над другим можно продемонстрировать как с помощью критерия Крамера-Уэлча проверки равенства математических ожиданий (что правильно), так и с помощью двухвыборочного критерия Стьюдента (что, вообще говоря, неверно, т. к. обычно не выполняются условия применимости этого критерия - нет ни нормальности распределения, ни равенства дисперсий). Кроме того, приходится выдерживать натиск невежд, защищающих свои ошибочные работы, например, государственные стандарты. Вместо исправления ошибок применяются самые разные приемы бюрократической борьбы с теми, кто разоблачает ошибки.
Третье существенное обстоятельство – трудности со знакомством с высокими статистическими технологиями. В нашей стране в силу ряда исторических обстоятельств развития статистических методов и эконометрики (см. главу 1) в течение последних 10 лет только журнал "Заводская лаборатория" предоставлял такие возможности. К сожалению, поток современных отечественных и переводных статистических книг, выпускавшихся ранее, в частности, издательствами "Наука", "Мир", “Финансы и статистика”, практически превратился в узкий ручеек… Возможно, более существенным является влияние естественной задержки во времени между созданием "новых статистических технологий" и написанием полноценной и объемной учебной и методической литературы. Она должна позволять знакомиться с новой методологией, новыми методами, теоремами, алгоритмами, методами расчетов и интерпретации ихъ результатов, статистическими технологиями в целом не по кратким оригинальным статьям, а при обычном вузовском и последипломном обучении.
И, наконец, наиболее важное. Всегда ли нужны высокие статистические технологии? Приведем аналогию - нужна ли современная сельскохозяйственная техника для обработки приусадебногоучастка? Нужны ли трактора и комбайны? Может быть, достаточно технологий, основанных на использовании лопаты? Вернемся к данным государственной статистики. Применяются статистические технологии первичной обработки (описания) данных, основанные на построении разнообразных таблиц, диаграмм, графиков. Большинство потребителей статистической информации это представление данных удовлетворяет. Итак, чтобы высокие статистические технологии успешно использовались, необходимы два условия: чтобы они были объективно нужны для решения практической задачи и чтобы потенциальный пользователь технологий субъективно понимал это.
Таким образом, весь арсенал реально используемых в настоящее время эконометрических и статистических технологий можно распределить по трем потокам:
- высокие статистические технологии;
- классические статистические технологии,
низкие статистические технологии.
Под классическими статистическими технологиями, как уже отмечалось, понимаем технологии почтенного возраста, сохранившие свое значение для современной статистической практики. Таковы технололгии на основе метода наименьших квадратов (включая методы точечного оценивания параметров прогностической функции, непараметрические методы доверительного оценивания параметров, прогностической функции, проверок различных гипотез о них - см. главу 5), статистик типа Колмогорова, Смирнова, омега-квадрат, непараметрических коэффициентов корреляции Спирмена и Кендалла (относить их только к методам анализа ранжировок - значит делать уступку "низким статистическим технологиям", см. главу 5) и многих других статистических процедур.
Основная современная проблема в области эконометрических и статистических технологий состоит в том, чтобы в конкретных эконометрических исследованиях использовались только технологии первых двух типов.
Каковы возможные пути решения основной современной проблемы в области статистических технологий?
Бороться с конкретными невеждами - дело почти безнадежное. Отстаивая свое положение и должности, они либо нагло игнорируют информацию о своих ошибках, как это обычно делают авторы учебников по "Общей теории статистики" и их издатели, либо с помощью различных бюрократических приемов уходят и от ответственности, и от исправления ошибок по существу (как это было со стандартами по статистическим методам - см. статью (10)). Третий вариант - признание и исправление ошибок - встречается,