Статистическая обработка результатов измерений временных характеристик web - приложений.
Для сбора статистических данных о работе WEB-приложения в приложение, работающее на всех дорогах России, были встроены
измерительные блоки, фиксировавшие в ходе работы приложения по обслуживанию многих одновременно работающих пользователей
моменты наступления следующих событий:
t0 - момент запуска стартовой страницы;
t1 - момент, когда клиент нажимает кнопку ввода запроса;
t2 - момент, когда начинает приходить ответ;
t3 - момент, когда поступает конец ответа (страница загружена полностью).

Рис.1. Определение понятия «время отклика».
Для WEB-приложений наиболее важным критерием эффективности функционирования является время отклика. Время отклика можно
определить двумя способами, как показано на рис. 1. В момент времени t0 оканчивается процесс получения ответа
с сервера. В течение времени от момента t0 до момента tt пользователь обдумывает свои дальнейшие действия
и готовит следующий запрос. Интервал времени от t0 до t4 называется временем обдумывания пользователем.
В момент времени t1 клиент посылает новый запрос к серверу. Ответ от сервера начинает поступать клиенту в момент
времени t2 и завершает своё поступление в момент t3. И тот, и другой интервалы [(t2-t1)
и (t3-t1)] часто называют временем отклика. Нужно различать эти термины. Период (t3-tt)
будем называть временем отклика, а период (t2-t1) назовем временем реакции.
Собранные статистики (конкретные реализации случайных величин) были записаны в текстовые файлы и обработаны с помощью
специально разработанной программы.
Были проверены гипотезы о том, что полученные эмпирические распределения могут быть описаны следующими теоретическими
распределениями.
Экспоненциальное распределение с плотностью распределения вероятностей:

Гамма-распределение с плотностью распределения вероятностей с параметром X и с порядком распределения v:


Эрланговское распределение с плотностью распределения вероятностей с параметром X и с порядком распределения v >1
(так как для порядка, равного 1, имеем экспоненциальное распределение):

Среднее значение (математическое ожидание теоретического распределения) и дисперсия (второй центральный момент случайной
величины) и гамма, и Эрланговского распределений вычисляются одинаково:

Перечисленные распределения были выбраны потому, что они просто реализуются при имитационном моделировании вычислительной
системы.
Для проверки гипотезы о том или ином распределении последовательности случайных величин, полученных в ходе наблюдений
за работой WEB-приложения, вычислялось значение Χ2 ~ критерия по формуле [1]:

где ni - число попаданий случайной величины в i - тый
разряд в ходе эксперимента - срабатывания измерительного блока в модулях
WEB-приложения, nteor.i - теоретическое количество попаданий в разряд.
Теоретическое количество попаданий в разряд определялось численным интегрированием теоретической плотности распределения
вероятностей случайной величины на интервале от левой границы интервала до правой. Это давало теоретическую вероятность попадания
случайной величины в указанный интервал. Умножив ее на число измерений, получаем nteor.i
Параметры теоретических распределений определялись по методу моментов [1]. Так, математическое ожидание теоретического
распределения приравнивалось выборочному среднему, полученному
по результатам наблюдений. Если распределение имеет один параметр, то этого уже достаточно для вычисления параметра распределения
(что и имеет место для экспоненциального распределения). Для распределений с двумя параметрами нужно приравнять теоретическую
дисперсию распределения выборочной дисперсии. Тогда решение двух уравнений с двумя неизвестными (для приведенных гамма -
распределения и Эрланговского распределения это параметр и порядок распределения) даст искомые значения.
По таблицам, приводимым в учебниках по теории вероятностей и математической статистики, для квантилей %- распределения
определяем (для числа степеней свободы, равного числу разрядов гистограммы, минус 1) ту доверительную
вероятность, с которой может быть принята гипотеза о теоретическом распределении
Время обдумывания.
Выборочные характеристики случайной величины:
СРЕДНЕЕ=9,60950096
СРЕДНЕКВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ=9,55162161
КОЭФФИЦИЕНТ ВАРИАЦИИ=0,97741528
МИНИМАЛЬНОЕ ЗНАЧЕНИЕ XMIN=1,372
МАКСИМАЛЬНОЕ ЗНАЧЕНИЕ ХМАХ=62,66
На рис. 1 приводится гистограмма времени обдумывания для выборки с числом измерений, равным 1000

Рис. 1. Гистограмма времен обдумывания для выборки, объемом N=1000.
Как видим, вероятность принятия гипотезы об экспоненциальном распределении весьма велика, она равна 0,93.
Тому факту, что время обдумывания имеет экспоненциальное распределение, есть простое физическое толкование. Как правило,
работает с WEB-приложением опытный пользователь, быстро оценивающий полученный результат и хорошо владеющий мышкой. Поэтому
в выборке подавляющее количество конкретных реализаций случайной величины малы.
Время реакции.
Выборочные характеристики случайной величины:
СРЕДНЕЕ=1,49208077
СРЕДНЕКВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ=1,63678737
КОЭФ.ВАРИАЦИИ= 1,09698309
МИНИМАЛЬНОЕ ЗНАЧЕНИЕ XMIN=0,07000000
МАКСИМАЛЬНОЕ ЗНАЧЕНИЕ ХМАХ=8,73200000
Выборка, объемом 1000 измерений, была получена в ходе сбора статистической информации, соответствующая этому теоретическая
кривая приведена на рис. 2.

Рис. 2. Гистограмма времени реакции. Гамма - распределение.

Рис. З. Время отклика. Гамма - распределение.
Как видим, вероятность принятия гипотезы велика - 0,739. Однако порядок гамма - распределения практически равен 1. Возможно
принятие гипотезы об экспоненциальном распределении, так как коэффициент вариации случайной величины (отношение среднеквадратического
отклонения, корня квадратного из дисперсии, к среднему) практически равен 1, а гамма - распределение с порядком, равным 1,
есть не что иное, как экспоненциальное распределение.
Время отклика.
Выборочные характеристики случайной величины:
СРЕДНЕЕ= 1,63781538
СРЕДНЕКВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ= 1,76435735
КОЭФФИЦИЕНТ ВАРИАЦИИ= 1,07726266
МИНИМАЛЬНОЕ ЗНАЧЕНИЕ XMIN=0,07
МАКСИМАЛЬНОЕ
ЗНАЧЕНИЕ ХМАХ=8,853
Как видим, порядок гамма - распределения меньше 1, хотя внешне гистограмма напоминает экспоненциальное распределение.
Для уточнения теоретического распределения будут проведены дальнейшие исследования.
Время формирования.
Выборочные характеристики случайной величины:
СРЕДНЕЕ= 0,14592692
СРЕДНЕКВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ= 0,24141251
КОЭФФИЦИЕНТ ВАРИАЦИИ= 1,65433836
МИНИМАЛЬНОЕ ЗНАЧЕНИЕ XMIN=0,001
МАКСИМАЛЬНОЕ ЗНАЧЕНИЕ ХМАХ=1,202
Гистограмма времени формирования приведена на рис. 4.

Рис. 4. Время формирования. Гамма - распределение.

Рис. 5. Длительности интервалов входного потока.
Как видим, порядок гамма - распределения много меньше 1, поэтому рассчитывать на экспоненциальное распределение не приходится.
Дальнейшие исследования необходимы, так как вероятность гипотезы о теоретическом распределении мала.
Входной поток запросов.
Если рассматривать исследуемую WEB-систему «тонкий клиент-сервер» как разомкнутую систему массового обслуживания, в которой
интенсивность поступления новых запросов на вход системы не зависит от того, сколько уже имеется запросов в системе, то тогда
весь процесс поступления запросов от клиентов можно рассматривать как поток из бесконечного источника. Для накопленных измерений
моменты времени в таком потоке - суть величины t0, а интервалы в этом потоке есть разность между текущим измерением минус
предыдущее (начиная со второго измерения).
Для 1000 накопленных значений входного интервала были получены такие выборочные характеристики случайной величины - длительности
интервалов (между моментами поступления запросов) входного потока:
СРЕДНЕЕ=110,51946600
СРЕДНЕКВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ=107,86352812
КОЭФФИЦИЕНТ ВАРИАЦИИ=0,97596860
МИНИМАЛЬНОЕ ЗНАЧЕНИЕ XMIN=0,05800000
МАКСИМАЛЬНОЕ ЗНАЧЕНИЕ ХМАХ=728,33300000
Гистограмма длительности интервалов входного потока приведена на рис. 5.
Как видим, вероятность принятия гипотезы об экспоненциальном распределении довольна высока: она равна 0,4988.
Приведенные результаты статистического анализа временных характеристик работы WEB-приложения позволяют сделать вывод
о том, что при построении математических моделей вычислительных систем можно считать, что случайные величины - времена обработки
имеют экспоненциальные распределения, а входной поток запросов считать пуассоновским.
....................................................................................................
|