Прикладная статистика и планирование эксперимента
- Цели и задачи курса.
- Теоретический блок.
- Практический блок.
- Рекомендуемая литература.
- Как сдаем.
- История курса.
Цель курса – способствовать формированию знаний и умений решения отдельных задач регрессионного анализа, возникающих при проведении эмпирических исследований в строительном материаловедении. Постановка и методы решения задач для математической теории эксперимента являются весьма общими, поэтому материалы курса могут оказаться полезными и в других областях. Но полезность не гарантируется.
Базой курса являются теория вероятностей и математическая статистика, основное содержание которых излагается на первой и второй лекциях (да, вся теория вероятностей – в одной лекции).
Содержание курса:
- теоретические вопросы прикладной статистики (точечные оценки, дескриптивная статистика, проверка статистических гипотез, корреляционный и регрессионный анализ), основные понятия и сведения о методах математической теории эксперимента;
- практические приемы решения задач, ориентированные на использование инструментальных (программных) средств прикладной статистики.
Лекции одним файлом:
Вариант 2018 года.
Вариант 2020 года. Неполный пока.
Логин и пароль для доступа к библиотеке можно найти на страничке другого моего курса.
Очное отделение
Лекция 1. Основные понятия теории вероятностей и прикладной статистики
Основные определения теории вероятностей, раскрывающие содержание ее важнейших неопределяемых понятий – понятий события и вероятности. Дискретные и непрерывные случайные величины. Функция распределения (вероятность того, что случайная величина примет значение, меньшее заданного) как основная форма взаимосвязи между значением и вероятностью случайной величины. Свойства функции распределения и плотности вероятности. Начальные и центральные моменты. Математическое ожидание и дисперсия, их свойства. Центральная предельная теорема и нормальный закон распределения. Вероятности, связанные с нормально распределенными величинами. Статистики (Пирсона, Стьюдента, Фишера), наиболее часто встречающиеся в прикладных задачах. Предмет математической статистики.
Лекция 2. Описательная статистика
Статистическая модель. Статистические оценки и предъявляемые к ним требования. Генеральная совокупность и выборка. Генеральные и выборочные характеристики. Частота и относительная частота. Дискретный вариационный ряд, оценки квантилей, оценка медианы. Оценки начальных и центральных моментов неизвестного распределения генеральной совокупности. Непрерывный вариационный ряд, правило Стерджеса, гистограмма, оценка моды.
Лекция 3. Проверка статистических гипотез
Статистическая гипотеза, альтернатива. Содержание процедуры проверки статистической гипотезы. Критическое событие. Статистика – случайная величина с известным распределением, позволяющая ответить на центральный вопрос: какова вероятность при истинной гипотезе получить результаты, не лучшие реально полученных. Уровень значимости как вероятность события, которое на практике считается невозможным. Ошибка первого рода. Ошибка второго рода. Мощность статистического критерия. Состоятельные и несмещенные критерии. Проверка гипотезы о нормальном распределении генеральной совокупности.
Лекция 4. Двухвыборочные задачи
Гипотеза о наличии эффекта обработки: двухвыборочная задача сравнения неизвестных математических ожиданий (внимание! в рабочей программе ошибка, мне надо её исправить: там осталось «сравнения средних») для случаев известных равных,
неизвестных равных и неизвестных дисперсий. Гипотеза о равной точности. Двухвыборочная задача сравнения дисперсий.
Лекция 5. Линейный корреляционный анализ
Многомерные случайные величины, их функции распределения и плотности вероятности. Условный закон распределения многомерной случайной величины. Свойства функции распределения и плотности вероятности. Соотношения для начальных и центральных моментов. Второй смешанный центральный момент (ковариация) и связанный с ним коэффициент корреляции. Соотношение для оценки ковариации. Методика проверки статистической гипотезы о равенстве ковариации нулю. Статистическая значимость линейной связи между случайными величинами.
Лекция 6. Математическая теория эксперимента
Задачи математической теории эксперимента. Предикторы, отклик, интервалы и уровни варьирования. Планирование эксперимента и планы эксперимента. Оптимальность плана. Регрессионный анализ как основной метод исключения информационного шума. Принцип максимального
правдоподобия: наилучшим описанием системы является такое, при котором максимальна вероятность предсказания отклика. Метод наименьших квадратов.
Лекция 7. Модели, линейные по параметрам
Модели, линейные по параметрам. Матричная запись системы нормальных уравнений. Матрица ошибок. Информационная
функция. Прогностическая способность планов ПФЭ 2^2 и центрального композиционного плана 2^2+5.
Лекция 8. Алгоритм построения регрессионной модели
Построение и статистический анализ линейной по параметрам модели. Повторение опытов. Проверка однородности дисперсий. Проверка гипотез о равенстве параметров нулю. Проверка гипотезы адекватности модели. Алгоритм планирования эксперимента и обработки экспериментальных данных.
Практическое занятие 1 - очное, лекция 1 - заочное. Эксперимент, статистика, инструментарий
Цель занятия: сформировать представление о роли статистических методов в прикладных задачах.
Содержание занятия: я показываю картинки и рассказываю сказки. Вы слушаете и задаете вопросы.
Ресурсы:
Каталог с материалами занятия.
Выводы по занятию:
- Содержание о порядок натурных исследований определяются как предметной областью, так и на результатами, полученными в математических дисциплинах. Если нет необходимых знаний из двух этих областей, то эксперимент по необходимости не будет выполнен рационально. Поэтому приступать к нему без должной уверенности в наличии таких знаний (что и в каком виде, с какой степенью уверенности мы хотим получить) – пустая трата времени. Списывайте диссертацию с китайских патентов.
- Основные сложности в натурном исследовании сопряжены со стадиями постановки задачи и интерпретации результатов. Полученные в математических дисциплинах результаты приводят к концептуально простым, формальным процедурам. Математически строгое и корректное применение этих процедур часто позволяет обосновать диаметрально противоположные точки зрения. Hail to the Statistics.
- Формальным характером процедур обработки обусловлена доступность большого числа программных инструментов математической статистики.
- Любой (не только статистический!) программный инструмент нужно выбирать исходя из критерия простоты использования.
- Простота использования причинно не связана с наличием красивых кнопочек (bells and whistles, рус. свистелки и перделки) и графического интерфейса в целом.
- Простота использования – это минимум затрат ресурсов при достижении цели. Ресурсы – время на освоение, время на решение задач (однократных или, в перспективе, повторяющихся с достаточной регулярностью), затраты ресурсов на решение задач пред- и постобработки (определяемые в т.ч. способом и форматом обмена данными), затраты времени на модернизацию программного инструмента (дописывание функциональности на встроенном языке и/или модификация исходного кода), затраты времени на заработки для покупки программы (стоимость коммерческих математических пакетов – от 5 до 50 килобаксов), а также немаловажные эмоциональные затраты (многие программы можно любить только за деньги).
- Основные классификационные признаки программного обеспечения – тип и порядок величины затрат ресурса. По типу программные инструменты разделяются на коммерческие и бесплатные, закрытые и свободные, графические (основной информационный обмен – интерактивный, посредством графического интерфейса пользователя) и командные (взаимодействие посредством текстовых данных).
- Применительно к программному обеспечению, пригодному для решения статистических задач, дополнительными признаками будут объем реализации и корректность реализации статистических функций, а также качество документации. Объем реализации связан с ожиданиями организации-разработчика по окупаемости разработки: дорогие коммерческие пакеты позиционируются как универсальные решения. Корректность реализации связана с пользовательской базой, и может быть удовлетворительной не только для коммерческих, но и для свободных программных инструментов. Качество документации коммерческих инструментов, как правило, выше; но есть и исключения.
- Примером доступного программного инструмента с низким порогом вхождения является пакет анализа в составе пакета Microsoft Office (версии для ПК), доступный из табличного процессора MS Excel. Полнота, корректность и качество документации пакета анализа оставляют желать лучшего; пакет малопригоден для решения массовых задач. Тем не менее, начинать мы будем именно с него.
- Примером программного инструмента с высокой полнотой и корректностью реализации статистических функций является
здесь могла бы быть ваша реклама пакет SPSS. Доступным этот пакет не является (хотя текущий продавец и предоставляет пробник); на пакеты такой ценовой категории (от 10 килобаксов) на официальных сайтах в открытом доступе даже цену не принято указывать.
- Примером доступного программного инструмента с высоким порогом вхождения является проблемно-ориентированный язык R. Изучение этого инструмента мы начнем по восстановлению исходной парадигмы человего-машинного взаимодействия.
- Исходную парадигму – human wins because he can use the machine; люди должны думать, а считать (выполнять рутинные операции) должны машины – мы будем восстанавливать на практических занятиях по статистике в свободное от статистики время.
- Сказка кончилась.
Практическое занятие 2. Статистические возможности коммерческих и свободных табличных процессоров
Цель занятия: сформировать представление о перечне функций рабочего листа и возможностях визуализации данных табличных процессоров MS Excel и GNUmeric, позволяющих решать статистические задачи.
Содержание занятия:
Графические возможности табличных процессоров MS Excel и Gnumeric. Распределения, важные для математической статистики. Табулирование функций распределений и генерация псевдослучайных чисел в MS Excel (пакет анализа) и Gnumeric.
Ресурсы:
Каталог с материалами занятия.
Выводы по занятию:
- Большинство табличных процессоров содержат достаточно развитые статистические средства.
- Статистические средства табличного процессора MS Excel по умолчанию частично отключены (представлены только статистическими функциями рабочего листа). Для их активации требуется подключить пакет анализа.
- Графические возможности табличных процессоров достаточны для сравнительно простых задач визуализации. Желательно использование специализированных пакетов научной визуализации.
Практическое занятие 3 - очное, практическое занятие 1 - заочное. Описательная статистика
Цель занятия: сформировать умения использовать средства табличных процессоров MS Excel и GNUmeric для выполнения первичной статистической обработки значений одного признака.
Содержание занятия: построение дискретного и непрерывного вариационного ряда, нахождение оценок математического ожидания и дисперсии, построение гистограммы средствами MS Excel 2003/2013 и GNUmeric.
Ресурсы:
Руководство по выполнению практического задания.
Пример выполнения практического задания.
В каталоге с материалами занятия (см. src1, src2) находятся текстовые файлы с «сырыми» данными, из которых нужно предварительно извлечь подлежащие обработке числовые выборки.
Каталог с материалами занятия.
Выводы по занятию:
- Описательная статистика – это то, что делают с данными, когда вообще не ясно, что с ними делать.
- Средства описательной статистики позволяют сделать приблизительное суждение о распределении генеральной совокупности.
- Вручную выполнять действия по нахождению оценок, построению непрерывного вариационного ряда и гистограммы – недопустимая трата времени.
Практическое занятие 4 - очное, практическое занятие 2 - заочное. Проверка статистических гипотез
Цель занятия: сформировать умения использовать средства табличных процессоров Ms Excel и GNUmeric для проверки статистических гипотез о равенстве неизвестных математических ожиданий и дисперсий (двухвыборочные задачи сравнения).
Содержание занятия: Проверка статистических гипотез (нормальное распределение генеральной совокупности; равенство математических ожиданий для неизвестных равных дисперсий; равенство дисперсий) средствами MS Excel.
Ресурсы:
Краткая теория.
Руководство к выполнению практических заданий.
Выборки для самостоятельного анализа.
Каталог с материалами занятия.
Выводы по занятию:
Практическое занятие 5. Корреляционный анализ
Цель занятия: сформировать умение использовать средства табличных процессоров MS Excel и GNUmeric для выполнения линейного корреляционного анализа.
Содержание занятия: Корреляционный анализ. Значимость коэффициента корреляции. Доказательство зависимости курса национальной валюты РФ от фаз Луны (на примере периода с 4 по 18 февраля 2015 г).
Ресурсы:
Интерактивный пример решения задачи линейного корреляционного анализа средствами MS Excel.
Пример решения практической задачи линейного корреляционного анализа средствами MS Excel.
Каталог с материалами занятия.
Выводы по занятию:
Практическое занятие 6 - очное, практическое занятие 3 - заочное. Метод наименьших квадратов
Цели занятия: совершенствование знания терминологии регрессионного анализа; анализ возможностей табличных процессоров и системы символьной математики Octave в части матричных операций (на примере отыскания параметров системы нормальных уравнений МНК); анализ возможностей табличных процессоров и системы gnuplot в части визуализации данных, определенных на равномерной сетке.
Содержание занятия: терминология регрессионного анализа (предикторы, отклик, регрессионная модель, параметрическая модель), метод наименьших квадратов, система нормальных уравнений для однофакторной линейной регрессии. Матричные операции в MS Excel, GNUmeric и GNU Octave. Визуализация одномерных сеточных данных в MS Excel, GNUmeric и gnuplot.
Ресурсы:
Каталог с материалами занятия.
Краткие теоретические сведения по построению линейной однофакторной регрессионной модели.
Руководство по построению линейной однофакторной регрессионной модели средствами табличных процессоров.
Пример построения линейной однофакторной регрессионной модели средствами MS Excel.
Данные для самостоятельного построения однофакторных регрессионных моделей средствами табличных процессоров.
Выводы по занятию:
- Во всех трех рассмотренных табличных процессорах реализованы функции рабочего листа, предназначенные для выполнения матричных операций; эти функции имеют одинаковые названия.
- Свободный табличный процессор GNUmeric способен читать данные в формате MS Excel 2003, при этом во многих случаях формулы и функции рабочего листа сохраняются. Внедренные графические объекты после импорта почти всегда требуют корректировки или повторного создания. Экспорт из GNUmeric в Ms Excel возможен, но корректность его невысока. Ни импорт, ни экспорт данных GNUmeric в MS Excel невозможен.
- При необходимости обработки массива задач преимущество табличных процессоров (наглядность решения) превращается в недостаток.
- GNU Octave и gnuplot в комбинации с имеющимися в POSIX-среде инструментами позволяют эффективно решать массивы задач. Однако порог вхождения для этих средств высок.
Практическое занятие 7 - очное, практическое занятие 4 - заочное. Модели, линейные по параметрам
Цель занятия: приобрести навык использования матричного соотношения, в явной форме выражающего вектор параметров модели через матрицу базисных функций и вектор откликов.
Содержание занятия: Матричная запись системы нормальных уравнений: двухфакторные линейная и квадратичная регрессии. Построение матрицы базисных функций на основе плана эксперимента и выбранного вида регрессионной модели. Отыскание параметров модели средствами табличных процессоров MS Excel и Gnumeric, а также открытыми средствами численной математики.
Ресурсы:
Каталог с материалами занятия.
Выводы по занятию:
Практическое занятие 8 - очное, практическое занятие 5 - заочное. Алгоритм построения линейной по параметрам регрессии
Цель занятия: сформировать представление об алгоритме построения и анализа линейной по параметрам регрессионной модели.
Содержание занятия: Место формальных и содержательных операций в алгоритме построения модели. Исходные данные. Порядок операций, логика перехода между отдельными этапами. Причины, по которым слишком хорошие измерения могут привести к отбраковке модели в целом. Причины, по которым слишком плохие измерения могут привести к отбраковке модели по частям. Реализация алгоритма средствами MS Excel, Gnumeric, и специализированного пакета Градиент.
Ресурсы:
Каталог с материалами занятия.
Выводы по занятию:
- .
- .
- .
- На странице «Регрессионный анализ» Википедии сказано «Statistical significance can be checked by an F-test of the overall fit, followed by t-tests of individual parameters». Обратите внимание на отличие от разобранного порядка действий.
Практическое занятие 9. Табличный процессор Calc (пакеты OpenOffice/LibreOffice)
Цель занятия: завершить формирование представления о программах типа bloatware.
Содержание занятия:
Идеология прикладного программного окружения среды POSIX. Пакет OpenOffice/LibreOffice как неактуальная попытка создания аналога для пакета MS Office, который в POSIX-среде неуловимый Джо. Неактуальность пакета как предпосылка неактуальности его эффективной реализации. Неактуальность пакета и мертвый ГОСТ Р ИСО/МЭК 26300-2010, строгость законов компенсируется их необязательностью, особенно если они бредовые, а за "разработку" ГОСТ ведь еще и бабла кто-то срубил. Графические возможности табличного процессора Calc. Статистические возможности табличного процессора Calc. OpenOffice и Microsoft Office: идеология одна, но ко второму уже привыкли. OOCalc и GNUmeric: визуальная функциональность без излишеств, за излишествами – к пакетам численной математики и проблемно-ориентированным средствам.
Ресурсы:
Каталог с материалами занятия.
Выводы по занятию:
Практическое занятие 10. Системы численной математики с MATLAB-подобным синтаксисом: пакет SciLab
Цель занятия: сформировать представление о ляля
Содержание занятия: Классификация математических пакетов. Системы численной и символьной математики. Система SciLab, ее графические и статистические возможности. Синтаксис языка. Построение регрессионных моделей средствами SciLab. Интеграция в свободное окружение: постобработка результатов средствами открытого векторного редактора InkScape. Особенности реализации SciLab: Java, или когда лекарство оказывается хуже болезни.
Ресурсы:
Каталог с материалами занятия.
Выводы по занятию:
Практическое занятие 11. Системы численной математики с MATLAB-подобным синтаксисом: пакет Octave
Цель занятия: сформировать представление о ляля
Содержание занятия:
Система Octave, ее графические и статистические возможности. Синтаксис языка. Построение нелинейных регрессионных моделей средствами Octave. Интеграция в свободное окружение: использование совместно с системой научной визуализации Gnuplot.
Ресурсы:
Каталог с материалами занятия.
Выводы по занятию:
Практическое занятие 12. Проблемно-ориентированный язык R
Цель занятия: сформировать представление о ляля
Содержание занятия:
Необходимость в алгоритмическом языке, ориентированном на статистические применения. Синтаксис языка. Графические и статистические возможности языка. Интеграция в свободное окружение: использование совместно с системой верстки LaTeX.
Ресурсы:
Каталог с материалами занятия.
Выводы по занятию:
Инструкция для доступа к библиотеке есть здесь
Прикладная статистика, регрессионный анализ:
- Бендат Дж., Пирсол А. Прикладной анализ случайных данных. М.: Мир, 1989. 540 с.
- Mendenhall W., Sincich T. A Second Course in Statistics. Regression Analysis. Prentice Hall, 2011. 812 p.
- Pardoe I. Applied Regression Modeling. Wiley, 2012. 334 p.
- Rawlings J.O. Pantula S.G., Dickey D.A. Applied regression analysis: a research tool. Springer: 1998. 658 p.
- Cook R.D., Weisberg S. Applied Regression Including Computing and Graphics. Wiley, 1999. 594 p.
- Chatterjee S., Simonoff J.S. Handbook of Regression Analysis. Wiley, 2013. 236 p.
- Takezawa K. Learning Regression Analysis by Simulation. Springer Japan, 2014. 300 p.
- Yan X., Su X.G. Linear regression analysis. Theory and computing. World Scientific, 2009. 329 p.
- Seber G., Lee A. Linear regression analysis. Wiley, 2003. 565 p.
- Hocking R.R. Methods and applications of linear models: regression and the analysis of variance. Wiley, 2003. 776 p.
- Ryan T.P. Modern regression methods. Wiley, 1997. 529 p.
- Seber G., Wild C.J. Nonlinear Regression. N.Y.: Wiley, 2003. 781 p.
- Bates D.M., Watts D.G. Nonlinear Regression Analysis and its Applications. N.Y.: Wiley, 1988. 371 p.
Математическая теория эксперимента (включая прикладную статистику):
- Хартман К. Планирование эксперимента в исследовании технологических процессов. М.: Мир, 1977. 552 с.
- Cochran W.G. Planning and analysis of observational studies. New York: Wiley, 1983. 145p.
- Зедгинидзе И.Г. Планирование эксперимента для исследования многокомпонентных систем. М.: Наука, 1976. 390 с.
- Налимов В.В. Теория эксперимента. М.: Наука, 1971. 208 с.
- Налимов В.В., Голикова Т.И. Логические основания планирования эксперимента. М.: Металлургия, 1981. 152 с.
- Ахназарова С.Л., Кафаров В.В. Методы оптимизации эксперимента в химической технологии. М.: Высшая шк., 1985. 325 с.
- Zivorad R.L. Design of Experiments in Chemical Engineering. Weinheim: Wiley, 2004. 610 p.
Инструментальные средства прикладной статистики:
- Sheather S.J. A Modern Approach to Regression with R. Springer, 2009. 397 p.
- Fox J. An R and S Plus Companion to Applied Regression. Sage Publications, 2002. 325 p.
- Wright D.B., London K. Modern regression techniques using R: a practical guide. SAGE, 2009. 205 p.
- Ritz C., Streibig J.C. Nonlinear Regression with R. N.Y.: Springer, 2009. 148 p.
- Faraway J.J. Practical Regression and Anova using R. 2002. 212 p.
Оптимизация, многокритериальная оптимизация:
- Rao S.S. Engineering Optimization: Theory and Practice. New Jersey: Wiley, 2009. 813 p.
- Miettinen K. Nonlinear Multiobjective Optimization. Boston: Kluwer, 1999. 298 p.
С 2015 г. форма аттестации – зачет в конце четвертого семестра. Вы приходите на зачет, случайным образом выбираете четыре бумажки, на каждой бумажке один вопрос (вопросы с ответами – см. ниже). Время на подготовку – весь четвертый семестр. Для зачета требуется верный ответ как минимум на три вопроса. Если верных ответов ровно два – я задаю дополнительный вопрос из числа основных определений теории вероятностей.
Перечень вопросов:
- Чем определяется целесообразность применения инструментальных (программных) средств математической статистики и математической теории эксперимента? (целесообразность применения определяется большим объемом встречающихся на практике выборок, необходимостью работы со специальными функциями, наличием смежных задач визуализации)
- Приведите какую-либо классификацию инструментальных средств, которые могут применяться при решении задач регрессионного анализа и статистической обработки результатов эксперимента (например: «специализированные пакеты; универсальные пакеты; пакеты, входящие в состав программных продуктов сходного назначения – табличных процессоров и т.п.»; «коммерческие и свободные»; «с самодостаточной документацией и плохо документированные»; возможны и другие классификации).
- Какие задачи прикладной статистики наиболее часто встречаются при обработке эмпирической информации? (дескриптивная статистика – первичная обработка опытных данных; нахождение оценок параметров распределений; проверка статистических гипотез; регрессионный анализ)
- Что называют генеральной совокупностью? (множество)
- Что называют выборкой? (подмножество генеральной совокупности)
- Как называют элементы выборки? (вариантами)
- Что называют объемом выборки? (число вариант)
- Что называют дискретным вариационным рядом? (упорядоченную по возрастанию последовательность вариант)
- Что называют частотой разряда? (число вариант, попавших в этот разряд)
- Что называют непрерывным вариационным рядом? (последовательность разрядов и соответствующих им частот)
- Что называют гистограммой? (ступенчатую фигуру, состоящую из прямоугольников, основания которых построены на соответствующих разрядах, а высоты равны частному от деления относительной частоты на длину разряда)
- Какие оценки называют точечными? (оценки, выражающиеся одним числом)
- Как найти оценку математического ожидания? (как выборочное среднее, т.е. среднее арифметическое)
- Как найти несмещенную оценку дисперсии? (как сумму квадратов отклонений вариант от оценки математического ожидания, деленную на объем выборки без единицы)
- Что называют стандартным отклонением? (корень из дисперсии)
- Как найти оценку стандартного отклонения? (как корень из оценки дисперсии)
- Как найти оценку стандартной ошибки? (как корень из частного от деления оценки дисперсии на объем выборки)
- Как найти оценку коэффициента вариации? (как частное от деления оценок стандартного отклонения и математического ожидания)
- Запишите выражение для плотности нормального распределения (\(f\left(x\right) = \frac{1}{\sigma\sqrt{2\pi}} \exp \left( -\frac{\left(x-m\right)^2}{2\sigma^2} \right)\)).
- Какое распределение называют стандартным нормальным? (нормальное распределение называют стандартным, если математическое ожидание и дисперсия подчиненной ему случайной величины равны нулю и единице, соответственно)
- Что называют кривой Гаусса? (график плотности нормального распределения)
- Запишите выражение функции Лапласа (\(\Phi\left(x\right) = \frac{1}{\sqrt{2\pi}} \int\limits_0^x\exp^{-\frac{t^2}{2}}dt\)).
- Как найти вероятность попадания нормально распределенной случайной величины на интервал от \alpha до \beta? (как разность значений функции Лапласа \(P\left(\alpha < X \leqslant \beta\right) = \Phi\left(\frac{\beta - m}{\sigma}\right) - \Phi\left(\frac{\alpha - m}{\sigma} \right)\))
- Что называют статистической гипотезой? (предположение о виде неизвестного распределения или о параметрах известного распределения)
- Приведите вероятностью формулировку основного вопроса проверки статистических гипотез («какова вероятность при верной гипотезе получить данные, не лучшие чем реально полученные в эксперименте?»).
- Что называют уровнем значимости? (уровень значимости можно понимать как вероятность события, которое в принятых условиях считается невозможным; по определению, уровень значимости – это вероятность ошибочно отвергнуть верную гипотезу)
- Что называют мощностью статистического критерия? (число, дополняющее до единицы вероятность ошибочного принятия неверной гипотезы)
- Что называют экспериментом? (действие, направленное на подтверждение или опровержение научной гипотезы)
- В чем отличие активного – controlled experiment, laboratory experiment – и пассивного – natural experiment, field experiment – эксперимента? (активный эксперимент предполагает планирование и создание специальных условий, при которых можно ожидать достижения цели; пассивный эксперимент этого не предполагает, хотя и может включать этап планирования)
- Что называют кибернетическим черным ящиком? (систему, для которой интерес представляет не внутреннее содержание, а только реакция на входные воздействия)
- Что называют варьируемым фактором? (варьируемым фактором, или входной переменной, или предиктором, называют доступную для изменения независимую переменную)
- Чем наблюдение отличается от пассивного эксперимента? (наблюдение не предполагает наличия варьируемых факторов)
- Что называют факторным пространством? (координатное пространство предикторов; пространство, по осям координат которого откладываются значения фарьируемых факторов)
- Что называют откликом системы? (отликом системы, или выходной переменной, называют доступную для измерения зависимую переменную)
- Что называют размахом варьирования? (разность наибольшего и наименьшего значений варьируемого фактора)
- Что называют интервалом варьирования? (половину размаха варьирования)
- Что называют основным уровнем фактора? (среднее арифметическое наибольшего и наименьшего значений варьируемого фактора;середину размаха варьирования)
- Что называют экспериментально-статистической (регрессионной) моделью? (подлежащую восстановлению по опытным данным аналитическую зависимость отклика от варьируемых факторов)
- Какую модель называют линейной по параметрам? (ЭС-модель называют линейной по параметрам, если она представляет собой сумму произведений искомых параметров на функции, не зависящие ни от одного из параметров).
- Что называют базисными функциями модели, линейной по параметрам? (функции, линейной комбинацией которых является модель)
- Почему в прикладных задачах регрессионного анализа предпочтение отдается моделям, линейным по параметрам? (это связано с вычислительной простотой анализа планов эксперимента для построения этих моделей; простотой поиска параметров таких моделей; простотой анализа построеннной модели)
- Приведите примеры ЭС-моделей, линейных по параметрам (\(y=b_0+b_1x_1+b_{11}x_1^2\) – однофакторная квадратичная модель; \(y=b_0+b_1x_1+b_2x_2+b_{12}x_1x_2\) – двухфакторная неполная квадратичная модель; \(y=b_0+b_1x_1+b_2x_2+b_3x_3\) – трехфакторная линейная модель; \(y=b_0+b_1e^{x_1}+b_2\sin(x_2)\) – без названия, но тоже линейная по параметрам).
- Что называют планом эксперимента? (множество значений предикторов; образ эксперимента в факторном пространстве)
- Какой план эксперимента называют оптимальным? (план, отвечающий выбранным требованиям в части затрат ресурсов и обеспечения достижения цели эксперимента, в т.ч. обеспечения точности предсказания регрессионной моделью значений отклика)
- Что называют планированием эксперимента? (обоснованный выбор плана эксперимента исходя из принятых критериев оптимальности плана)
- Какая из двух операций – выбор общего вида модели и выбор плана эксперимента – должна предварять другую? (первая: обоснованный выбор плана эксперимента возможен только после выбора общего вида регрессионной модели; общий вид модели является аналитическим выражением цели эксперимента)
- Сформулируйте принцип максимального правдоподобия («наилучшим описанием исследуемой системы является такое, для которого максимальна вероятность предсказания моделью эмпирических значений отклика»).
- При каких предположениях об опытных данных принцип максимального правдоподобия приводит к методу наименьших квадратов? (при предположениях о независимости, равной точности и нормальном распределении результатов измерений)
- Запишите матричное соотношение, в явной форме выражающее столбец искомых параметров линейной по параметрам модели через матрицу базисных функций и столбец откликов \(\mathbf B=\left(\mathbf X^T\mathbf X\right)^{-1}\mathbf X^T \mathbf Y\)).
- Как называется матрица \(\left(\mathbf X^T\mathbf X\right)^{-1}\), фигурирующая в соотношении, в явной форме выражающем столбец искомых параметров линейной по параметрам модели через матрицу базисных функций и столбец откликов? Матричным аналогом какой скалярной величины она является? (матрица ошибок, или ковариационная матрица; является матричным аналогом дисперсии)
- Запишите выражение, позволяющее для N экспериментов по M параллельных испытаний найти дисперсию воспроизводимости (\(s_e^2=\frac{1}{N(M-1)}\sum\limits_{u=1}^N\sum\limits_{i=1}^M \left(x_{ui}-\overline{x}_u\right)^2\)).
В 2011 г. сотрудников НОЦ НТ попросили представить для анализа примерное содержание нескольких факультативных курсов для аспирантов. В числе представленных курсов был и этот – и он был принят проректором О.О. Егорычевым. С 2012 по 2014 гг. курс читался аспирантам как факультативный – кто хочет, тот слушает и сдает (в аспирантуре все курсы такими должны быть). Содержание курса исходно отражало направление строительного материаловедения (05.23.05), и – когда у меня была возможность – я говорил об этом на установочном занятии аспирантов. Но приходили и с других специальностей.
Что хуже, уже в 2011 г. направленность курса не учитывалась при выборе рецензентов (выбирал не я). В частности, единственный хороший, содержательный отзыв был получен от Ашота Георгиевича Тамразяна и, вероятно, был дан исходя из вполне очевидного предположения о том, что курс ориентирован на конструкторов (05.23.01); несмотря на это, замечаний было на удивление мало. Замечания и мои ответы:
- Не представлены ... вопросы ... сравнения теоретических и экспериментальных данных; в каком разделе программы учат определять погрешность эксперимента, с которой и следует сравнивать разницу теоретического и опытного значений? Как это делать в случаях равноточных и неравноточных измерений?
Для регрессионной модели формальная процедура сравнения невязок с ошибками эксперимента – это процедура проверки статистических гипотез о равенстве параметра нулю; она излагается для равноточных измерений. В целом, задача сравнения «теоретических» и «практических» значений почти всюду доводится до вероятности получения не лучших, чем реально полученные, экспериментальных данных, в предположении о справедливости какой-либо гипотезы – этим курс выгодно отличается от изложения, привлекающего значения квантилей распределений.
- Не затронута методика статистической оценки результатов расчёта в связи с задачей линейного регрессионного и корреляционного анализов.
Вопросам построения линейных по параметрам регрессионных моделей исходно посвящено три лекции и практических занятия. Материал по корреляционному анализу, включая средства оценки значимости коэффициента корреляции, добавлен.
- Желательно включить в программу разделы, касающиеся вопросов теории подобия, размерностей, масштабных эффектов.
Я не считаю себя достаточно компетентным в указанных разделах математики.
- Список рекомендуемых основных и дополнительных источников необходимо дополнить следующими классическими руководствами: Уорсинг А., Геффнер Дж. Методы обработки экспериментальных данных. М.: Изд-во иностранной литературы, 1949; Дж.Бендат, А.Пирсол. Прикладной анализ случайных данных. М.: Мир, 1989.
Полностью согласен!
Вторая книга добавлена. Первая (Worthing A.G., Geffner J. Treatment of Experimental Data. John Wiley & Sons, 1944) – сейчас библиографическая редкость.
- Программу следует изложить в более прикладном ключе, ориентирующемся на более узкий круг специальностей.
Исходно именно это и предполагалось.
С 2015 г. курс становится обязательным. Не только для профиля «Строительное материаловедение» направления «Техника и технологии строительства», не только для других профилей этого направления, но и для других направлений. О чем мне им рассказывать и что с них спрашивать – я ума не приложу.
С 2020 г. курс у меня отняли. Спасибо родному Минобру!