| 
 
 Гипермаркет знаний>>Информатика>>Информатика 11 класс>>Информатика: Метод наименьших квадратов  
 
                                                  Метод наименьших квадратов  
 Получение регрессионной модели происходит в два этапа:
 1) подбор вида функции;
       2) вычисление параметров функции.
     Первая задача не имеет строгого решения. Здесь может помочь опыт и интуиция исследователя, а возможен и «слепой» перебор из конечного числа функций и выбор лучшей из них.
    Чаще всего выбор производится среди следующих функций:
      у = ах + Ъ — линейная   функция; 
      у = ах2 + Ьх + с — квадратичная функция;
     у = аln(х) + Ь — логарифмическая функция;
     у = аеbx — экспоненциальная функция;
     у = ахb ~ степенная функция.
       Квадратичная функция называется в математике полиномом второй степени. Иногда используются полиномы и более высоких степеней, например, полином третьей степени имеет вид: у = ах3 + bx2 + сх + d.
       Во всех этих формулах х — аргумент, у — значение функции, а, b, с, d — параметры функций. Ln(x) — натуральный логарифм, е - константа, основание натурального логарифма.
      Если вы выбрали (сознательно или наугад) одну из предлагаемых функций, то следующим шагом нужно подобрать параметры (а, b, с и пр.) так, чтобы функция располагалась как можно ближе к экспериментальным точкам. Что значит ♦располагалась как можно ближе»? Ответить на этот вопрос — значит предложить метод вычисления параметров. 
     Такой метод был предложен в XVIII веке немецким математиком К. Гауссом. Он называется методом наименьших квадратов (МНК). Суть его заключается в следующем: искомая функция должна быть построена так, чтобы сумма квадратов отклонений у-    координат всех экспериментальных точек от у-координат графика функции была бы минимальной.
     Мы не будем здесь производить подробное математическое описание метода наименьших квадратов. Достаточно того, что вы теперь знаете о существовании такого метода. Он очень широко используется в статистической обработке данных и встроен во многие математические пакеты программ. Важно понимать следующее: методом наименьших квадратов по данному набору экспериментальных точек можно построить любую (в том числе и из рассмотренных выше) функцию. А вот будет ли она нас удовлетворять, это уже другой вопрос — вопрос критерия соответствия. На рис. 2.14 изображены три функции, построенные методом наименьших квадратов по данным, представленным в предыдущей теме.
 
 
 
 Рис. 2.14. Использование метода наименьших квадратов
 
 Данные рисунки получены с помощью MS Excel. График регрессионной модели называется трендом. Английское
 слово trend можно перевести как общее направление, или тенденция.
 Уже с первого взгляда хочется отбраковать вариант ли¬нейного тренда. График линейной функции — это прямая. Полученная по МНК прямая отражает факт роста заболевае¬мости от концентрации угарного газа, но по этому графику трудно что-либо сказать о характере этого роста. А вот квад¬ратичный и экспоненциальный тренды ведут себя очень правдоподобно. Теперь пора обратить внимание на надписи, присутствующие на графиках. Во-первых, это записанные в явном виде искомые функции — регрессионные модели:
 линейная функция: у - 46,361х - 99,881; экспоненциальная функция: у = 3,4302 е0Д5б5х; квадратичная функция: у = 21,845х* - 106,97л: +150,21.
 На графиках присутствует еще одна величина» получен¬ная в результате построения трендов. Она обозначена как it*2. В статистике эта величина называется коэффициентом детерминированности. Именно она определяет, насколько удачной является полученная регрессионная модель. Коэф¬фициент детерминированности всегда заключен в диапазоне от 0 до 1. Если он равен 1, то функция точно проходит через табличные значения, если О, то выбранный вид регрессион¬ной модели предельно неудачен. Чем R2 ближе к 1, тем удачнее регрессионная модель.
 Из трех выбранных моделей значение R2 наименьшее у линейной* Значит, она самая неудачная (нам и так это было понятно). Значения же Л2 у двух других моделей до¬статочно близки (разница меньше одной 0,01). Если опреде¬лить погрешность решения данной задачи как 0,01, по кри¬терию Лг эти модели нельзя разделить. Они одинаково удачны. Здесь могут вступить в силу качественные сообра¬жения. Например, если считать, что наиболее существенно влияние концентрации угарного газа проявляется при боль¬ших величинах* то, глядя на графики, предпочтение следу¬ет отдать квадратичной модели. Она лучше отражает резкий рост заболеваемости при больших концентрациях примеси,
 Интересный факт: опыт показывает, что если человеку предложить на данной точечной диаграмме провести на глаз прямую так, чтобы точки были равномерно разбросаны во¬круг нее, то он проведет линию, достаточно близкую к той, что дает МНК.
 
 Коротко о главном
 4
 Метод наименьших квадратов используется для вычисле¬ния параметров регрессионной модели- Этот метод содер¬жится в математическом арсенале электронных таблиц (в том числе и в MS Excel).
 Выбор типа регрессионной модели пользователь произво¬дит сам, а МНК позволяет построить функцию такого типа, наиболее близкую к экспериментальным данным.
 Характеристикой построенной модели является параметр Яа — коэффициент детерминированности. Чем его значение ближе к 1, тем модель лучше-
 Может оказаться, что несколько моделей имеют близкий параметр Л2. Б этом случае пользователь выбирает ив них наи¬более подходящую, исходя из эмпирических соображении.
 Вопросы и задания
 
 
 1.    а) Для чего используется метод наименьших квадратов?
 б)    Что такое тренд?
 в)    Как располагается линия тренда, построенная по МНК, отно-
 сительно экспериментальных точек?
 г)    Может ли тренд» построенный по МНК, пройти выше всех эк-
 спериментальных точек?
 2.    а) В чем смысл параметра f?2? Какие значения он принимает?
 б) Какое значение примет параметр R2f если тренд точно прохо-" дат через экспериментальные точки?
 3.    По данным из следующей таблицы постройте с помощью MP
 Excel линейную, квадратичную, экспоненциальную и логариф"
 мическую регрессионные модели. Определите параметры, вы*
 берите лучшую модель.
 
 2    1—■"|"   \
 4    6    8    10    12    14    16    1S    20    22    24    26    28 Л
 44    32    35    40    30    27    21    25    20    23 ,    18    19    20    16 J'
 
 
 Семакин И.Г., Хеннер Е.К., Информатика и ИКТ, 11
 Отослано читателями из интернет-сайтов
 
 
 Содержание урока
 конспект урока  опорный каркас  презентация урока  акселеративные методы  интерактивные технологии 
Практика  задачи и упражнения  самопроверка  практикумы, тренинги, кейсы, квесты  домашние задания  дискуссионные вопросы  риторические вопросы от учеников
 
Иллюстрации  аудио-, видеоклипы и мультимедиа  фотографии, картинки  графики, таблицы, схемы  юмор, анекдоты, приколы, комиксы  притчи, поговорки, кроссворды, цитаты
Дополнения  рефераты  статьи  фишки для любознательных  шпаргалки  учебники основные и дополнительные  словарь терминов  прочие 
Совершенствование учебников и уроков  исправление ошибок в учебнике  обновление фрагмента в учебнике  элементы новаторства на уроке  замена устаревших знаний новыми 
 
Только для учителей  идеальные уроки  календарный план на год  методические рекомендации  программы  обсуждения
Интегрированные уроки 
 Если у вас есть исправления или предложения к данному уроку, напишите нам. 
 Если вы хотите увидеть другие корректировки и пожелания к урокам, смотрите здесь - Образовательный форум.
 
 
 
 |