Тема: елементи регресійно-кореляційного аналізу.
Мета: сформувати уявлення про статистичні функції програми LibreOffice Calc. Сформувати навички застосування стандартних функцій для розв'язку прикладних задач. Розвинути пізнавальний інтерес, навички аналізу й узагальнення.
Учень повинен
мати уявлення про:
Хід уроку
1. Організаційний момент
Вітання з класом. Перевірка присутності і готовності учнів до уроку. Перевірка виконання домашнього завдання.
2. Актуалізація опорних знань
Дати відповіді на запитання.
3. Вивчення нового матеріалу
Мотивація вивчення нового матеріалу
Одна з найбільш розповсюджених задач статистичного дослідження стосується вивчення зв’язків між вибірками. Такий зв’язок між вибірками має не функціональний, а ймовірнісний (ще кажуть стохастичний) характер. Інакше кажучи, у цьому випадку немає однозначної залежності між величинами.
Примітка. Подані далі формули запам'ятовувати не потрібно. Їх подано для повноти викладу і пояснення алгоритму обчислень. Вчитель може призначити текст, виділений синім, лише для самостійного ознайомлення за бажанням після виконання роботи.
При вивченні стохастичних залежностей розрізняють кореляцію и регресію.
Kореляція — залежність випадкових величин.
При цьому, зміна однієї (або кількох) таких величин призводить
до систематичної зміни іншої (або інших) величин. Математичною мірою кореляції двох випадкових величин слугує коефіцієнт кореляції.
Коефіцієнт кореляції — параметр, який характеризує ступінь лінійного взаємозв’язку між двома вибірками (емпіричний) або між двома випадковими величинами (теоретичний).
Для вибірки {xj }j = 1, 2, …, n — реалізації довільної випадкової величини x — позначимо усереднення за вибіркою (емпіричне математичне сподівання):
n | ||
Mex = n–1 | ∑ | xj. |
j = 1 |
rxy — емпіричний коефіцієнт кореляції — будемо шукати як таке відношення:
Після множення чисельника і знаменника останнього дробу на довжину вибірки n, отримаємо:
Тут усі додавання, позначені знаком ∑, здійснюють за j = 1, 2, …, n.
У загальному випадку | rxy | ≤ 1.
При rxy = ±1 існує лінійна залежність між величинами x та y. Інакше кажучи, існують сталі a й b, при яких yj = axj + b для всіх елементів вибірки (за наявності різних величин x). Зауважимо, що у цьому випадку знаки rxy і a збігаються.
Якщо усереднення за вибіркою замінити на математичне сподівання, то матимемо означення теоретичного коефіцієнта кореляції і справдження відповідного висловлювання щодо лінійної залежності для екстремальних величин ±1. Лише замість слів: «для всіх елементів вибірки» потрібно казати: «з імовірністю 1».
Якщо коефіцієнт кореляції дорівнює нулю, тоді говорять про відсутність статистичного зв'язку. Для незалежних випадкових величин такий зв'язок відсутній завжди. Обернене твердження (незалежність розподілу випливає з рівності нулю коефіцієнта кореляції) можна довести лише в окремих випадках. Наприклад, для нормального розподілу, який найчастіше використовують для опису випадкових величин.
Регресія — форма зв'язку між випадковими величинами.
Інакше кажучи, закон зміни однієї випадкової величини залежно від величини іншої. Розрізняють прямолінійну, параболічну та інші регресії.
Регресійний аналіз — розділ математичної статистики, присвячений методам аналізу залежності однієї величини від іншої.
Апроксимація (латинською approximare — наближати) — наближене подання одних (математичних) об'єктів іншими, зазвичай простішими.
Наприклад, кривих ліній — ламаними, ірраціональних чисел — раціональними, неперервних функцій — многочленами. Графік залежності будь-яких експериментальних даних можна наблизити лінією: прямою лінією, параболою, експонентою тощо.
Лінійне рівняння регресії має такий вигляд: y = ax + b + ε. Тут
a, b — параметри моделі;
ε — випадкова величина з нульовим середнім.
Традиційно параметри моделі шукають, керуючись методом найменших квадратів. Інакше кажучи, намагаючись зменшити якість наближення — емпіричне сподівання (середнє арифметичне за вибіркою) ε2:
n | ||
Me(y – ax – b)2 = n–1 | ∑ | (yj – axj – b)2. |
j = 1 |
Останній вираз — квадратичний відносно a, b. У точці мінімуму (часткові) похідні цього виразу за a, b дорівнюють 0. Точку мінімуму можна знайти, розв'язавши відповідну систему двох лінійних рівнянь відносно двох змінних a, b. Матимемо таке:
n | n | n | ||||||||
a = ( | n–1 | ∑ | xj yj | – n–1 | ∑ | xj | · n–1 | ∑ | yk | ) : D; |
j = 1 | j = 1 | k = 1 |
n | n | n | n | ||||||||||
b = ( | n–1 | ∑ | xj2 | · n–1 | ∑ | yk | – n–1 | ∑ | xj | · n–1 | ∑ | xk yk | ) : D. |
j = 1 | k = 1 | j = 1 | k = 1 |
n | n | |||||
D = n–1 | ∑ | xj2 | – (n–1 | ∑ | xj | )2. |
j = 1 | j = 1 |
Навіть мінімальних знань про LibreOffice Calc (чи інший програмний засіб опрацювання електронних таблиць) достатньо, щоб обчислити коефіцієнт кореляції та коефіцієнти лінійної регресії. Якщо не застосувати спеціальні функції, то потрібно відобразити в електронній таблиці повністю всі обчислення. Крім великого обсягу роботи такий спосіб призводить до зростання ймовірності помилки. Тому бажано спочатку уважно ознайомитися з переліком функцій, обчислення яких передбачено у LibreOffice Calc. Перш за все у категорії Статистичні. Розглянемо в алфавітному порядку перелік деяких з функції цієї категорії, що мають очевидний зв'язок з обчисленням величин (пояснення LibreOffice Calc, у дужках — описано роль у обчисленнях):
AVERAGE повертає середнє арифметичне вибірки;
CORREL обчислює коефіцієнт кореляції для двох областей даних;
COVAR повертає коваріацію вибірки двох випадкових величин (чисельник у формулі для коефіцієнта кореляції);
DEVSQ повертає суму квадратів відхилення вибірки від середнього арифметичного (вираз у знаменнику формули для коефіцієнта кореляції);
FORECAST повертає величину лінійної регресії;
INTERCEPT відраховує відрізок, що відсікається лінією лінійної регресії (b);
RSQ повертає квадрат коефіцієнту кореляції продукту Пірсона (оцінку якості наближення — дійсне число з [0; 1], «чим більше, тим краще», 1 у випадку лінійної залежності);
SLOPE повертає нахил прямої лінії регресії (a).
Зеленим кольором виділено ті функції, використання яких — найкоротший і найлегший (для пересічного користувача) спосіб провести кореляційний і регресійний аналіз, навіть не маючи уявлення про математичні основи такого аналізу чи тривалого досвіду роботи з електронними таблицями.
В ході ознайомлення з поданим далі прикладом 1 кореляційного та регресійного аналізу кожний учень повинен виконати всі практичні кроки. Мета: бути готовим за таким самим сценарієм, але з іншими вхідними даними, швидко і самостійно провести аналогічне дослідження.
Приклад 1. Відома вартість одного квадратного метра 1-кімнатних квартир і їх площа. Спрогнозувати зміну вартості одного квадратного метра 1-кімнатних квартир в залежності від площі.
Вартість | Площа м.кв. |
---|---|
850 | 25 |
900 | 28 |
870 | 31 |
1000 | 34 |
940 | 37 |
1100 | 40 |
1200 | 43 |
1150 | 46 |
1300 | 49 |
1200 | 52 |
1350 | 55 |
1450 | 58 |
Використовуючи поданий ряд розподілу, визначити коефіцієнт кореляції rxy, коефіцієнти лінійної регресії a і b та оцінку якості наближення r 2.
Вказівки до розв'язання (засобами LibreOffice Calc)
Створити нову книгу. Перший її аркуш назвати Числа. Поки не сказано інше, всі дії здійснювати на цьому аркуші.
У комірки A1, B1, C1, D1, E1, F1 ввести відповідно тексти: y, x rxy, a, b, r2.
Ввести дані з умови в область A2:A13 та B2:B13.
Вибрати комірку С2 (для підрахунку коефіцієнта кореляції).
Використати вказівку меню Вставка / Функція або кнопку Помічник з функцій, щоб викликати вікно діалогу Function Wizard.
У цьому вікні діалогу у категорії Статистичні вибрати функцію CORREL, що обчислює коефіцієнт кореляції, і натиснути кнопку Next.
У вікні діалогу Function Wizard вказати діапазони комірок змінних — аргументів функції: A2:A13 і B2:B13 і натиснути кнопку Гаразд .
Аналогічно у комірках D2, E2, F2 підрахувати коефіцієнти лінійної регресії a, b та оцінку якості лінійного наближення r2, використавши відповідно функції SLOPE, INTERCEPT та RSQ категорії Статистичні.
Побудувати лінію тренду y = ax + b :
Висновок.
Близький до 1 коефіцієнт кореляції свідчить про незначні випадкові відхилення від лінійної залежності з додатним кутовим коефіцієнтом.
4. Інструктаж з ТБ
5. Закріплення вивченого матеріалу
Завдання 1. Провести за поданим вище зразком кореляційний і лінійний регресійний аналіз даних про середньоденну температуру протягом 2-х тижнів, яка змінювалася таким чином (у хронологічному порядку у додатних градусах Цельсія): 13, 13, 11, 10, 9, 8, 8, 8, 9, 9, 8, 9, 8, 10. Дати прогноз температури на наступні два дні у припущенні про сталість лінійної тенденції зміни температури. Електронну таблицю записати під назвою Ваше прізвище у теку, вказану вчителем.
Вказівка
В умові подано ряд величин y. Рядом величин x є номери днів. Наприклад, натуральні числа від 1 до 14 включно.
6. Підбиття підсумків уроку
Виставлення оцінок.
7. Домашнє завдання
Спрогнозувати наступну оцінку з предмету «Інформатика», якщо відома успішність з цього предмета за останній місяць: 7, 9, 7, 8, 10, 8, 9, 9, 9, 10, 6, 9, 8, 8, 8, 8, 10, 7, 9, 10. Вважати, що ставлення і, як наслідок, тенденція зміни оцінок до предмету сталі.
Текст упорядкувала Руль Наталія Георгіївна, вчитель школи № 61, Шевченківського району міста Києва, під час виконання випускної роботи на курсах підвищення кваліфікації з 09.09.2013 по 27.09.2013.