Розробка уроку — практичної роботи

Тема: елементи регресійно-кореляційного аналізу.

Мета: сформувати уявлення про статистичні функції програми LibreOffice Calc. Сформувати навички застосування стандартних функцій для розв'язку прикладних задач. Розвинути пізнавальний інтерес, навички аналізу й узагальнення.

Учень повинен

мати уявлення про:

уміти:

Обладнання: ПК з встановленою ОС та LibreOffice.

Структура уроку
  1. Організаційний момент.
  2. Актуалізація опорних знань.
  3. Вивчення нового матеріалу.
  4. Інструктаж з ТБ.
  5. Закріплення вивченого матеріалу.
  6. Підбиття підсумків уроку.
  7. Домашнє завдання.

Хід уроку

1. Організаційний момент
Вітання з класом. Перевірка присутності і готовності учнів до уроку. Перевірка виконання домашнього завдання.

2. Актуалізація опорних знань

Дати відповіді на запитання.

  1. Що вивчає статистика?
  2. Що таке ряд розподілу?
  3. З чого складається ряд розподілу?
  4. Що таке варіанти ряду розподілу?
  5. Що таке частоти ряду розподілу?

3. Вивчення нового матеріалу

Мотивація вивчення нового матеріалу
Одна з найбільш розповсюджених задач статистичного дослідження стосується вивчення зв’язків між вибірками. Такий зв’язок між вибірками має не функціональний, а ймовірнісний (ще кажуть стохастичний) характер. Інакше кажучи, у цьому випадку немає однозначної залежності між величинами.

Примітка. Подані далі формули запам'ятовувати не потрібно. Їх подано для повноти викладу і пояснення алгоритму обчислень. Вчитель може призначити текст, виділений синім, лише для самостійного ознайомлення за бажанням після виконання роботи.


При вивченні стохастичних залежностей розрізняють кореляцію и регресію.

Kореляціязалежність випадкових величин.

При цьому, зміна однієї (або кількох) таких величин призводить до систематичної зміни іншої (або інших) величин. Математичною мірою кореляції двох випадкових величин слугує коефіцієнт кореляції.

Коефіцієнт кореляціїпараметр, який характеризує ступінь лінійного взаємо­зв’язку між двома вибірками (емпіричний) або між двома випадковими величинами (теоретичний).

Для вибірки {xj }j = 1, 2, …, n — реалізації довільної випадкової величини x — позначимо усереднення за вибіркою (емпіричне математичне сподівання):

n
Mex = n–1xj.
j = 1

rxyемпіричний коефіцієнт кореляції — будемо шукати як таке відношення:

Me (xMex)(yMe y)
————————————————— ·
(Me (xMex)2)1/2 · (Me (yMe y)2)1/2

Після множення чисельника і знаменника останнього дробу на довжину вибірки n, отримаємо:

rxy = (xjMex)(yjMe y)
rxy = ————————————————— ·
rxy = ( (xjMex)2)1/2 · ( (yjMe y)2)1/2

Тут усі додавання, позначені знаком ∑, здійснюють за j = 1, 2, …, n.

У загальному випадку | rxy | ≤ 1.

При rxy = ±1 існує лінійна залежність між величинами x та y. Інакше кажучи, існують сталі a й b, при яких yj = axj + b для всіх елементів вибірки (за наявності різних величин x). Зауважимо, що у цьому випадку знаки rxy і a збігаються.

Якщо усереднення за вибіркою замінити на математичне сподівання, то матимемо означення теоретичного коефіцієнта кореляції і справдження відповідного висловлювання щодо лінійної залежності для екстремальних величин ±1. Лише замість слів: «для всіх елементів вибірки» потрібно казати: «з імовірністю 1».

Якщо коефіцієнт кореляції дорівнює нулю, тоді говорять про відсутність статистичного зв'язку. Для незалежних випадкових величин такий зв'язок відсутній завжди. Обернене твердження (незалежність розподілу випливає з рівності нулю коефіцієнта кореляції) можна довести лише в окремих випадках. Наприклад, для нормального розподілу, який найчастіше використовують для опису випадкових величин.

Регресія форма зв'язку між випадковими величинами.

Інакше кажучи, закон зміни однієї випадкової величини залежно від величини іншої. Розрізняють прямолінійну, параболічну та інші регресії.

Регресійний аналізрозділ математичної статистики, присвячений методам аналізу залежності однієї величини від іншої.

Апроксимація (латинською approximare — наближати) — наближене подання одних (математичних) об'єктів іншими, зазвичай простішими.

Наприклад, кривих ліній — ламаними, ірраціональних чисел — раціональними, неперервних функцій — многочленами. Графік залежності будь-яких експери­ментальних даних можна наблизити лінією: прямою лінією, параболою, експонентою тощо.

Лінійне рівняння регресії має такий вигляд: y = ax + b + ε. Тут
a, b — параметри моделі;
ε — випадкова величина з нульовим середнім.

Традиційно параметри моделі шукають, керуючись методом найменших квадратів. Інакше кажучи, намагаючись зменшити якість наближення — емпіричне сподівання (середнє арифметичне за вибіркою) ε2:

n
Me(y – ax – b)2  =  n–1(yj – axj – b)2.
j = 1

Останній вираз — квадратичний відносно a, b. У точці мінімуму (часткові) похідні цього виразу за a, b дорівнюють 0. Точку мінімуму можна знайти, розв'язавши відповідну систему двох лінійних рівнянь відносно двох змінних a, b. Матимемо таке:

a = (Me xyMe x · Me y) / (Me x2 – (Me x)2);

b = (Me x2 · Me yMe x · Me xy) / (Me x2 – (Me x)2),
або детальніше:
nnn
a = (n–1 xj yj  –  n–1xj  · n–1yk) : D;
j = 1j = 1k = 1
nnnn
b = (n–1 xj2  · n–1 yk  –  n–1xj  · n–1xk yk) : D.
j = 1k = 1j = 1k = 1
Тут
nn
D = n–1 xj2  –  (n–1xj)2.
j = 1j = 1

Навіть мінімальних знань про LibreOffice Calc (чи інший програмний засіб опрацювання електронних таблиць) достатньо, щоб обчислити коефіцієнт кореляції та коефіцієнти лінійної регресії. Якщо не застосувати спеціальні функції, то потрібно відобразити в електронній таблиці повністю всі обчислення. Крім великого обсягу роботи такий спосіб призводить до зростання ймовірності помилки. Тому бажано спочатку уважно ознайомитися з переліком функцій, обчислення яких передбачено у LibreOffice Calc. Перш за все у категорії Статистичні. Розглянемо в алфавітному порядку перелік деяких з функції цієї категорії, що мають очевидний зв'язок з обчисленням величин (пояснення LibreOffice Calc, у дужках — описано роль у обчисленнях):

  • AVERAGE повертає середнє арифметичне вибірки;

  • CORREL обчислює коефіцієнт кореляції для двох областей даних;

  • COVAR повертає коваріацію вибірки двох випадкових величин (чисельник у формулі для коефіці­єнта кореляції);

  • DEVSQ повертає суму квадратів відхилення вибірки від середнього арифметичного (вираз у знаменнику формули для коефіцієнта кореляції);

  • FORECAST повертає величину лінійної регресії;

  • INTERCEPT відраховує відрізок, що відсікається лінією лінійної регресії (b);

  • RSQ повертає квадрат коефіцієнту кореляції продукту Пірсона (оцінку якості наближення — дійсне число з [0; 1], «чим більше, тим краще», 1 у випадку лінійної залежності);

  • SLOPE повертає нахил прямої лінії регресії (a).

Зеленим кольором виділено ті функції, використання яких — найкоротший і найлегший (для пересічного користувача) спосіб провести кореляційний і регресійний аналіз, навіть не маючи уявлення про математичні основи такого аналізу чи тривалого досвіду роботи з електронними таблицями.

В ході ознайомлення з поданим далі прикладом 1 кореляційного та регресійного аналізу кожний учень повинен виконати всі практичні кроки. Мета: бути готовим за таким самим сценарієм, але з іншими вхідними даними, швидко і самостійно провести аналогічне дослідження.

Приклад 1. Відома вартість одного квадратного метра 1-кімнатних квартир і їх площа. Спрогнозувати зміну вартості одного квадратного метра 1-кімнатних квартир в залежності від площі.

ВартістьПлоща м.кв.
85025
90028
87031
100034
94037
110040
120043
115046
130049
120052
135055
145058

Використовуючи поданий ряд розподілу, визначити коефіцієнт кореляції rxy, коефіцієнти лінійної регресії a і b та оцінку якості наближення r 2.

Вказівки до розв'язання (засобами LibreOffice Calc)

  1. Створити нову книгу. Перший її аркуш назвати Числа. Поки не сказано інше, всі дії здійснювати на цьому аркуші.

  2. У комірки A1, B1, C1, D1, E1, F1 ввести відповідно тексти: y, x rxy, a, b, r2.

  3. Ввести дані з умови в область A2:A13 та B2:B13.

  4. Вибрати комірку С2 (для підрахунку коефіцієнта кореляції).

  5. Використати вказівку меню Вставка / Функція або кнопку Помічник з функцій, щоб викликати вікно діалогу Function Wizard.

  6. У цьому вікні діалогу у категорії Статистичні вибрати функцію CORREL, що обчислює коефіцієнт кореляції, і натиснути кнопку Next.

  7. У вікні діалогу Function Wizard вказати діапазони комірок змінних — аргументів функції: A2:A13 і B2:B13 і натиснути кнопку Гаразд .

  8. Аналогічно у комірках D2, E2, F2 підрахувати коефіцієнти лінійної регресії a, b та оцінку якості лінійного наближення r2, використавши відповідно функції SLOPE, INTERCEPT та RSQ категорії Статистичні.

  9. Побудувати лінію тренду y = ax + b :

    • видилити дані A2:B13;
    • використати вказівку меню Вставка / Діаграма або натиснути кнопку на Панелі інструментів;
    • у вікні Майстер діаграм:
      • обрати тип Гістограма;
      • натиснуть кнопку Завершити ;



    • використати вказівку меню Вставка / Лінії тенденції;



    • у вікні Лінії тенденції for all Data Series вибрати:
      • вибрати тип регресії Лінійний;
      • поставити мітку Показати формулу;
      • натиснути кнопку Гаразд ;



    • правою кнопкою миші клацнути на Лінії тенденції;
    • вибрати із контекстного меню діаграми Format Trend Line (Форматувати лінію тенденцій);



    • відформатувати лінію, використовуючи закладки Тип та Лінія.





Висновок. Близький до 1 коефіцієнт кореляції свідчить про незначні випадкові відхилення від лінійної залежності з додатним кутовим коефіцієнтом.

4. Інструктаж з ТБ

5. Закріплення вивченого матеріалу

Завдання 1. Провести за поданим вище зразком кореляційний і лінійний регресійний аналіз даних про середньоденну температуру протягом 2-х тижнів, яка змінювалася таким чином (у хронологічному порядку у додатних градусах Цельсія): 13, 13, 11, 10, 9, 8, 8, 8, 9, 9, 8, 9, 8, 10. Дати прогноз температури на наступні два дні у припущенні про сталість лінійної тенденції зміни температури. Електронну таблицю записати під назвою Ваше прізвище у теку, вказану вчителем.

Вказівка
В умові подано ряд величин y. Рядом величин x є номери днів. Наприклад, натуральні числа від 1 до 14 включно.

6. Підбиття підсумків уроку
Виставлення оцінок.

7. Домашнє завдання
Спрогнозувати наступну оцінку з предмету «Інформатика», якщо відома успішність з цього предмета за останній місяць: 7, 9, 7, 8, 10, 8, 9, 9, 9, 10, 6, 9, 8, 8, 8, 8, 10, 7, 9, 10. Вважати, що ставлення і, як наслідок, тенденція зміни оцінок до предмету сталі.


Текст упорядкувала Руль Наталія Георгіївна, вчитель школи № 61, Шевченківського району міста Києва, під час виконання випускної роботи на курсах підвищення кваліфікації з 09.09.2013 по 27.09.2013.