Основні поняття і визначення об'єкта статистичного дослідження. Генеральна сукупність і вибірковий метод Як досягається якісна однорідність статистичної сукупності

  • Економетрика - галузь науки, мета якої полягає в тому, щоб надати кількісні заходи економічним відносинам.
  • Статистичні методи є істотним елементом в соціальних науках, і в основному саме за допомогою цих методів соціальні вчення можуть піднятися до рівня наук.
  • Ставлячи за мету дати кількісний опис взаємозв'язків між економічними змінними, економетрика перш за все пов'язана з методами регресії і кореляції.
  • Будь-яке економетричні дослідження починається зі специфікації моделі, тобто З формулювання виду моделі виходячи з відповідної теорії зв'язку між змінними.
  • З усього кола факторів, що впливають на результативну ознаку (у), перш за все необхідно виділити найбільш суттєво впливають фактори.
  • Рівняння простої регресії характеризує зв'язок між двома змінними, яка проявляється як певна закономірність лише в середньому по сукупності спостережень.
  • У рівнянні регресії кореляційна по суті зв'язок ознак представляється у вигляді функціонального зв'язку, вираженої відповідної математичної функцією.
  • Випадкова величина ε, або обурення, включає вплив неврахованих в моделі факторів, випадкових помилок і особливостей вимірювання.
  • Припускаючи, що помилки вимірювання зведені до мінімуму, основна увага в економічних дослідженнях приділяється помилок специфікації моделі.
  • При вивченні залежності між двома ознаками графічний метод вибору типу рівняння регресії досить наочний. Він базується на поле кореляції.
  • Основні типи трендів, які використовуються при кількісній оцінці зв'язків між двома змінними: логарифмічний, лінійний, степеневої, поліноміальний, експонентний.
  • Аналітичний метод вибору типу рівняння регресії заснований на вивченні матеріальної природи зв'язку досліджуваних ознак.
  • Чим ближче коефіцієнт детермінації до одиниці, тим більшою мірою рівняння регресії придатне для прогнозування на наступний рік.
  • Прикладом нелінійної регресії по включеним у неї пояснює змінним можуть бути такі функції: рівнобічна гіпербола, поліноми різних ступенів.
  • До нелінійним регресії по оцінюваним параметрами відносяться функції: статечна, показова, експоненціальна.
  • Припускаючи, що помилки вимірювання зведені до мінімуму, основна увага в економічних дослідженнях приділяється помилок специфікації моделі.
  • При вивченні залежності між двома ознаками графічний метод вибору типу рівняння регресії досить наочний. Він базується на поле кореляції.
  • Основні типи трендів, які використовуються при кількісній оцінці зв'язків між двома змінними: логарифмічний, лінійний, степеневої, поліноміальний, експонентний.
  • Аналітичний метод вибору типу рівняння регресії заснований на вивченні матеріальної природи зв'язку досліджуваних ознак.
  • Чим ближче коефіцієнт детермінації до одиниці, тим більшою мірою рівняння регресії придатне для прогнозування на наступний рік.
  • Прикладом нелінійної регресії по включеним у неї пояснює змінним можуть бути такі функції: рівнобічна гіпербола, поліноми різних ступенів.
  • До нелінійним регресії по оцінюваним параметрами відносяться функції: статечна, показова, експоненціальна.
  • Припускаючи, що помилки вимірювання зведені до мінімуму, основна увага в економічних дослідженнях приділяється помилок специфікації моделі.
  • При вивченні залежності між двома ознаками графічний метод вибору типу рівняння регресії досить наочний. Він базується на поле кореляції.
  • Основні типи трендів, які використовуються при кількісній оцінці зв'язків між двома змінними: логарифмічний, лінійний, степеневої, поліноміальний, експонентний.
  • Аналітичний метод вибору типу рівняння регресії заснований на вивченні матеріальної природи зв'язку досліджуваних ознак.
  • Чим ближче коефіцієнт детермінації до одиниці, тим більшою мірою рівняння регресії придатне для прогнозування на наступний рік.
  • Прикладом нелінійної регресії по включеним у неї пояснює змінним можуть бути такі функції: рівнобічна гіпербола, поліноми різних ступенів.
  • До нелінійним регресії по оцінюваним параметрами відносяться функції: статечна, показова, експоненціальна.
  • Припускаючи, що помилки вимірювання зведені до мінімуму, основна увага в економічних дослідженнях приділяється помилок специфікації моделі.
  • При вивченні залежності між двома ознаками графічний метод вибору типу рівняння регресії досить наочний. Він базується на поле кореляції.
  • Основні типи трендів, які використовуються при кількісній оцінці зв'язків між двома змінними: логарифмічний, лінійний, степеневої, поліноміальний, експонентний.
  • Аналітичний метод вибору типу рівняння регресії заснований на вивченні матеріальної природи зв'язку досліджуваних ознак.
  • Поліном будь-якого порядку зводиться до лінійної регресії з її методами оцінювання параметрів і перевірки гіпотез.
  • Оскільки в розрахунку індексу кореляції використовується співвідношення факторної і загальної суми квадратів відхилень, то r2 має таке ж значення, що і коефіцієнт детермінації.
  • Помилки апроксимації для кожного спостереження прийнято визначати у відсотках по модулю.
  • Парна регресія може дати хороший результат при моделюванні, якщо впливом інших факторів, що впливають на об'єкт дослідження, можна знехтувати
  • Множинна регресія широко використовується у вирішенні проблем попиту, прибутковості акцій, при вивченні функції витрат виробництва, в макроекономічних розрахунках.
  • Теоретичний аналіз часто не дозволяє однозначно відповісти на питання про кількісну взаємозв'язку розглянутих ознак і доцільності включення фактора в модель.
  • Поліном будь-якого порядку зводиться до лінійної регресії з її методами оцінювання параметрів і перевірки гіпотез.
  • Серед нелінійної поліноміальної регресії найчастіше використовується парабола другого ступеня; в окремих випадках - поліном третього порядку.
  • Оскільки в розрахунку індексу кореляції використовується співвідношення факторної і загальної суми квадратів відхилень, то r2 має таке ж значення, що і коефіцієнт детермінації.
  • Помилки апроксимації для кожного спостереження прийнято визначати у відсотках по модулю.
  • Парна регресія може дати хороший результат при моделюванні, якщо впливом інших факторів, що впливають на об'єкт дослідження, можна знехтувати.
  • Множинна регресія широко використовується у вирішенні проблем попиту, прибутковості акцій, при вивченні функції витрат виробництва, в макроекономічних розрахунках.
  • Теоретичний аналіз часто не дозволяє однозначно відповісти на питання про кількісну взаємозв'язку розглянутих ознак і доцільності включення фактора в модель.
  • Поліном будь-якого порядку зводиться до лінійної регресії з її методами оцінювання параметрів і перевірки гіпотез.
  • Серед нелінійної поліноміальної регресії найчастіше використовується парабола другого ступеня; в окремих випадках - поліном третього порядку.
  • Оскільки в розрахунку індексу кореляції використовується співвідношення факторної і загальної суми квадратів відхилень, то r2 має таке ж значення, що і коефіцієнт детермінації.
  • Помилки апроксимації для кожного спостереження прийнято визначати у відсотках по модулю.
  • Парна регресія може дати хороший результат при моделюванні, якщо впливом інших факторів, що впливають на об'єкт дослідження, можна знехтувати.
  • Множинна регресія широко використовується у вирішенні проблем попиту, прибутковості акцій, при вивченні функції витрат виробництва, в макроекономічних розрахунках.
  • Поліном будь-якого порядку зводиться до лінійної регресії з її методами оцінювання параметрів і перевірки гіпотез.
  • Серед нелінійної поліноміальної регресії найчастіше використовується парабола другого ступеня; в окремих випадках - поліном третього порядку.
  • Оскільки в розрахунку індексу кореляції використовується співвідношення факторної і загальної суми квадратів відхилень, то r2 має таке ж значення, що і коефіцієнт детермінації.
  • Помилки апроксимації для кожного спостереження прийнято визначати у відсотках по модулю.
  • Парна регресія може дати хороший результат при моделюванні, якщо впливом інших факторів, що впливають на об'єкт дослідження, можна знехтувати.
  • Множинна регресія широко використовується у вирішенні проблем попиту, прибутковості акцій, при вивченні функції витрат виробництва, в макроекономічних розрахунках.
  • Теоретичний аналіз часто не дозволяє однозначно відповісти на питання про кількісну взаємозв'язку розглянутих ознак і доцільності включення фактора в модель.
  • Чим сильніше мультиколінеарності факторів, тим менш надійна оцінка розподілу суми пояснене варіації за окремими факторами за допомогою методу найменших квадратів.
  • Припускаючи, що помилки вимірювання зведені до мінімуму, основна увага в економічних дослідженнях приділяється помилок специфікації моделі.
  • При вивченні залежності між двома ознаками графічний метод вибору типу рівняння регресії досить наочний. Він базується на поле кореляції.
  • Основні типи трендів, які використовуються при кількісній оцінці зв'язків між двома змінними: логарифмічний, лінійний, степеневої, поліноміальний, експонентний.
  • Аналітичний метод вибору типу рівняння регресії заснований на вивченні матеріальної природи зв'язку досліджуваних ознак.
  • Чим ближче коефіцієнт детермінації до одиниці, тим більшою мірою рівняння регресії придатне для прогнозування на наступний рік.
  • Поліном будь-якого порядку зводиться до лінійної регресії з її методами оцінювання параметрів і перевірки гіпотез.
  • Серед нелінійної поліноміальної регресії найчастіше використовується парабола другого ступеня; в окремих випадках - поліном третього порядку.
  • Оскільки в розрахунку індексу кореляції використовується співвідношення факторної і загальної суми квадратів відхилень, то r2 має таке ж значення, що і коефіцієнт детермінації.
  • Серед нелінійної поліноміальної регресії найчастіше використовується парабола другого ступеня; в окремих випадках - поліном третього порядку.
  • Оскільки в розрахунку індексу ковариации використовується співвідношення факторної і загальної суми квадратів відхилень, то r2 має таке ж значення, що і коефіцієнт детермінації.
  • Помилки апроксимації не для кожного спостереження прийнято визначати у відсотках по модулю.
  • Парна регресія може дати хороший результат при моделюванні, якщо впливом інших факторів, що впливають на об'єкт дослідження, можна знехтувати.
  • Множинна регресія широко використовується у вирішенні проблем попиту, прибутковості акцій, при вивченні функції витрат виробництва, в макроекономічних розрахунках.
  • Теоретичний аналіз часто не дозволяє однозначно відповісти на питання про кількісну взаємозв'язку розглянутих ознак і доцільності включення фактора в модель.
  • Чим сильніше мультиколінеарності факторів, тим менш надійна оцінка розподілу суми пояснене варіації за окремими факторами за допомогою методу найменших квадратів.
  • Випадкова величина ε, або обурення, включає вплив врахованих в моделі факторів, випадкових помилок і особливостей вимірювання.

    Випадкова величина ε, або обурення, включає вплив неврахованих в моделі факторів, що не випадкових помилок і особливостей вимірювання.

    9.Какое джерелами обумовлено присутність в моделі регресійного рівняння випадкової величини ε?

    Її присутність в моделі обумовлено двома джерелами: специфікацією моделі, вибірковим характером вихідних даних.

    Її присутність в моделі обумовлено двома джерелами: вибірковим характером вихідних даних, особливостями виміру змінних.

    Її присутність в моделі обумовлено двома джерелами: специфікацією моделі, особливостями виміру змінних.

  1. Її присутність в моделі обумовлено трьома джерелами: специфікацією моделі, вибірковим характером вихідних даних, особливостями виміру змінних.

  2. Її присутність в моделі не обумовлено трьома джерелами: специфікацією моделі, вибірковим характером вихідних даних, особливостями виміру змінних.

10.Относітся чи неврахування в рівнянні регресії якого-небудь істотного фактора до помилок специфікації?

    До помилок специфікації не відноситиметься не тільки неправильний вибір тієї чи іншої математичної функції, але і недооблік в рівнянні регресії якого-небудь істотного фактора, наприклад використання парної регресії замість множинною.

    До помилок специфікації буде ставитися тільки неправильний вибір тієї чи іншої математичної функції, але і недооблік в рівнянні регресії якого-небудь істотного фактора, наприклад використання парної регресії замість множинною.

    До помилок специфікації буде ставитися не тільки неправильний вибір тієї чи іншої математичної функції, але і обов'язкове врахування в рівнянні регресії якого-небудь істотного фактора, наприклад використання парної регресії замість множинною.

    До помилок специфікації буде ставитися не тільки неправильний вибір тієї чи іншої математичної функції, але і недооблік в рівнянні регресії якого-небудь істотного фактора, наприклад використання парної регресії замість множинною.

    До помилок специфікації буде ставитися не тільки неправильний вибір тієї чи іншої математичної функції, але і недооблік в рівнянні регресії якого-небудь істотного фактора, наприклад невикористання парної регресії замість множинною.

11.Когда рівняння регресії не має практичного сенсу і що роблять, щоб отримати практичний сенс від рівняння регресії?

    Якщо сукупність даних неоднорідна, то рівняння регресії не має практичного сенсу. Для отримання хорошого результату зазвичай виключають із сукупності дані з аномальними значеннями досліджуваних ознак.

    Якщо сукупність даних неоднорідна, то рівняння регресії не має практичного сенсу. Для отримання хорошого результату зазвичай виключають із сукупності дані з аномальними значеннями досліджуваних ознак.

    Якщо сукупність даних неоднорідна, то рівняння регресії має практичний сенс. Для отримання хорошого результату зазвичай виключають із сукупності дані з аномальними значеннями досліджуваних ознак.

    Якщо сукупність даних неоднорідна, то рівняння регресії не має практичного сенсу. Для отримання поганого результату зазвичай виключають із сукупності дані з аномальними значеннями досліджуваних ознак.

    Якщо сукупність даних неоднорідна, то рівняння регресії не має практичного сенсу. Для отримання хорошого результату зазвичай не виключають із сукупності дані з аномальними значеннями досліджуваних ознак.

12.Як небезпеку в практичному використанні методів регресії представляють помилки вимірювання?

"

Слово «статистика» має латинське походження (від status, Що означає «певний стан речей» - стан). У середні століття воно використовувалося для характеристики політичного стану держави і вживалося в значенні слова «державознавство», (Готфрід Ахенваль, XVIII ст., Німеччина). Як наука статистика виникла тільки в XVII ст., Коли уряди різних західноєвропейських країн стали займатися збором різного родуінформації про своїх громадян. Однак статистичний облік існував вже в глибоку давнину, згадки про статистичних обстеженнях зустрічаються і в біблійні часи.

Ще за 5 тис. Років до н.е. проводилися перепису населення в Китаї, вівся облік майна громадян в Стародавньому Римі, використання середньої було добре відомо ще за життя Піфагора. У середні століття здійснювалося порівняння військового потенціалу різних країн, чисельності їх населення, домашнього майна, земель.

Біля витоків статистичної науки стояли дві школи - німецька описова і англійська школа політичних арифметиков.

Представники описової школи (Г. Конрінга (1606-1661), Г. Ахенваль (1719-1772), А. Бюшінг (1724-1793) і ін. Вважали, що завданням статистики є опис пам'яток держави: території, населення, клімату, віросповідання , ведення господарства і т. п. - тільки в словесній формі, без цифр і поза динаміки, т. е. без відображення особливостей розвитку держав в ті чи інші періоди, а тільки лише на момент спостереження. Вони були «політичні арифметики», які ставили за мету вивчати суспільні явища за допомогою числових характеристик - міри ваги і числа. Політичні арифметики бачили основне призначення статистики у вивченні масових суспільних явищ, усвідомлювали необхідність обліку в статистичному дослідженні вимог закону великих чисел, оскільки закономірність може проявитися лише при досить великому обсязі аналізованої сукупності. найвизначнішим представником і засновником цього напрямку був В. Петті (1623-1687). Саме школа політичних арифметико в стала основотвірний в розвитку сучасної статистики.

У XIX ст. отримало розвиток вчення бельгійського статистика Адольфа Кетле (1796-1874), який першим застосував сучасні методи збору даних, його вважають основоположником вчення про середні величини. Математичний напрямок в статистиці розвивалося в роботах англійців - сера Френсіса Гальтона (1822-1911) і Карла Пірсона (1857-1936), Рональда Фішера, які внесли значний вклад в розвиток теорії кореляції і мали істотний вплив на сучасну статистику. * Примітка. Знаком (*) відзначені видання, на підставі яких складено тематичний огляд.

Прогресу статистичної методології сприяли праці російських статистиків - А.А. Чупрова (1874-1926), B.C. Немчинова (1894-1964), С.Г. Струміліна (1877 - 1974), В.М. Старовський (1905-1975) і ін.

Розвиток статистичної науки, розширення сфери практичної статистичної роботи призвели до зміни змісту самого поняття «статистика». В даний час цей термін вживається в трьох значеннях:

По перше, Під статистикою розуміють галузь практичної діяльності, яка має на меті збір, обробку, аналіз і публікацію масових даних про різні явища суспільного життя. Здійснюється збір даних в кожному регіоні і по країні в цілому про чисельність і склад населення, ведеться підрахунок підприємств і організацій, збираються дані про обсяги виробництва та обсяги продажів і т.д. Цю діяльність на професійному рівніздійснює Федеральна служба державної статистики (Держкомстат РФ) і система її установ, організованих, за адміністративно-територіальною ознакою, наприклад, Ростовський обласний комітет державної статистики або Таганрозький межрайоннний відділ державної статистики і т. д.

По-друге, Статистикою називають цифрові матеріали, службовці для характеристики будь-якої галузі суспільних явищ або територіального розподілу якогось показника, що публікуються в періодичній пресі, довідниках, збірниках. Наприклад, динаміка ціни на бензин в Ростовській області представлена ​​за літні місяці поточного року.

По-третє, Статистикою називається галузь знання, особлива наукова дисципліна, яка в широкому розумінні розробляє методи збору, систематизації, аналізу, інтерпретації та відображення результатів спостережень масових випадкових явищ і процесів метою виявлення існуючих в них закономірностей. Наприклад, дослідження взаємозв'язку між якістю трудових ресурсів і економічним зростанням в регіонах РФ.

Отже, статистика- це вид науково-практичної діяльності, спрямованої на отримання, обробку, аналіз і зберігання інформації, що характеризує кількісні закономірності життя суспільства у всьому її різноманітті в нерозривному зв'язку з її якісним змістом.

Якщо розглядати статистику як інструмент вивчення соціально-економічних явищ і процесів, то предмет статистикиполягає у вивченні розмірів і кількісних співвідношень масових громадських явищ в конкретних умовах місця і часу, а так же числовий вираз виявляються в них закономірностей.

Свій предмет статистика вивчає за допомогою певних категорій, тобто понять, які відображають найбільш загальні і суттєві властивості, ознаки, зв'язки і відносини предметів і явищ об'єктивного світу. Закономірність, виявлена ​​на основі масового спостереження, тобто виявляється лише у великій масі явищ через подолання властивої її одиничним елементам випадковості, називається статистичної закономірністю.

Властивість статистичних закономірностей проявлятися лише в масі явищ при узагальненні даних по досить великому числу одиниць, знаходить своє відображення в законі великих чисел, сутність якого полягає в тому, що в міру збільшення числа спостережень вплив випадкових факторів взаимопогашающихся і на поверхню виступає дію основних чинників, які і визначають закономірність. Наприклад, характеристика екологічної ситуації передбачає вивчення закономірності динаміки викидів забруднюючих речовин в атмосферне повітря регіонів від динаміки фізичного обсягу валового регіонального продукту.

Пізнання закономірностей можливо лише в тому випадку, якщо вивчаються не окремі явища, а сукупності явищ. Тобто об'єктом статистичного вивчення є статистична сукупність - безліч одиниць досліджуваного явища, об'єднаних якісної однорідністю, певною цілісністю, взаємозалежністю станів окремих одиниць і наявністю варіації. Такі, наприклад, сукупність домогосподарств, сукупність підприємств і фірм, сукупність нафтових родовищ, сукупність регіонів і т. П.

однорідна сукупність- це вид сукупності, в якій один або кілька научайтесь істотних ознак є загальними для всіх одиниць. Наприклад, приналежність підприємств до однієї і тієї ж галузі - заводи металургійного комплексу або регіони, що відносяться до однієї природно-кліматичній зоні.

різнорідна сукупність- це вид сукупності, в яку входять явища різного типу . Сукупність може бути однорідною в одному відношенні і різнорідна в іншому. Регіони, включені в одну групу з природно-кліматичними характеристиками, різняться за рівнем соціально-економічного розвитку. Заводи, що входять в металургійний комплекс Росії, розрізняються за своєю спеціалізацією - виділяються групи заводів з виробництва труб, або з виробництва листового прокату і т.п. В кожному окремому випадку однорідність сукупності встановлюється шляхом проведення якісного аналізу, з'ясування змісту досліджуваного соціального явища.

Статистична сукупність складається з одиниць сукупності. Одиниці статистичної сукупностіявляють собою якісно однорідні первинні елементи цієї сукупності. Кожна одиниця сукупності являє собою окремий випадокпрояви досліджуваної закономірності. Вирішення питання про одиницю і межах досліджуваної сукупності визначається метою дослідження. Це пов'язано зі складною природою соціально-економічних явищ. У кожному окремому явищі одночасно реалізуються різні процеси. Наприклад, при вивченні сукупності працівників, кожен працівник може розглядатися як член певної соціально-професійної групи, як працівник підприємства, як житель міста селища і т.д., тобто одиниця сукупності -це межа дроблення об'єкта дослідження, при якому зберігаються всі властивості досліджуваного процесу.

Одиниці сукупності володіють певними властивостями, якостями, які прийнято називати ознаками. Ознака - якісна особливість одиниці сукупності. Наприклад, ознаки людини: вік, стать, освіта, вага, сімейний стан і т. Д. Ознаки підприємства: форма власності, галузь, чисельність працівників, розмір статутного фонду і т.д. Статистика вивчає явища через їх ознаки: чим більш однорідна сукупність, тим більше загальних ознак мають її одиниці, тим менше варіюють її значення.

За характером відображення властивостей одиниць досліджуваної сукупності ознаки діляться на дві основні групи:

ознаки, які мають безпосереднє кількісне вираження,наприклад, площа території, чисельність жителів міста і т. д. Вони можуть бути дискретно або безперервно змінними. Дискретно варійовані ознаки - це ознаки, окремі значення яких відрізняються один від одного на деяку кінцеву величину (зазвичай ціле число). Так, дискретні ознаки ми використовуємо, коли проводиться угруповання, наприклад, магазинів по числу в них відділів або кас. У магазинах може бути один, два, три і т.д. відділу, але не може бути півтора або два з половиною відділу. Існує безліч ознак, значення яких відрізняються один від одного на скільки завгодно малу величину і можуть приймати будь-які значення на деякому інтервалі. Такі ознаки називають безперервно варьирующими або безперервними ознаками. До них відносяться індекси економічного стану, середньодушові доходи, вагові та об'ємні характеристики товарів;

ознаки, що не мають безпосереднього кількісного вираження.У цьому випадку окремі одиниці сукупності розрізняються своїм змістом, наприклад, галузева спеціалізація підприємств і організацій; розподіл природних ресурсів по їх походженню: мінеральні, водні, земельні або розподіл населення за статтю - чоловіки і жінки і т.д. Такі ознаки зазвичай називають атрибутивними(В філософії «атрибут» - невід'ємна властивість предмета). У разі, коли є протилежні за значенням варіанти ознаки, говорять про альтернативномуознаці (так, ні). Наприклад, продукція може бути придатною або бракованої (не придатною); кожна особа може перебувати у шлюбі чи ні і т. д.

Особливістю статистичного дослідження є, то, що в ньому вивчаються тільки варіюють ознаки, тобто ознаки, які беруть різні значення (для атрибутивних, альтернативних ознак) або мають різні кількісні рівні в окремих одиниць сукупності.

Оскільки статистика, як уже сказано, вивчає кількісну сторону масових явищ, то виникає необхідність в узагальнюючих характеристиках статистичної сукупності. Цю роль виконує статистичний показник, який є кількісною характеристикою якогось властивості сукупності.

Статистичний показникце кількісна оцінка якості досліджуваного явища. Статистичні показники можна поділити на два основних види. Перший вид - це обліково-оціночні показники,які показують розміри, обсяги, рівні досліджуваного явища, наприклад, обсяг промислової продукції в РФ в 2003 р, склав 8498,0 млрд. рублів або оборот роздрібної торгівлі - 4483,5 млрд. рублів. Другий вид показників - аналітичні,які показують, як розвивається досліджуване явище, з яких частин складається ціле, тобто в якому співвідношенні знаходяться частини цілого між собою і як поширюється явище в просторі. Так, в складі Північно-Кавказького економічного району територія Ростовської області складає 28,4%, а Республіки Адигея - 2,1%. До аналітичних відносять відносні і середні величини, показники варіації і т.д. Наприклад, середньодушові грошові доходи населення в 2003 р в РФ становили 5129 рублів на місяць.

Однією з відмінних рис бурхливого розвитку науки є широке застосування статистичних методів і обчислювальної техніки в освоєнні інформації. В даний час неможливо уявити собі дисципліну, яка не користувалася б в процесі пізнання методами чисельного вираження закономірностей, зв'язків, залежності, вимірювання тенденції і т. Д. Це, зокрема, відноситься і до економічних наук.

У статистичній літературі велика увагаприділяється вивченню і застосуванню окремих статистичних методів і прийомів, але зовсім недостатньо висвітлені питання доцільності і послідовності використання того чи іншого статистичного методу, їх комплексного застосування, Поєднання різних методів. Абсолютизація того чи іншого методу дослідження нічого, крім шкоди, не приносить. Тільки поєднання різних методів може дати помітний ефект. Саме з цих позицій і потрібно оцінювати роль і місце статистичного моделювання в системі пізнання різних процесів і явищ. У даній роботі зроблена спроба систематизувати методику комплексного застосування статистичних методів в економічних дослідженнях, розглянуто доцільність та послідовність використання статичних методів і прийомів при аналізі статичних і динамічних процесів.

Першим етапом дослідження є накопичення (збір) необхідних відомостей про досліджуваному об'єкті. Якщо спостережень не дуже багато, то можна провести впорядкування, розташувавши їх в порядку зростання або зменшення, т. Е. Побудувати ранжирування ряди. Якщо ж спостережень багато, то доводиться вдаватися до їх угрупованню. Статистичні ряди носять найрізноманітніший характер, мають різне призначення і в різних цілях можуть використовуватися в економічному аналізі. Одні статистичні ряди є варіаційними рядами розподілу. Ці ряди показують розподіл одиниць досліджуваної сукупності за окремими групами, виділеним по будь-якою ознакою. Іншим різновидом статистичних рядів є послідовність чисел, що відбивають величину того чи іншого показника в часі. Це так звані ряди динаміки. Вони дозволяють аналізувати зміну будь-яких явищ в часі, про це йтиметься нижче. Не применшуючи значення часових рядів, слід зазначити, що варіаційним рядах розподілу в статистичному аналізі належить особливе місце, бо тільки за допомогою розподілу складних сукупностей на якісно однорідні групи можна вивчати їх структуру, співвідношення між частинами цілого і т. П., Без чого немислимий ніякий економічний аналіз. Ряди розподілу можуть будуватися за якісними (атрибутивною) і за кількісними ознаками, за однією ознакою і за кількома, надаючи тим самим широкі можливості дослідникам при вивченні складних економічних явищ. Ряди розподілу можуть бути представлені або в табличній формі, або в геометричній, т. Е. Графічної. Статистична сукупність, представлена ​​у вигляді рангового ряду розподілу, графічно зображується у вигляді огіви. Вона будується так: на осі абсцис наносяться номера елементів сукупності по ранжиру, а на осі ординат відкладаються значення ознаки. Огіва наочно показує інтенсивність зміни досліджуваного ознаки. Варіаційні ряди розподілу зображаються графічно у вигляді полігонів і гістограм. У вигляді полігонів зазвичай зображуються дискретні варіаційні ряди розподілу. При цьому значення ознаки відкладають на осі абсцис, а частоти (або частості) - на осі ординат. Вершини ординат з'єднують прямими лініями, в результаті чого отримують полігон (багатокутник). У вигляді полігону можна уявити і інтервальні варіаційні ряди. Для цього за окремі значення ознаки приймаються середні значення інтервалів. Інтервальні ж варіаційні ряди найчастіше зображують у вигляді гістограми, в якій частоти висловлюють у вигляді прямокутників відповідної довжини, а підстави прямокутників, які спираються на вісь абсцис, відповідають інтервалу значення ознаки (рис. 1).

Мал. 1.Гістограма і полігон розподілу

Розрізняють одновершинні і многовершинная розподілу. Многовершінной розподілу, як правило, є ознакою неоднорідності досліджуваної сукупності. З різноманітності форм одновершинная кривих розподілів можна виділити наступні найбільш характерні типи: симетричні, помірно асиметричні, вкрай асиметричні.

У практиці зазвичай рідко зустрічаються ідеально симетричні розподілу, частіше помірно асиметричні, в яких частоти з одного боку від центру розсіювання зменшуються помітно швидше, ніж з іншого. Асиметричний розподіл в межі стає вкрай асиметричним - в цьому випадку найбільша частота розташована на одному з кінців розподілу.

При вирішенні деяких питань зручніше користуватися накопиченими частотами розподілу. Крива накопичених частот розподілу носить назву «кумулята розподілу». При побудові кумуляти на осі абсцис відкладаються значення ознаки, на осі ординат - накопичені частоти. Побудова варіаційного ряду розподілу та його графічне зображення дозволяють отримати перше уявлення про його найбільш характерних загальних рисах. У той же час статистичне вивчення сукупності не може обмежитися лише простим упорядкуванням спостережуваних величин. До того ж ряди розподілу та їх графіки бувають досить громіздкими, тому що включають в себе всю вихідну інформацію. Тому найбільш раціональним шляхом статистичного опису розподілу буде обчислення певних числових характеристик, що відображають реальні властивості сукупності. До таких характеристик насамперед належать характеристики центральної тенденції ряду розподілу, т. Е. Знаходження його центрального значення; розсіювання значень ознаки щодо центру розподілу; асиметрії та гостровершинності розподілу. Вивчення статистичних характеристик розподілів доцільно почати з розгляду найбільш простих і в той же час найчастіше використовуваних в статистичному аналізі, т. Е. З вивчення середніх величин; потім навчитися вимірювати варіацію, вивчити заходи скошеності і гостровершинності. Всі ці показники тих чи інших особливостей розподілу становлять єдину систему статистичних показників.

Однак застосування тих чи інших статистичних методів передбачає перш за все однорідність досліджуваної сукупності: не можна, наприклад, аналізувати сукупність, що складається з різних категорій господарств, що включає підприємства різної спеціалізації і т. Д. Для успішного вирішення завдань необхідно глибоке розуміння суті досліджуваного процесу або явища. З огляду на складність, неоднорідність економічних явищ і процесів, необхідно проводити аналіз таким чином, щоб найбільш істотні відмінності між окремими групами явищ не затушовувалися, а виділялися для більш успішного їх вивчення. У той же час об'єднання в групи схожих однотипних явищ допомагає виявити їх риси та особливості, які при вивченні кожного явища окремо можуть залишатися непоміченими. Виділення в кожній сукупності суспільно / економічних типів явищ - головна умова її наукового аналізу. А це можна здійснити, тільки застосовуючи метод типологічних угруповань.

Масові явища господарської діяльності підприємств, що є об'єктом статистичного вивчення, мають складний характер, володіють якісної спільністю, властивої даному явищу, але в той же час мають і відмінності. Так, виробництвом будь-якої продукції займаються сільськогосподарські підприємства та фермерські господарства і т. Д. Отже, при характеристиці виробництва даного виду продукції в регіоні слід виходити з обліку якісних особливостей підприємств, що виробляють цю продукцію, - в іншому випадку висновки будуть неточними, а прийняті на підставі таких висновків рішення - неефективними.

Типологічна угруповання даних - основний прийом вивчення економічних явищ, що забезпечує якісну порівнянність одиниць сукупності і дає можливість отримання узагальненого кількісного значення ознаки.

1.2. Методи вимірювання узагальнюючих характеристик сукупності

Метод угруповань дозволяє вивчити стан і взаємозв'язки економічних явищ, якщо групи будуть охарактеризовані показниками, що розкривають найбільш суттєві сторони досліджуваного явища.

При аналізі і плануванні необхідно спиратися не на випадкові факти, а на показники, які виражають основне, типове, корінне. Таку характеристику дають різні видисередніх величин, а також мода і медіана.

Питання про однорідність сукупності не повинен вирішуватися формально за формою її розподілу. Його, як і питання про типову середньої, потрібно вирішувати, виходячи з причин та умов, що формують сукупність. Однорідної є така сукупність, одиниці якої формуються під впливом загальних головних причин і умов, що визначають загальний рівень даної ознаки, Характерний для всієї сукупності.

Відповідно до теорії типологічних угруповань, вирішальне значення в оцінці однорідності сукупності належить не формі розподілу, а розміром варіації і умов її формування. Для якісно однорідної сукупності характерна варіація в певних межах, після чого починається нова якість. Разом з тим до цих кордонів для оцінки якісної однорідності сукупності треба підходити з точки зору суті справи, а не формально, так як один і той же кількість в різних умовах висловлює нову якість. Наприклад, при одній і тій же чисельності робітників підприємства одних галузей промисловості є великими, а інших - дрібними.

Для всебічного та поглибленого вивчення явищ, для об'єктивної характеристики типів явищ, їх взаємовідносин і процесів, обумовлених розвитком системи як цілого, необхідно поєднувати групові середні із загальними середніми. Поєднання таких середніх і є одним з основних елементів аналізу складних систем. Це поєднання пов'язує в одне ціле два органічно доповнюють один одного статистичних методу: метод середніх величин і метод угруповання. При розрахунку середньої індивідуальні варіюють по групі значення замінюються одним середнім значенням. При цьому випадкові відхилення значення ознаки по окремим одиницям в бік збільшення або зменшення взаємно врівноважуються і погашають один одного, а в величині середньої проявляється типовий розмір ознаки, властивий даній групі. Середня величина служить характеристикою сукупності і в той же час відноситься до окремого її елементу - носію якісних особливостей явища. Значення середньої цілком конкретно, але одночасно і абстрактно; воно отримано шляхом абстрагування від випадкового індивідуального по кожній одиниці з метою виявлення того загального, типового, що властиво всім одиницям і що формує дану сукупність. При розрахунку середньої величини чисельність одиниць сукупності повинна бути досить великою. Величина середньої визначається як відношення загального обсягу явищ до числа одиниць сукупності в групі. Для несгруппірованних даних це буде середня арифметична проста:

а для згрупованих даних, де кожне значення ознаки має свою частоту, - середня арифметична зважена:

де X i- значення ознаки; f i- частота цих значень ознаки.

Оскільки середня арифметична розраховується як відношення суми значень ознаки до загальної чисельності, вона ніколи не виходить за межі цих значень. Середня арифметична має ряд властивостей, які широко використовуються з метою упорядкування розрахунків.

1. Сума відхилень індивідуальних значень ознаки від середньої величини завжди дорівнює нулю:

Доведення. n

Розділивши ліву і праву частину на

2. Якщо значення ознаки (X i) змінити в kраз, то середня арифметична також зміниться в xраз.

Доведення.

Середню арифметичну з нових значень ознаки позначимо X, тоді:

Постійну величину 1 / kможна винести за знак суми, і тоді отримаємо:

3. Якщо з усіх значень ознаки X iвідняти або додати один і той же постійне число, то середня арифметична зменшиться або збільшиться на цю величину.

Доведення.

Середня з відхилень значень ознаки від постійного числа буде дорівнює:

Точно так само доводиться це і в разі додавання постійного числа.

4. Якщо частоти всіх значень ознаки зменшити або збільшити в nраз, то середня не зміниться:

При наявності даних про загальний обсяг і відомих значеннях ознаки, але невідомих частотах для визначення середнього показника використовують формулу середньоарифметичної зваженої.

Наприклад, є дані про ціни реалізації капусти і загальній виручці за різні терміни реалізації (табл. 1).

Таблиця 1.

Ціна реалізації капусти і загальна виручка за різні терміни реалізації


Так як середня ціна являє відношення загальної виручки до загального обсягу реалізованої капусти, то спочатку слід визначити кількість реалізованої капусти по різних термінівреалізації як відношення виручки до ціни, а потім вже визначити середню ціну реалізованої капусти.

У нашому прикладі середня ціна буде:

Якщо розрахувати в даному випадку середню ціну реалізації за середньої арифметичної простої, то отримаємо інший результат, який спотворить дійсний стан і завищить середню ціну реалізації, тому що не буде врахований той факт, що велика частка в реалізації припадає на пізню капусту з більш низькою ціною.

Іноді потрібно визначити середню величину, коли значення ознаки даються у вигляді дрібних чисел, т. Е. Зворотних цілих числах (наприклад, при вивченні продуктивності праці через зворотний його показник, трудомісткість). У таких випадках доцільно використовувати формулу середньої гармонійної:

Так, середній час, необхідний для виготовлення одиниці продукції, є середня гармонійна. Якщо Х 1 = 1/4 години, Х 2 = 1/2 години, Х 3 = 1/3 години, то середня гармонійна цих чисел є:

Для розрахунку середньої величини з відносин двох однойменних показників, наприклад темпів зростання, застосовується середня геометрична, розрахована за формулою:

де Х 1? Х 2 ...? ... Х 4 - відношення двох однойменних величин, наприклад ланцюгових темпів зростання; n- чисельність сукупності відносин темпів зростання.

Розглянуті середні величини мають властивість маорантності:

Нехай, наприклад, маємо наступні значення Х(20; 40), тоді розглянуті раніше види середніх величин дорівнюватимуть:

При вивченні складу сукупності про типовий розмірі ознаки можна судити по так званим структурним середнім - моді і медіані.

модоюназивається найбільш часто зустрічається значення ознаки в сукупності.В інтервальних варіаційних рядах спочатку знаходять модальний інтервал. У знайденому модальном інтервалі мода розраховується за формулою:

де Х 0 - Нижня межамодального інтервалу; d -величина інтервалу; f 1, f 2, f 3 - частоти предмодального, модального та послемодаль-ного інтервалів.

Значення моди в інтервальному ряду досить просто можна відшукати на основі графіка. Для цього в найвищому стовпці гістограми від кордонів двох суміжних стовпців проводять дві лінії. З точки перетину цих ліній опускають перпендикуляр на вісь абсцис. Значення ознаки на осі абсцис і буде модою (рис. 2).


Мал. 2

Для вирішення практичних завдань найбільший інтерес представляє зазвичай мода, виражена у вигляді інтервалу, а не дискретним числом. Пояснюється це призначенням моди, яка повинна виявити найбільш поширені розміри явища.

Середня - величина, типова для всіх одиниць однорідної сукупності. Мода - теж типова величина, але вона визначає безпосередньо розмір ознаки, властивий хоча і значної частини, але все ж не всієї сукупності. Вона має велике значення для вирішення таких завдань, як для прогнозування того, які розміри взуття, одягу повинні бути призначені для масового виробництва, і т. Д.

медіана- значення ознаки, що знаходиться посередині рангового ряду. Вона вказує на центр розподілу одиниць сукупності і ділить її на дві рівні частини.

Медіана є найкращою характеристикою центральної тенденції, коли кордони крайніх інтервалів відкриті. Медіана є більш прийнятною характеристикою рівня розподілу і в тому випадку, якщо в ряду розподілу є надмірно великі або надмірно малі значення, які надають сильний впливна середню величину, а на медіану - немає. Медіана, крім того, має властивість лінійного мінімуму: сума абсолютних значень відхилень величини ознаки у всіх одиниць сукупності від медіани мінімальна, т. Е.

Це властивість має велике значення для вирішення деяких практичних завдань - наприклад, для розрахунку найкоротшого з усіх можливих відстаней для різних видів транспорту, для розміщення станцій техобслуговування таким чином, щоб відстань до всіх обслуговуваних даної станцією машин було мінімальним, і т. П.

При знаходженні медіани спочатку визначається її порядковий номер в ряду розподілу:

Далі, відповідно порядковому номеру, по накопичених частотах ряду знаходять саму медіану. У дискретному ряду - без жодного розрахунку, а в інтервальному ряду, знаючи порядковий номер медіани, по накопичених частотах відшукується медіанний інтервал, в якому шляхом найпростішого прийому інтерполяції визначається вже значення медіани. Розрахунок медіани здійснюється за формулою:

де Х 0 - нижня межа медіанного інтервалу; d- величина інтервалу; f _ 1 - частота, накопичена до медіанного інтервалу; f- частота медіанного інтервалу.

Розрахуємо середню величину, моду і медіану на прикладі інтервального розподілу. Дані наведені в табл. 2.


Таким чином, в якості центру розподілу можуть бути використані різні показники: середня величина, мода і медіана,


і кожна з цих характеристик має свої особливості. Так, для середньої величини характерно те, що всі відхилення від неї окремих значень ознаки взаємно погашаються, т. Е.

Для медіани характерно те, що сума відхилень індивідуальних значень ознаки від неї (без урахування знаків) є мінімальною. Мода ж характеризує найбільш часто зустрічається значення ознаки. Тому в залежності від того, яка з особливостей цікавить дослідника, і повинна вибиратися одна з розглянутих характеристик. В окремих випадках розраховуються всі характеристики.

Їх порівняння та виявлення співвідношень між ними допомагає з'ясувати особливості розподілу того чи іншого варіаційного ряду. Так, в симетричних рядах, як в нашому випадку, все три характеристики (середня, мода і медіана) приблизно збігаються. Чим більше розходження між модою і середньою величиною, тим більше асиметричний ряд. Встановлено, що для помірно асиметричних рядів різниця між модою і середньої арифметичної приблизно в три рази перевищує різницю між медіаною і середньої арифметичної:

Це співвідношення можна використовувати для визначення одного показника по двом відомим. З цього випливає, що поєднання моди, медіани і середньої важливо і для характеристики типу розподілу.

1.3. Методи дослідження варіації і форми розподілу ознак в однорідної сукупності

Статистичний опис сукупності було б неповним, якщо обмежитися лише показниками центральної тенденції, т. Е. Середніми величинами, модою і медіаною, які є рівнодійними ряду змінюються значень ознаки. В одних випадках значення ознаки концентрується біля деякого центру дуже тісно, ​​в інших випадках спостерігається значне розсіювання, хоча середня величина може бути однаковою. У зв'язку з цим середня величина як показник центральної тенденції не дає вичерпної характеристики досліджуваної сукупності. Виникає необхідність вивчення характеру розсіювання ознаки. Хоча відхилення від середньої і регулюються загальними для всіх одиниць сукупності причинами, що формують середню, але в той же час вони обумовлені і індивідуальними причинами. Наприклад, відхилення продуктивності праці окремих робітників, які працюють в одній бригаді, а отже, знаходяться в однакових умовах праці, викликані не загальними умовами і причинами, а індивідуальними обставинами робітників і їх кваліфікацією, станом здоров'я, настроєм, кмітливістю і т. Д. Тому вивчення відхилень від середньої їх розмірів і закономірності розподілу становить великий інтерес для дослідника. Це важливо насамперед для оцінки однорідності сукупності, яку характеризує дана середня величина, так як для якісно однорідної сукупності характерна варіація в певних межах. Стало бути, чим менше варіація, тим якісно однорідні сукупність, тим типовіше і об'єктивніше середня величина, що характеризує її.

Вимірювання варіації має велике значення і для вивчення стійкості досліджуваних економічних явищ і процесів. Так, для сільського господарствадуже важливо не тільки отримати середню врожайність сільськогосподарських культур, а й забезпечити її стійкість у часі і просторі, а для цього треба навчитися розраховувати показники стійкості, навчитися вимірювати варіацію досліджуваних явищ? ? 1,25 а.

Для оцінки варіації ознаки статистика знає і використовує кілька показників. Найпростішим з них є розмах варіації, що розраховується за формулою: X max - X min, т. Е. Як різниця між максимальним і мінімальним значенням ознаки. Однак цей показник далеко не досконалий, так як при його побудові беруть участь лише крайні значення ознаки, які можуть бути випадковими.

Більш точно можна визначити варіацію ознаки за допомогою показника, що враховує відхилення всіх значень ознаки від середньої. Це так звані абсолютні показники: середнє лінійне відхилення аі середнє відхилення ?. Середнє лінійне відхилення - це середня арифметична з абсолютних значень відхилень окремих значень ознаки від середньої величини. Але сума відхилень від середньої

завжди дорівнює нулю (одна з властивостей середньої величини), тому для розрахунку середнього лінійного відхилення підсумовують абсолютні відхилення без урахування його знака:


Середнє квадратичне відхилення також може бути просте і зважене:

Середнє квадратичне відхилення є найбільш поширеним показником варіації, воно трохи більше середнього лінійного відхилення. Встановлено, що в симетричних або помірно асиметричних розподілах співвідношення між ними можна записати у вигляді:

1,25а.

Слід мати також на увазі, що середнє лінійне відхилення буде мінімальним, якщо воно розраховане від медіани, т. Е .:

Середнє квадратичне відхилення мінімально при обчисленні його від середньої арифметичної, це саме можна сказати і до дисперсії, яка представляє собою квадрат середнього квадратичного відхилення.

дисперсія

широко застосовується в дисперсійному аналізі, але не як міра варіації, так як її розмірність не відповідає розмірності ознаки.

Розглянемо обчислення середнього лінійного і середнього квадрата-чеського відхилення на прикладі даних, наведених в табл. 3.

Таблиця 3.

Аналіз часу обробки деталей робочими двох бригад


Середня величина часу обробки деталі складає в обох бригадах 124 хв. Для першої бригади Х 1 = 992/8 = 124мі н. і для другої - Х 2 = 1240/10 = 124 хв.

Медіанне значення також однакові в обох бригадах. Так, для першої бригади хме = (116 + 132) / 2 = 124 хв. Для другої бригади - хме = (122 + 126) / 2 + 124 хв

Модальні значення в даному випадку не можуть бути визначені, тому що кожне з значень ознак не повторюється.

Виходячи з отриманих результатів, можна зробити висновок, що обидві сукупності характеризуються однаковими показниками центру розподілу, але вони можуть відрізнятися за характером розсіювання окремих значень ознаки навколо цих центрів.

Для характеристики розсіювання розрахуємо середнє лінійне відхилення. Для першої бригади:


Зіставлення середнього лінійного і середнього квадратичного відхилень говорить про те, що варіації часу обробки деталей в першій бригаді значно вище, ніж у другій бригаді.

Слід також зазначити, що середнє відхилення в обох випадках дещо більше, ніж середнє лінійне відхилення:

1 = 1,22а 1;

2 = 1,20а 2.

Це говорить про те, що ми маємо справу з помірно асиметричним розподілом.

Розглянуті показники варіації (розмах варіації, середнє лінійне відхилення, середнє квадратичне відхилення) дають можливість порівняти ступінь однорідності декількох сукупностей, але відносно лише однієї ознаки, оскільки це іменовані величини, які мають одиниці виміру ті ж, що і сам ознака.

Однак часто досліднику доводиться порівнювати варіації різних ознак, а отже, ці показники варіації не можуть бути використані.

Для характеристики варіації різних ознак розраховують відносні показники варіації, наведені до одного підставі, т. Е. Виражені у відсотках (частки розмаху варіації, середнього лінійного відхилення та середнього квадратичного відхилення) від середньої величини досліджуваної ознаки.

Це так звані коефіцієнт осциляції, відносне відхиленняі коефіцієнт варіації.

Коефіцієнт осциляції розраховується за формулою:


У нашому прикладі ці показники становлять:


Всі розраховані відносні показники варіації свідчать також про більш сильної варіації часу обробки деталей робочими першої бригади в порівнянні з другою, де середній час обробки є більш об'єктивною, більш типовою характеристикою роботи даної бригади в цілому, т. Е. Друга бригада як сукупність більш однорідна.

Відносні показники варіації, як вже було зазначено, дозволяють порівнювати ступінь варіації ознак, що мають однакові одиниці виміру, але різні рівні середніх. Наприклад, врожайність зернових культур і картоплі хоча і мають однакові одиниці виміру, але за абсолютними показниками варіації цих ознак порівнювати було б неправильно, тому що самі рівні врожайності зернових і картоплі різко відрізняються. Так, наприклад, в регіоні середньоквадратичне відхилення склало: по врожайності жита - 5 центнерів з гектара (ц / га) і по врожайності картоплі - 20 ц / га, а сама врожайність жита становила 25 ц / га, а картоплі - 200 ц / га . Коефіцієнт ж варіації відповідно дорівнює:

Це означає, що по врожайності картоплі сукупність господарств даної галузі більш однорідна, ніж по врожайності жита, т. Е. Врожайність картоплі більш стійка, ніж врожайність жита.

Порівняння абсолютних показників варіації одного і того ж ознаки різних сукупностей іноді призводить до іншого висновку, ніж при зіставленні відносних показників варіації.

Так, якщо в одній сукупності абсолютний показник варіації більше, ніж в інший, і середній рівень досліджуваного ознаки в ній також значно більше, ніж в інший, то відносний показник варіації може бути нижче.

Так, наприклад, якщо середнє квадратичне відхилення врожайності жита в одному районі склало 5 ц, в іншому - 3 ц, а сама середня врожайність, відповідно, склала 25 і 10 ц / га, то відносні показники варіації призводять до іншого висновку.

Отже, зростання врожайності, пов'язаний з деяким підвищенням абсолютного показника варіації, може і не знизити її стійкості.

Відносні показники варіації необхідні також і для порівняння варіації різних ознак, що мають різні одиниці виміру, оскільки абсолютні показники варіації в цьому випадку не можуть бути використані як міра варіації.

Наприклад, при порівнянні варіації врожайності і собівартості тієї або іншої культури не можна використовувати абсолютні показники варіації, так як вони будуть мати різні одиниці вимірювання: ц / га і руб. за 1 т. У цьому випадку доцільно середньоквадратичне відхилення використовувати для розрахунку так званого нормованого відхилення:

характеризує відхилення індивідуальних значень ознаки від середньої ( Xi?X) І припадає на одиницю середнього квадратичного відхилення. Нормоване відхилення дозволяє зіставляти між собою відхилення, виражені в різних одиницях виміру. Практично нормовані відхилення змінюються в межах від 0 до 3.

Однак в сукупності можуть зустрічатися окремі одиниці, у яких t> 3. Це буде свідчити про неоднорідність сукупності, і такі одиниці сукупності доцільно виключити як аномальні, нетипові для даної сукупності.

Якщо сукупність мала (3? n? 8), то однорідність сукупності, т. Е. Перевірку придатності первинних даних, можна здійснити в такий спосіб. Обчислюють показник, що характеризує відношення різниці між сумнівним і сусіднім значеннями ранжированного в порядку зростання ряду до різниці між крайніми значеннями, т. Е .:

якщо викликає сумнів перше в ряду значення ознаки, і:

якщо викликає сумнів останнім в ряду значення ознаки.

обчислену величину Qзіставляють з табличним її значенням для даного числа спостережень і рівня ймовірності. якщо Qф> Qтабл, то сумнівне значення слід виключити з обробки. Якщо ж Qф< Qтабл, то сумнівне значення не відкидали. Розглянемо цю методику на прикладі.

Припустимо, отримані наступні результати вмісту золи в зразках корму в процентах: 2,25; 2,19; 2,11; 2,38; 2,32 і 3,21.

Маємо в своєму розпорядженні дані аналізу в порядку зростання їх значень: 2,11; 2,19; 2,25; 2,32; 2,38; 3,21.

Рахуємо:

Таблиця 4.значенняQ в залежності від ступеня надійності (p)

і загального числа значень ознаки (n)

величина Qтабл = 0,70. Отже, значення 3,21 має бути виключено як нетипове для даної сукупності.

При числі значень ознаки більше трьох (і більше восьми) можна використовувати іншу методику визначення придатності первинних даних. За всіма значеннями ознаки в сукупності спочатку розраховують середню величину (Х) і середньоквадратичне відхилення (?), Потім на підставі різниці (без урахування знака) між максимально відхиляється значенням (X max) і середньою величиною знаходять величину критерію R max за формулою:

Значення R max зіставляють з табличним його значенням при даному числі значень ознаки для ймовірності p = 0,99 (табл. 5).

Якщо R max > R табл, то сумнівне значення (X) слід виключити, якщо ж R max< R табл, то значение (X max) следует принимать в расчет.

при n> 20 показник R max? 3 і умова придатності має вигляд:

Таблиця 5.значення R max для ступеня надійностіp = 0,99 в залежності

від числа одиниць сукупностіn


Звернемося до попереднього прикладу і обчислимо:


При розрахунку середньої величини і середнього квадратичного відхилення використовують всі значення ознаки. Потім розраховуємо:

для n = 6, R табл _ 2,13; так як 2,22> 2,13, то сумнівне значення 3,21 необхідно відкинути з статистичної обробки. Якщо сумнів викликає не одне, а кілька значень, то спочатку роблять зазначені вище розрахунки тільки для одного з них (найбільш відхиляється). Після його виключення повторюють розрахунок для наступного сумнівного значення, обчислюючи заново Xі ?.

При перевірці придатності даних з використанням будь-якої методики може бути виключено не більше однієї третини одиниць сукупності.

Якщо виключення підлягає більше однієї третини всіх одиниць сукупності, то дана сукупність вважається неоднорідною.

При вивченні економічних явищ статистика зустрічається з різноманітною варіацією ознак, що характеризують окремі одиниці сукупностей. Величини ознак варіюють під впливом різних причині умов. Чим різноманітніше умови, що впливають на розмір ознаки, тим більше його варіація.

Розглянуті показники центральної тенденції та показники варіації є окремі випадки деякої єдиної системи статистичних показників розподілу. Така єдина система характеристик може бути представлена ​​моментами статистичного розподілу. Якщо при обчисленні моментів за довільну постійну приймається середня арифметична, то такі моменти називаються центральними.

Загальна формула центральних моментів k-го порядку має вигляд:

Інакше кажучи, центральні моменти k-го порядку являють собою середню арифметичну з k - xступенів відхилень значень ознаки від середньої арифметичної.

1. Центральний момент нульового порядку дорівнює одиниці при k = 0:

2. Центральний момент першого порядку дорівнює нулю при k = 1:

3. Центральний момент другого порядку являє собою дисперсію даного розподілу при k = 2:

4. Центральний момент третього порядку має вигляд:

Якщо розподіл симетричне, то неважко бачити, що центральний момент третього порядку дорівнює нулю, так як мінусові відхилення ( X i - X) 3 в лівій гілці розподілу будуть врівноважуватися позитивними відхиленнями в правій частині. Таке взаємне погашення відхилень в симетричних рядах розподілу зберігає силу для всіх непарних центральних моментів.

лекція 1.3

Розвідувальний аналіз ДАНИХ

Основні вузлові моменти розвідувального аналізу

слайд 2

Мета розвідувального аналізу - представити спостережувані дані компактної і простій формі, що дозволяє виявити наявні в них закономірності і зв'язку. Розвідувальний аналіз включає перетворення даних і способи наочного їх подання, виявлення аномальних значень, грубу оцінку типу розподілу, згладжування.

Термін розвідувальний аналіз застосовується також у ширшому сенсі, ніж попередня обробка даних. Наприклад, в багатовимірних процедурах, таких як факторний аналіз, багатовимірне шкалювання даних, мету розвідувального аналізу, крім аналізу первинних даних, полягає у визначенні мінімального числа факторів, які задовільно відтворюють ковариационную (кореляційний) матрицю або матрицю близькості спостережуваних змінних

слайд 3

Згідно з попередньою лекції вважаємо, що у дослідника є спостереження у вигляді матриці «об'єкт-ознака» або вектора ознаки і часткова або повна відсутність апріорної інформації про причинно-наслідковому механізмі цих даних. При аналізі зазвичай виникають наступні питання

1. Який обробці піддати спостереження?

2. Яку модель вибрати?

3. Які висновки можна зробити?

Для вибору способу обробки необхідна модель спостережуваних даних. Перш ніж зробити спостереження необхідно вказати природу і властивості вимірюваної величини, тобто використовувати апріорну інформацію. Чим повніше апріорна інформація, тим точніше і з меншими витратами можна отримати необхідні результати. Тому велике значення має формалізація методів збору, обробки і використання апріорної інформації. На основі аналізу цієї інформації будується модель досліджуваного явища, вибирається апаратура, розробляється методика проведення експерименту.

слайд 4

Для отримання більш повної інформації про досліджуваному явищі проводиться первинний аналіз даних, який отримав назву розвідувального аналізу (Exploratory data analysis).Розвідувальний аналіз необхідний у всіх випадках, за винятком лише дуже простих завдань. Наприклад, вибору сімейства моделей досліджуваного явища в більшості випадків повинен передувати попередній і графічний аналіз даних. Для ілюстрації сказаного розглянемо модель простий одновимірної лінійної регресії. Відповідно до цієї моделі передбачається, що спостереження nпар ( x 1 ,Y 1), …, (x n, Y n) Можна описати рівнянням



В якості мінімального попереднього аналізу можна розглядати графік розсіювання точок ( x j,Y j). В результаті аналізу графіків можна зробити висновок про сталість дисперсії Y i, Про доцільність перетворення змінних, виявити наявність аномальних спостережень, для виключення яких необхідні спеціальні дослідження. Після такої обробки даних, припускаючи, що вірна модель (1), необхідно оцінити параметри b 0, b 1 і провести графічний аналіз залишків між що спостерігаються і оціненими значеннями Y i. На основі цього аналізу можна підтвердити або запропонувати іншу модель.

слайд 5

Розглянемо найпростіші процедури розвідувального аналізу, що відносяться до попередній обробці даних. Вони доповнюють методи, викладені в першій лекції при розгляді конкретних форм представлення даних. Пояснимо необхідність проведення розвідувального аналізу на конкретних питаннях оцінювання.

оцінка середнього. Розглянемо найпростіший прикладоцінки істинного середнього mнезалежної випадкової величини xпо виборкеоб'ема n. Якщо обчислена оцінка середнього, то виникає питання: «наскільки сильно відрізняється оцінка від неспостережуваного істинного значення?» Так як істинне значення mнедоступно, то визначається довірчий інтервал, який з заданою вірогідністю накриває істинне значення.

ставлення має t-розподіл Стьюдента. Дуже часто будують 95% -е довірчі інтервали, вважаючи, що величина tрозподілена нормально. Для нормального розподілу величина tбуде дорівнює 1,96, тоді як для t-розподілу при числі ступенів свободи v (v = n- 1), рівних 1; 3 і 12, величина t, Відповідно, дорівнює 12,7; 4,3 і 2,18. Тому при малих обсягах вибіроквикористання нормального розподілу замість t-розподілу призводить до більших помилок в інтервального оцінкою. Велика відмінність інтервальних оцінок пов'язано з відмінностями t-розподілу від нормального в хвостах розподілу.

слайд 6

Хвости реальних розподілів мають, як правило, більший розкид, ніж у нормального розподілу. Природа відмінності реального розподілу від нормального може бути різною:

1. Більшість вимірювань проводиться в конкретних одиницях, наприклад, в міліграмах, микронах, і їх значення обмежені. Для нормального ж закону розподілу значення змінюються від - ¥ до + ¥.

2. Різка асиметрія деяких розподілів (наприклад, c 2, F) При малих вибірках, обривисті краю у рівномірного розподілу.

3. Поведінка на «хвостах» розподілу. Одне або кілька різко виділяються значень від основної маси спостережень можуть істотно змінити середнє і катастрофічно дисперсію. Неправдоподібні значення майже неминучі в експериментальних даних. Кількість таких значень в медичних даних досягає до 30%, а в спеціально поставлених експериментах воно становить близько 1% від всіх даних.

Оцінка середнього среднеарифметическим дуже цінна: Незміщеність для генеральнихсукупностей, що мають математичне сподівання, достатність, повнота і, відповідно, повна ефективність для нормального, пуассоновского, гамма-розподілів і при досить широких умовах зручне асимптотично нормальний розподіл, яке в багатьох випадках наближено досягається вже при середніх обсягах вибірок n. Є і недоліки такої оцінки: ефективність її дорівнює нулю для рівномірного розподілу, а для деяких вибірок вже одне неправдоподібно велику спостереження може зробити середнєарифметичну оцінку марною.

слайд 7

Якщо нормальність розподілу порушується різко виділяються даними, то бажано застосовувати робастні(Robust - міцний, здоровий, дужий) оцінки. Прикладом робастной оцінки середнього, терпимою до відхилення хвостів розподілу від нормального є медіанарозподілу. Вона, як серединне значення спостережень, не залежить від одного або декількох неправдоподібно великих вимірювань.

Медіана, як робастний, не є ефективною оцінкою щодо середньоарифметичної оцінки для нормального розподілу.

слайд 8

міра розкиду. На практиці для характеристики величини розкиду даних використовуються наступні заходи: середньоквадратичне відхилення s або його квадрат - дисперсія s 2, а також розмах R. Оцінки цих величин позначають відповідно S, S 2 , R. Оцінка розкиду по Sшироко застосовується, і воно корисно при лінійних перетвореннях типу Y= B + a X.Для деяких розподілів s 2 = ∞, а розмах застосуємо; неправдоподібно великі відхилення в спостереженнях також можуть зробити оцінку дисперсії дуже великий, що призводить до типу розподілу, відмінному від істинного.

Оцінка розкиду по вибірковому розмаху відноситься до швидких процедур. У зв'язку з появою швидкодіючих ЕОМ обчислювальні переваги Rпорівняно з Sстають все менш важливими, але залишаються переваги, пов'язані з простотою обчислення Rі можливістю для неспеціалістів застосовувати цю статистику. Так, розмах практично зовсім витіснив Sз систем контролю якості, в яких вибірки малих обсягів беруться через короткі інтервали часу і за середнім значенням і розмахом будуються контрольні карти.

Слід зазначити, що розмах можна використовувати для розпізнавання великих неправдоподібних помилок в обчисленнях Sдля вибірок з будь-якої генеральної сукупності. Це випливає з обмеженості відносини S / R.

слайд 9

Підводячи підсумок розглянутим оцінками, необхідно зробити висновок, що є причини, щоб не обробляти всі дані однаково. Перш ніж приступити до обробки спостережень, необхідно перевірити однорідність вибірки і, якщо вона неоднорідна, то розділити на шари. Наявність різко виділяються спостережень також порушує однорідність вибірки. У цьому випадку один з підходів базується на виявленні та видаленні цих виділяються даних.

Видалення різко виділяються спостережень забезпечує безпеку оцінки, однак забезпечує ефективність тільки в разі визначення чіткої межі між віддаленими і не віддаленими даними. До явних різко виділяється даними примикає зона «сумнівних» даних (рис. 1), які не завжди можна розпізнати. Тут легко допустити неправильні видалення і необгрунтовані збереження, повної ефективності очікувати не доводиться навіть в ідеалі після видалення. Ці труднощі можна подолати, застосовуючи робастні методи оцінювання. Робастні алгоритми забезпечують безпеку і ефективність оцінювання при наявності різко виділяються і сумнівних даних.

Мал. 1. Щільність розподілу. Розбиття даних на три групи.

слайд 10

Про якість результатівМета дослідження - дати відповідь на питання: чи можна отримані результати застосовувати на практиці. Придатність отриманих результатів можна оцінити методами повторних. Найбільш часто використовуються методики простий і подвійний повторних.

Проста перевірка.Перевірка отриманої моделі проводиться на даних, відмінних від тих, за якими розраховані параметри моделі. В цьому випадку можна вибірку спостережень ділити на дві (або більше) частини. Одну частину використовують для обробки, а іншу - для перевірки. Після цього частини можна міняти місцями, що може дати трохи більше інформації, хоча тут є певні труднощі, що випливають з-за зв'язки між двома оцінками якості моделі.

Таку перевірку можна здійснити і для багаторазового поділу даних, наприклад, можна вибірку розділити на 10 рівних частин. На будь-яких 9 з них провести оцінку моделі, а на решті однієї частини здійснити перевірку. Після цього повторити процедуру 9 разів, беручи щораз нові 9 частин. У ряді випадків процедуру ускладнюють. Розрахунок здійснюють за всіма даними без одного спостереження, а перевірку - на відкинутому значенні. Розрахунки повторюють для кожного з спостережень вибірки. Не слід спокушатися результатами простої перевірки, так як контрольна вибірка завжди буде більше схожа на робочу, ніж на вибірку об'єктів, для якої будуть використовуватися результати досліджень.

Подвійна перевірка.Проводиться перевірка на даних відмінних, як від тих, за якими будувалася модель, так і від тих, які були використані для розрахунку параметрів моделі. Медики такий метод перевірки називають «двічі сліпим». «Свіжі дані» для повторного огляду можна збирати після вибору моделі і розрахунку параметрів. Якщо отримання таких даних неможливо, то можна звернутися до архівних даних за умови, що вони залишалися невідомими, поки будувалася модель і розраховувалися параметри цієї моделі. При подвійний повторному огляді важливо, щоб дані, які використовуються для перевірки, були відмінними від тих, за якими проводилися оцінки. Можна використовувати дані різних років, якщо вони можуть бути віднесені до одного часу, або дані інших дослідників.

слайд 11

неоднорідні вибірки

Стандартні методи оцінювання будь-яку статистику вибіркових даних побудовані на припущенні, що вибірка взята з однорідної сукупності з простою структурою закону розподілу. Тим часом на практиці вибірки часто формуються під впливом різних причин і умов, і вони можуть бути представлені у вигляді об'єднання певної кількості однорідних вибірок, кожна з яких має просту структуру. Наприклад, не можна вважати однорідними доходи багатих і інших громадян держави, так як вони мають різну економічну основу; об'єкти різної вартості, що відрізняються по народногосподарським наслідків. Прикладами можуть служити неоднорідні послідовності динамічних моделей в задачах аналізу вібрацій в машинобудуванні; сейсмограмм в геофізики; кардіограм з порушеннями частоти биття серця.

Природа неоднорідності може бути різною. Наприклад, можливі об'єднання з сукупностей з різними середніми і дисперсіями або з однаковими середніми, але з різними дисперсіями. Важливий клас неоднорідних вибірок утворюють також вибірки, які містять одну або кілька неправдоподібно великих чи малих вимірювань. Обробка неоднорідних

Нехай спостереження складаються з трьох однорідних шарів, кожен з яких можна описати простою одновимірної регресією. Ці залежності показані на рис. 2, де прямі - лінії регресій кожної сукупності. Якщо обробити об'єднану вибірку цих сукупностей, то отримаємо регрессионную залежність, зображену на рис. 2 пунктирною прямий. Очевидно, що регресія по об'єднаним даними позбавлена ​​будь-якого сенсу.

Для визначення однорідності вибірки необхідний детальний змістовний аналіз досліджуваної сукупності. Цей аналіз повинен базуватися на суттєвому не випадковому ознаці, по якому вихідна сукупність може бути представлена ​​у вигляді об'єднання кількох однорідних сукупностей. Наприклад, податкові декларації можна розбити на групи за обсягами доходів; установи - по числу службовців; ферми - за загальною площею земель і валових доходів.При поділі вибірки на шари потрібно відповісти на питання, за якою ознакою краще виробляти розшарування, як визначити межі між шарами, скільки повинно бути верств.

слайд 12

Поділ неоднорідною сукупності на однорідні

Нехай вибірка досліджуваної сукупності x 1, ..., x n, містить елементи двох незалежних випадкових величин з густиною розподілів f (x, q 1) і f (x, q 2). Позначимо через А - безліч елементів вибірки, що належать до першої випадкової величини, В - безліч елементів вибірки з другої сукупності. Потрібно знайти оцінки 1, 2 невідомих параметрів q 1, q 2 і безлічі А і В. Для оцінки цих чотирьох невідомих використовуємо метод максимуму правдоподібності. Невідомі q 1, q 2 і А і В знайдемо з умови покоординатно максимізації функції правдоподібності

На кожному кроці максимизируется величина функції правдоподібності по одному з невідомих. 1) < f(x i , 2),. Если f(x i , 1) = f(x i , 2), то оба варианта одинаково правдоподобны, что для непрерывных распределений является маловероятным событием. Далее берем следующий элемент и относим его в то или иное множество. Полученные множества сравниваем с множествами на предыдущем шаге. Если они отличаются, то переходим к шагу 2, в противном случае алгоритм останавливается, и задача считается решенной.

Недоліком алгоритму є те, що він зупиняється на першому локальному максимумі функції правдоподібності. Частково цього недолік можна уникнути, вирішуючи завдання при різних початкових розбиття на підмножини А і В. Якщо кінцеві результати для кількох початкових умов різні, то береться то рішення, для якого значення функції правдоподібності більше. Звідси випливає, що наведений алгоритм застосуємо і для вибірок, що містять більше двох шарів.

Здійснити перевірку статистичної сукупності на однорідність з використанням коефіцієнта варіації за ознакою обсяг товарної продукції.

Варіація - коливання, зміна величини ознаки у статистичній сукупності, тобто прийняття одиницями сукупності або їх групами різних значень ознаки.

Коефіцієнт варіації є відносною мірою варіації і являє собою відношення середнього квадратичного відхилення до середньої величини варьирующего ознаки, обчислюється за формулою:

Середнє квадратичне відхилення;

Середнє значення ознаки.

Середнє квадратичне відхилення в рамках даного завдання розраховується за формулою:

Чим менше величина коефіцієнта варіації, тим однорідний вважається статистична сукупність. Сукупність вважається однорідною, якщо коефіцієнт варіації не перевищує 33%.

Розрахуємо коефіцієнт варіації для всієї сукупності підприємств за ознакою обсяг товарної продукції.

Розрахунки представлені в таблиці 6.

Таблиця 6.

номер підприємства Q - x порівн. (Q - x пор.) 2
163,3 -757,156 573285,208
236,5 -683,956 467795,810
843,3 -77,156 5953,048
1005,9 85,444 7300,677
696,3 -224,156 50245,912
1031,3 110,844 12286,392
1361,2 440,744 194255,274
1712,9 792,444 627967,493
538,9 -381,556 145584,981
350,4 -570,056 324963,843
2149,9 1229,444 1511532,549
352,8 -567,656 322233,334
1187,1 266,644 71099,023
262,4 -658,056 433037,699
438,8 -481,656 231992,502
1150,5 230,044 52920,242
249,4 -671,056 450316,155
655,3 -265,156 70307,704
2549,5 1629,044 2653784,354
536,8 -383,656 147191,926
311,2 -609,256 371192,874
809,7 -110,756 12266,892
166,7 -753,756 568148,108
2185,1 1264,644 1599324,447
2066,2 1145,744 1312729,314
Разом: 12217715,762
920,456
488708,630
699,077
Коффициент Варіації 0,759

З таблиці ми бачимо, що коефіцієнт варіації дорівнює 48,7%. Це означає, що сукупність є неоднорідною, тому що сукупність вважається однорідною, якщо коефіцієнт варіації не перевищує 33%.



Розрахуємо коефіцієнт варіації за ознакою обсяг товарної продукції, отримані в результаті простий угруповання (п. 3.1.).

Результати розрахунків представимо в таблицях 7,8,9 і 10.

Таблиця 7.1-ая група.

номер підприємства Обсяг товарної продукції (Q), млн.р. Q - x порівн. (Q - x пор.) 2
163,3 -218,146 47587,744
236,5 -144,946 21009,388
696,3 314,854 99132,944
538,9 157,454 24791,714
350,4 -31,046 963,864
352,8 -28,646 820,602
262,4 -119,046 14171,987
438,8 57,354 3289,464
249,4 -132,046 17436,187
655,3 273,854 74995,929
536,8 155,354 24134,818
311,2 -70,246 4934,522
166,7 -214,746 46115,911
Разом: 0,000 379385,072
381,446
34489,552
185,714
Коффициент Варіації 0,487

Таблиця 8.2-ая група.

номер підприємства Обсяг товарної продукції (Q), млн.р. Q - x порівн. (Q - x пор.) 2
843,3 -161,333 26028,44
1005,9 1,266667 1,604444
1031,3 26,66667 711,1111
1187,1 182,4667 33294,08
1150,5 145,8667 21277,08
809,7 -194,933
Разом: 119311,3
1004,633
19885,222
141,015
Коффициент Варіації 0,140

Таблиця 9.3-тя група,

номер підприємства Обсяг товарної продукції (Q), млн.р. Q - x порівн. (Q - x пор.) 2
1361,2 -175,850 30923,223
1712,9 175,850 30923,223
Разом: 61846,445
1537,050
20615,482
143,581
Коффициент Варіації 0,093

Таблиця 10. 4-а група.

номер підприємства Обсяг товарної продукції (Q), млн.р. Q - x порівн. (Q - x пор.) 2
2149,9 -87,775 7704,451
2549,5 311,825 97234,83
2185,1 -52,575 2764,131
2066,2 -171,475 29403,68
Разом: 137107,1
2237,675
68553,544
261,827
Коффициент Варіації 0,117

Висновки за даними:

У 1-ій групі коефіцієнт варіації дорівнює 48,7%. Це означає, що сукупність є не однорідною.

У 2-ої групи коефіцієнт варіації дорівнює 14%. Це означає, що сукупність є однорідною.

У 3-ій групі коефіцієнт варіації дорівнює 9,3%. Це означає, що сукупність є однорідною.

У 4-ої групи коефіцієнт варіації дорівнює 11,7%. Це означає, що сукупність є однорідною.

Сподобалася стаття? поділіться їй
наверх