Abstract: The research is directed to use of statistical methods and statistical processing of social and economic data with use of statistical software Excel, Statistica, SPSS. During the research tendencies of consumption of food in the different countries of the world were studied. Various statistical methods were used: descriptive statistics, correlation, Fisher-Student's tests, ANOVA analysis, forecasting by means of the analysis of temporary ranks.
Keywords: statistical researches, packages of application programs, descriptive statistics, correlation, consumption of food by the population.
Потребление продуктов питания населением является важным показателем уровня жизни населения и его благосостояния. Поэтому сбор и анализ статистической информации об уровне потребления продуктов питания необходимый пункт для оценки качества жизни в стране.
Объектом исследования является потребление продуктов питания населением в разных странах. Проводится сравнительный анализ потребления продуктов питания по выборке из 10 развитых стран с разных континентов: Россия, Австралия, Австрия, Германия, Италия, Нидерланды, Польша, США, Франция, Япония.
Целью работы является поиск зависимости потребления продуктов питания от уровня жизни, культурных и географических особенностей страны.
В общем объеме потребления основных продуктов питания учитываются соответственно:
Столбец 1 — Мясо и мясопродукты в пересчете на мясо (без сала и субпродуктов)
Столбец 2 — Молоко и молочные продукты (включая масло животное) в перерасчете на молоко
Столбец 3 — Животное масло
Столбец 4 — Яйца куриные (в перерасчёте 50 г за штуку)
Столбец 5 — Сахар
Столбец 6 — Растительное масло
Столбец 7 — Картофель
Столбец 8 — Овощи и бахчевые
Столбец 9 — Фрукты и ягоды
Столбец 10 — Хлебные продукты (хлеб и макаронные изделия в перерасчете на муку).
Статистическая информация взята с сайта Федеральной службы государственной статистики [1] .
Таблица 1
Потребление продуктов питания (на душу населения в год килограммов)
Страна | Основные продукты питания | |||||||||
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
Россия | 73 | 239 | 3,8 | 13,45 | 39 | 13,6 | 112 | 111 | 61 | 118 |
Австралия | 121 | 230 | 3,8 | 6,55 | 47 | 24 | 50 | 96 | 103 | 96 |
Австрия | 98 | 386 | 5,4 | 11,7 | 34 | 22 | 59 | 115 | 152 | 79 |
Германия | 88 | 436 | 5,9 | 11,65 | 33 | 15 | 78 | 93 | 87 | 103 |
Италия | 87 | 260 | 2,2 | 10,65 | 29 | 28 | 39 | 145 | 149 | 129 |
Нидерланды | 73 | 349 | 0,4 | 14,25 | 46 | 14 | 94 | 84 | 167 | 92 |
Польша | 70 | 303 | 4,2 | 7,75 | 44 | 13 | 101 | 104 | 47 | 106 |
Франция | 89 | 250 | 7,9 | 11,35 | 38 | 21 | 55 | 104 | 114 | 85 |
США | 118 | 276 | 2,5 | 13,15 | 59 | 31 | 56 | 113 | 99 | 112 |
Япония | 49 | 89 | 0,6 | 15,25 | 19 | 13 | 21 | 92 | 53 | 89 |
Статистический анализ представленных данных проводился в несколько этапов, используя различные статистические пакеты обработки данных. Первичный анализ проводился с помощью инструментария пакета Exel, далее для анализа вида распределений и проверки гипотез использовался пакет Statistica и на заключительном этапе для многомерного статистического анализа применялся пакет SPSS.
Традиционно статистический анализ данных начинается с методов описательной статистики. К методам описательной статистики относятся методы первичного статистического анализа данных, описывающие выборки с помощью различных показателей и графиков. Полезность данных методов заключается в том, что несколько простых и довольно информативных статистических показателей способны избавить исследователя от просмотра сотен, а порой и тысяч значений выборки.
Показатели, описывающие выборку, можно разбить на несколько групп:
1) показатели положения описывают положение данных на числовой оси. Примеры таких показателей – минимальный и максимальный элементы выборки (первый и последний члены вариационного ряда), верхний и нижний квартили (они ограничивают зону, в которую попадают 50% центральных элементов выборки). Сведения о середине совокупности дают выборочное среднее и выборочная медиана;
2) показатели разброса описывают степень разброса данных относительно своего центра. К ним в первую очередь относятся: дисперсия выборки, стандартное отклонение, размах выборки, межквартильный размах (разность между верхней и нижней квартилью), коэффициент эксцесса. Эти показатели отображают, насколько тесно основная масса данных группируется около центра;
3) показатели асимметрии. Эта группа показателей отвечает на вопрос о симметрии распределения данных около своего центра. К ней можно отнести: коэффициент асимметрии, положение выборочной медианы относительно выборочного среднего и относительно выборочных квартилей, гистограмму;
4) показатели, описывающие закон распределения. Эти показатели дают представление о законе распределения данных. Сюда относятся гистограммы, графики эмпирической функции распределения, таблицы частот.
Таблица 2
Описательная статистика. Анализ по столбцам:
Показатель | Ст.1 | Ст.2 | Ст.3 | Ст.4 | Ст.5 | Ст.6 | Ст.7 | Ст.8 | Ст.9 | Ст.10 |
Среднее | 86,6 | 281,8 | 3,67 | 11,575 | 38,8 | 19,46 | 66,5 | 105,7 | 103,2 | 100,9 |
Медиана | 87,5 | 268 | 3,8 | 11,675 | 38,5 | 18 | 57,5 | 104 | 101 | 99,5 |
Мода | 73 | #Н/Д | 3,8 | #Н/Д | #Н/Д | 13 | #Н/Д | 104 | #Н/Д | #Н/Д |
Ст. отклонен | 22,03 | 95,92 | 2,35 | 2,74 | 11,05 | 6,69 | 28,96 | 17,10 | 42,69 | 15,68 |
Дисперсия | 485,16 | 9200,84 | 5,54 | 7,50 | 122,18 | 44,78 | 838,50 | 292,46 | 1822,84 | 245,88 |
Эксцесс | -0,14 | 1,07 | -0,32 | -0,05 | 0,62 | -1,13 | -0,84 | 2,52 | -1,30 | -0,56 |
Асимметрия | 0,14 | -0,36 | 0,25 | -0,71 | 0,03 | 0,59 | 0,20 | 1,29 | 0,16 | 0,42 |
Согласно среднему, во всех странах больше всего потребляют молока и молочных продуктов — 281,8 кг, меньше всего животного масла — 3.67 кг. Стандартное отклонение для этих величин составляет по таблице 34% и 64% соответственно. Это говорит о значительно отличающемся количестве потребления продуктов в разных странах. Особенно выделяется потребление молока в Японии, где традиционно низкий уровень потребления молочных продуктов из-за высокого уровня непереносимости лактозы у местного населения. Далее сравним значения моды и медианы. Только в четырех столбцах присутствует мода, и 2/4 из них совпадают со значением медианы, что говорит двух самых стабильных по потреблению группах продуктов: овощах и растительном масле. По имеющимся значениям коэффициентов эксцесса и асимметрии можно предположить наличие нормальной закономерности у большей части показателей.
Таблица 3
Описательная статистика. Анализ по строкам:
Страна | среднее | медиана | мода | ст.отклонение | дисперсия | эксцесс | асимметрия |
Россия | 78,39 | 67 | #Н/Д | 71,04 | 5046,58 | 2,00 | 1,26 |
Австралия | 77,74 | 73 | 96 | 67,90 | 4610,78 | 1,89 | 1,18 |
Австрия | 96,21 | 69 | #Н/Д | 112,49 | 12654,82 | 5,51 | 2,19 |
Германия | 95,06 | 82,5 | #Н/Д | 125,56 | 15764,56 | 7,67 | 2,64 |
Италия | 87,89 | 63 | #Н/Д | 82,37 | 6784,73 | 0,52 | 0,98 |
Нидерланды | 93,37 | 78,5 | #Н/Д | 102,59 | 10524,44 | 4,45 | 1,95 |
Польша | 80,00 | 58,5 | #Н/Д | 87,79 | 7706,86 | 5,06 | 2,04 |
Франция | 77,53 | 70 | #Н/Д | 71,85 | 5162,00 | 3,38 | 1,62 |
США | 87,97 | 79 | #Н/Д | 78,59 | 6176,97 | 3,38 | 1,55 |
Япония | 44,09 | 35 | 89 | 35,41 | 1253,89 | -1,66 | 0,40 |
Максимальное среднее значение потребления продуктов питания у Австрии — 96,21 кг, не отстают от нее другие немецкие страны: Германия и Нидерланды — 95,06 и 93,37. Далее идут США и Италия — около 88 кг. Славянские страны Россия и Польша имеют близкое среднее потребление с отличием в 2%. Сравнимый уровень потребления наблюдается у Франции и Австралии, у которых значительно выше, средний доход граждан. Аномально низкое среднее потребление продуктов в Японии можно объяснить отсутствием статистики по потреблению морепродуктов — традиционной японской еды. Мода есть только в двух строках, она сильно отличается от медианы, что говорит об отсутствии устойчивости данных. Большие значения эксцесса и асимметрии говорят об отсутствии нормального закона распределения у разных стран.
Рассмотрим Россию и Польшу, как наиболее экономически, культурно и территориально близкие страны из представленных.
Рисунок 1.
Рисунок 2.
Анализируя диаграммы можно сделать вывод, что только потребление молока и животного масла отличается на 19-25%, все остальные показатели практические идентичные.
Рисунок 3.
Рисунок 4.
Данные графики наглядно показывают рацион питания населения в каждой из стран. Наибольшее потребление мяса наблюдается у англоговорящих стран — США и Австралии. Наибольшее потребление растительной пищи у Италии, Японии и России. Французы, голландцы, итальянцы и австрийцы больше остальных любят фрукты, а россияне и поляки — картофель. Также примечательно, что почти половину рациона немцев составляют молочные продукты, тогда как у остальных эта цифра ближе к 30-40%.
Таблица 4
Корреляция. Анализ по видам продуктов питания:
Мясо и мясопродукты | Молоко и мол-е продукты | Животное масло | Яйца (в перерасчете 50 г за шт.) | Сахар | Раст. масло | Картофель | Овощи и бахчевые | Фрукты и ягоды | Хлебные продукты | |
Мясо и мясопродукты | 1 | |||||||||
Молоко и молочные продукты | 0,311 | 1 | ||||||||
Животное масло | 0,320 | 0,393 | 1 | |||||||
Яйца (в перерасчете 50 г шт.) | -0,478 | -0,163 | -0,406 | 1 | ||||||
Сахар | 0,641 | 0,283 | 0,031 | -0,272 | 1 | |||||
Растительное масло | 0,793 | 0,005 | 0,063 | -0,227 | 0,379 | 1 | ||||
Картофель | -0,149 | 0,491 | 0,144 | -0,064 | 0,412 | -0,495 | 1 | |||
Овощи и бахчевые | 0,224 | -0,028 | 0,071 | -0,160 | -0,105 | 0,621 | -0,220 | 1 | ||
Фрукты и ягоды | 0,350 | 0,430 | -0,064 | 0,072 | 0,110 | 0,444 | -0,153 | 0,241 | 1 | |
Хлебные продукты | 0,051 | -0,059 | -0,255 | -0,098 | 0,138 | 0,263 | 0,199 | 0,608 | -0,168 | 1 |
В таблице 4 есть отрицательные значения, значит можно говорить об обратной зависимости между элементами. По имеющимся данным можно сказать, что наибольшая коррелируемость наблюдается у мяса и растительного масла, а наименьшая у растительного масла и картофеля (выделено зеленым). В целом из этой таблицы сложно найти зависимость, т.к. несочетаемые на первый взгляд продукты имеют высокий уровень коррелируемости, а сочетаемые отрицательный. За исключением яйца, которое имеет отрицательную коррелируемость почти со всеми видами продуктов кроме фруктов.
Таблица 5
Корреляция. Анализ по странам:
Россия | Австралия | Австрия | Германия | Италия | Нидерланды | Польша | Франция | США | Япония | |
Россия | 1 | |||||||||
Австралия | 0,898 | 1 | ||||||||
Австрия | 0,886 | 0,949 | 1 | |||||||
Германия | 0,925 | 0,922 | 0,973 | 1 | ||||||
Италия | 0,874 | 0,948 | 0,933 | 0,878 | 1 | |||||
Нидерланды | 0,894 | 0,924 | 0,981 | 0,956 | 0,914 | 1 | ||||
Польша | 0,981 | 0,903 | 0,925 | 0,973 | 0,860 | 0,917 | 1 | |||
Франция | 0,917 | 0,980 | 0,987 | 0,955 | 0,969 | 0,969 | 0,929 | 1 | ||
США | 0,927 | 0,991 | 0,962 | 0,954 | 0,948 | 0,933 | 0,943 | 0,984 | 1 | |
Япония | 0,782 | 0,800 | 0,691 | 0,654 | 0,887 | 0,657 | 0,710 | 0,783 | 0,802 | 1 |
Так как все значения в таблице 5 положительные, то мы можем говорить о прямой зависимости между элементами. Практически одинаковые тенденции по потреблению одних и тех же видов продуктов наблюдаются по всем странам. Их близость составляет порядка 85-95% у всех стран, кроме Японии, что говорит о специфике культуры восточной страны.
Тесты Фишера и Стьюдента используются для проверки гипотезы об однородности данных при малых объемах выборок. Проанализируем с помощью этих методов однородность двух наиболее популярных во всех странах видов продуктов питания: мясо и картофель.
Таблица 6
Так как F > F (крит. одностороннее), то верна конкурирующая гипотеза К. Это означает, что присутствуют значимые различия в дисперсиях сравниваемых данных. По тесту Стьюдента получаем что, t (стат.) < t (крит. двустороннее) – верна гипотеза H. Данные продукты имеют приблизительно равное усредненное потребление, однако в целом потребление этих продуктов нельзя считать равными.
Далее проанализируем однородность потребления всех продуктов питания в двух странах: Россия и Польша. Эти страны выбраны не случайно, так как они относятся к одной славянской культуре, то есть возможность предположить, что и предпочтения в потреблении продуктов питания у жителей обоих стан будут схожими.
Таблица 7
При анализе по строкам F > F (критическое одностороннее), верна конкурирующая гипотеза К — усредненные по двум странам не совпадают. А по тесту Стьюдента t=|-0,224| < t (крит. двустороннее)=2,262, следовательно верна гипотеза Н. Ситуация аналогичная предыдущей, однородности не установлено. Уровень потребления продуктов питания в двух странах нельзя считать однозначно равным.
Статистический анализ имеет дело с данными, подверженными случайной изменчивости. Их поведение может характеризоваться законом распределения вероятностей, если данные являются выборкой, или более сложными моделями, если данные неоднородны. Эти законы распределения вероятностей и модели, как правило, содержат неизвестные параметры – среднее, дисперсию, вклады факторов. Исследователя обычно интересуют либо сами эти параметры, либо некоторые заранее известные функции от них. Однако в силу случайной изменчивости наблюдаемых данных, нельзя только основываясь на них указать совершенно точное значение параметров. И здесь на помощь приходят методы дисперсионного анализа, которые позволяют в процентном соотношении установить влияние фактора и случайности на изменчивость признака.
Таблица 8
Дисперсионный анализ по столбцам | ||||||
Источник вариации | SS | df | MS | F | P-Значение | F критическое |
Между группами | 584222,3 | 9 | 64913,59 | 49,68256 | 4,06657E-31 | 1,985594964 |
Внутри групп | 117591 | 90 | 1306,567 | |||
Итого | 701813,3 | 99 |
Процент влияния фактора «продукт питания» равен: 584222,3/701813,99*100%= 83,2446%
Таблица 9
Дисперсионный анализ по строкам | ||||||
Источник вариации | SS | df | MS | F | P-Значение | F критическое |
Между группами | 20642,64 | 9 | 2293,627 | 0,303047 | 0,972038126 | 1,985594964 |
Внутри групп | 681170,7 | 90 | 7568,563 | |||
Итого | 701813,3 | 99 |
Процент влияния фактора «страна» равен: 20642,64/701818,3*100%=2,9413%
Вывод: фактор «страна» практически не влияет на уровень потребления продуктов, а фактор «продукт питания» является определяющим.
Подробнее хотелось бы остановиться на методах прогноза. Так как построение прогноза – одно из наиболее приоритетных направлений в статистическом и экономическом исследованиях. Для большей точности используем два метода прогноза “Экспоненциальное сглаживание” и “Скользящее среднее” и определим, какой метод для имеющихся данных лучше.
Скользящее среднее по столбцам:
Рисунок 5.
Экспоненциальное сглаживание по столбцам:
Рисунок 6.
Как видно из графиков, ближе расположены точки (фактическое наблюдение и прогноз) на графике скользящее среднее. Таким образом, этот метод прогноза является лучшим в данном случае.
Скользящее среднее по строкам:
Рисунок 7.
Экспоненциальное сглаживание по строкам:
Рисунок 8.
Для строк, так же как и для столбцов, предпочтительнее оказался метод скользящего среднего.
В целом при анализе статистических данных можно сделать вывод, что потребление продуктов в развитых странах достаточно одинаково, а основные различия для западных стран заключаются в культурных особенностях, а не в уровне доходов населения или размера территории.
Так же некоторые выводы, сделанные в ходе работы:
- Жители Центральной Европы едят больше остальных; поляки, русские и французы имеют много общего в потреблении продуктов питания, а статистика японцев не показательна, так как не учтены морепродукты в общем объеме потребления продуктов.
- Молоко и молочные продукты в среднем потребляют почти в 3 раза больше, чем другие продукты, за исключением японцев из-за физиологических особенностей народа. Так же много потребляют хлеба, овощей, фруктов и мяса, меньше картофеля. Для России и Польши характерно высокое потребление картофеля, но низкое фруктов. А зажиточные американцы и австралийцы едят мяса на 20-40% больше остальных.
- Все страны кроме Японии имеют высокую коррелируемость уровня потребления продуктов.
- Фактор «продукт» больше всего влияет на уровень потребления продуктов у населения — 83%, в то время как фактор «страна» имеет очень низкое влияние — 3%. Таким образом, можно сказать, что во всех странах выбирают одинаковые продукты в схожих пропорциях: есть как можно больше мяса, овощей и поменьше жиров, сахара.
Библиографический список
1. http://www.gks.ru/bgd/regl/b16_13/IssWWW.exe/Stg/d04/27-16.doc [5.04.2018]2. Каменева С.В. Статистическое исследование динамики изменения среднемесячной номинальной заработной платы работников организаций отдельных муниципальных образований Пермского края/ Сборник научных трудов “Математические и инструментальные методы экономики” I международной научно-практической конференции 31 мая 2016 г. Нижний Новгород. С.5-15.
3. Каменева С.В. Статистические методы в политических науках. – Пермь: изд-во Пушка. 2004. – 164 с.
4. Каменева С.В. О некоторых задачах проверки гипотез и групповой классификации. Случай дискретных распределений. LAP LAMBERT. 2016. – 104 c.
5. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере. – М.: Инфра-М.2003. -544 с.
6. Бююль А., Цефель П. SPSS: искусство обработки информации. – М.: DiaSoft. 2002. – 602 c.