Застосування методів Data Science для побудови моделі цифрового розвитку країн європейського союзу
Анотація. Наявність науково-технічних ресурсів є важливим компонентом сучасного розвитку держав і їхніх економік. Останнім часом технологічні зміни сприяють впровадженню цифрових рішень, які можуть позитивно впливати на їхні економічні результати. Цілеспрямоване вивчення цієї сфери дозволить провести аналіз рівня цифрової готовності країн Європейського Союзу. У результаті була розроблена багатовимірна модель класифікації на основі методів кластерного аналізу. Із її допомогою можна визначити рівень цифрової трансформації у кожній окремій групі, а також виділити основні переваги та недоліки країн, які знаходяться на тій чи іншій стадії розвитку.
Digital economy — поняття, яке вперше запровадив канадський дослідник Тапскот Д. у своїй книзі [2]. Цей термін відображає сферу економічної діяльності, що базується на використанні цифрових технологій. Економіст Мезенбург Т. електронний бізнес, його інфраструктуру та електронну комерцію як ключові складові цифрової економіки. Цифрові технології передбачають обробку інформації за допомогою цифрових пристроїв і відповідних методів. Вони стали невід’ємною частиною сучасного суспільства, адже цифровізація відіграє значну роль у розвитку економіки, впливаючи на різні сфери людської діяльності. Сьогодні цифрові рішення широко застосовуються в освіті, медицині, виробництві, державному управлінні та наданні послуг.
Впровадження цифрових технологій сприяє зміцненню міжнародної співпраці, підвищує якість та швидкість обслуговування, а також позитивно впливає на ефективність економічних процесів. Вони сприяють зростанню продуктивності праці, розвитку інноваційних рішень та покращенню рівня життя. З огляду на важливість цифрової економіки для розвитку держав, необхідно здійснювати її постійний аналіз та оцінку. Для цього використовуються спеціальні показники цифровізації. Індекс цифровізації — це комплексний індикатор, що дозволяє визначати рівень розвитку цифрової економіки, її динаміку та загальний стан.
Для реалізації дослідження використовуються індекси:
- Digital Economy and Society Index [4].
- World Digital Competitiveness Index.
- Digital Evolution Index.
- Networked Readiness Index [5].
- e-Government Development Index [6].
- Global Innovation Index [7].
- Global Connectivity Index [8].
Щоб вирішити задачу багатофакторної класифікації, застосовують кластерний аналіз. Це набір обчислювальних методів, що дозволяють розподілити вибірку на групи — кластери, елементи яких мають спільні характеристики [1, ст. 54].
Одним із поширених підходів у цьому процесі є ітеративний метод К-середніх. Він вимагає заздалегідь визначити приблизну кількість кластерів, тому його часто доповнюють іншими методами: методом Уорда, Elbow method, Silhouette method та Gap statistic method. Ці підходи дають змогу оцінити якість кластеризації та підібрати оптимальну кількість груп.
Обчислення виконуються за допомогою мови програмування R [9] у середовищі RStudio [10]. Для аналізу завантажуються вхідні дані з показниками індексів для країн у RStudio (рис. 1).

На першому етапі обробки виконуємо стандартизацію даних. Це необхідний крок, який дозволяє привести всі показники до єдиного масштабу, що забезпечує коректність подальших розрахунків та аналізу. Після стандартизації вхідні дані набувають узгодженого вигляду (рис. 2).

На основі візуального аналізу дендрограми (рис. 3), а також результатів методу ліктя, силуетного методу та методу gap-статистики, було визначено, що оптимальна кількість кластерів становить 4.

За результатами роботи методу К-середніх отримуємо так само 4 кластери (рис. 4).

У результаті кластерного аналізу країни Європейського Союзу було поділено на чотири групи за рівнем цифрового розвитку.
Перший кластер (Данія, Нідерланди, Фінляндія, Швеція) об’єднує високорозвинені країни, які лідирують у сфері цифровізації. Другий кластер (Австрія, Бельгія, Естонія, Ірландія, Німеччина, Франція) включає держави з помірним рівнем цифрового розвитку. Третій кластер (Іспанія, Італія, Литва, Польща, Португалія, Словенія, Чехія) охоплює країни, що активно розвивають цифрові технології. Четвертий кластер (Болгарія, Греція, Румунія, Словаччина, Угорщина, Хорватія) складається з країн, які наразі мають відносно низький рівень цифровізації.
Отримана модель дозволяє оцінити цифровий розвиток країн ЄС, а також може бути використана для подальшого дискримінантного аналізу та порівняння рівня цифровізації інших держав.
Література
- Бізнес-аналітика багатовимірних процесів: навчальний посібник / Т.С. Клебанова, Л.С. Гур’янова, Л.О. Чаговець та ін. Харків : ХНЕУ ім. С. Кузнеця, 2018. 272 с.
- Tapscott D. The Digital Economy: Promise and Peril in the Age of Networked Intelligence, 1994, 368 p.
- Mesenbourg T. L. Measuring the Digital Economy, 2001, p. 2. URL: https://2001.isiproceedings.org/pdf/1074.PDF
- European Commission. The Digital Economy and Society Index (DESI). URL: https://digital-strategy.ec.europa.eu/en/policies/desi
- Network Readiness Index. URL: https://networkreadinessindex.org/
- UN E-Government Knowledgebase. E-Government Development Index (EGDI). URL: https://publicadministration.un.org/egovkb/en-us/About/Overview/-E-Government-Development-Index
- Global Innovation Index. URL: https://www.wipo.int/global_innovation_index/en/
- Global Connectivity Index. URL: https://www.huawei.com/minisite/gci/en/
- The R Project for Statistical Computing. URL: https://www.r-project.org/
- RStudio Desktop. URL: https://posit.co/download/rstudio-desktop/