Переход от хранилища данных университета к озеру модели и методы обработки больших данных

Ермаков С.Г.; Халил М.М.; Хомоненко А.Д.; Гончаренко В.А.; Ходаковский В.А.; Абу Хасан Р.

Ермаков С.Г., Халил М.М., Хомоненко А.Д., Гончаренко В.А., Ходаковский В.А., Абу Хасан Р.

Дата поступления статьи: 19.10.2024

Университеты обладают фантастическим потенциалом для получения важнейших знаний, благодаря наличию огромных объемов данных. Статья посвящена переходу университетов от хранилищ данных к более гибким и масштабируемым озёрам данных для обработки больших данных. Рассматриваются ключевые различия и сходства хранилищ данных и озер данных, где хранилища ориентированы на структурированные данные и традиционную аналитику, а озера данных позволяют работать с сырыми и полуструктурированными данными, поддерживая гибкий ELT-подход (извлечение, преобразование, загрузка). Акцентируется внимание на вызовах, связанных с миграцией данных между этими архитектурами, включая вопросы безопасности, масштабируемости и затрат. Использование облачных решений и технологий, таких как Apache Hadoop и Spark, помогает снижать затраты и эффективно управлять большими данными. Приводятся примеры способов обработки данных с помощью машинного обучения и специализированных инструментов, что способствует лучшему пониманию процесса управления и анализа данных в университетских структурах.

Ключевые слова: хранилище данных, озеро данных, большие данные, облачное хранение, неструктурированные данные, полуструктурированные данные

1.2.2 - Математическое моделирование, численные методы и комплексы программ

2.3.6 - Методы и системы защиты информации, информационная безопасность

Переход от хранилища данных университета к озеру: модели и методы обработки больших данных