Big Data: Spark, Hadoop, MongoDB

Компания ООО «Студия С» специализируется на внедрении, оптимизации и настройке кластеров, созданных на основе Hadoop, улучшении их рабочих характеристик, масштабируемости, а также повышении степени надежности. Наши инженеры и архитекторы ПО накопили огромный опыт в создании надежных распределенных систем с высокой степенью масштабируемости, способных хранить, обрабатывать и анализировать громадные объемы структурированных и неструктурированных данных.

Hadoop позволяет осуществлять параллельную обработку громадных объемов информации (масштаба петабайтов) в больших кластерах. Hadoop является одной из основных технологий для данной сферы деятельности. Hadoop интенсивно используется как лидерами отрасли (Orbitz, Chevron или eBay), так и небольшими организациями, работающими в различных сферах деятельности: электронной коммерции, энергетике, сетевой безопасности, здравоохранении и т.д.

ПРОГРАММНЫЕ РЕШЕНИЯ С ИСПОЛЬЗОВАНИЕМ HADOOP

ООО «Студия С» специализируется на внедрении, настройке и оптимизации кластеров на базе Hadoop для повышения производительности, масштабируемости и надежности. Специалисты компании ООО «Студия С» по NoSQL и работе с большими объемами данных способны поддерживать широкий спектр начинаний и проектов, включая:

  • Настройку недорогого хранилища данных с высокой степенью масштабируемости, работающего на платформе HBase, установленной на Hadoop (для обеспечения доступа к хранилищам данных Hadoop по методам баз данных или для транзакционных приложений высокого уровня), включая процессы миграции ETL.
  • Внедрение Hadoop Hive, инфраструктуры хранилища данных, непосредственно поверх Hadoop или в сочетании с HBase (если от конечной системы требуется небольшое время задержки отклика) для аналитических операций.
  • Внедрение специализированных процессов обработки MapReduce (с использованием Pig, Java, Python или R).
  • Внедрение мощной поисковой системы, создаваемой на основе сочетания Lucene/SOLR и Hadoop (мы накопили немалый опыт в использовании Lucene для морфологического анализа, обработки сложных слов и т.д.).
  • Внедрение систем интеллектуального анализа данных для хранилища информации на основе Hadoop, с использованием открытых программных инструментов, например, Pentaho или JasperReports.
  • Внедрение Mahout поверх Hadoop для обучаемых систем или систем сбора и анализа информации (к примеру, рекомендательные и классификационные сервисы).
  • Обработку больших объемов графических данных пригодится решение на основе Titan, транзакционной базы данных с высокой степенью масштабируемости, способной использовать HBase в качестве сервера хранилища данных.

ООО «Студия С» работает совместно с компанией Arenadata, которая обладает значительным опытом и экспертизой в области хранения и анализа данных. Их команда создала универсальную платформу с открытым исходным кодом для хранения и анализа данных - Arenadata Unified Data Platform - и распределенную базу данных с использованием принципа MPP (массивно-параллельной обработки) - Arenadata DB (ADB). Этот кластер основан на проверенной базе данных Greenplum и может использоваться в качестве ядра корпоративного хранилища данных. Технологии Hadoop являются неотъемлемой частью экосистемы Arenadata, при этом вся поддержка и непосредственно экспертиза доступна на русском языке. Кастомизация проверенных решений на базе технологического стека Hadoop помогает ускорить завершение проектов и снижает затраты для клиентов First Line. Arenadata обеспечивает полную техническую поддержку и несет ответственность за обновление платформы и базы данных с любыми изменениями в Hadoop.

Программные решения с использованием MongoDB

MongoDB – это открытая база данных типа NoSQL, разработанная с учетом требований в крайне высокой производительности и бесконечной масштабируемости. Платформа MongoDB поддерживает документоориентированную модель данных, динамическую схему, полноценное индексирование, сверхбыстрое обновление с замещением, функциональные динамические запросы, встроенные функции сегментирования и автоматического восстановления после сбоя, а также GridFS и MapReduce.

MongoDB идеально подходит для реализации проектов, подразумевающих работу с очень большими объемами данных и/или высокие требования к масштабируемости, высокую производительность даже в тех случаях, когда информация слишком сложна и разнородна для моделирования с использованием реляционной схемы, или существует необходимость выполнения анализа в реальном времени.