10 ведущих компаний по обработке данных

2022-07-24

Термин «компания данных», безусловно, широк. Он может легко включать в себя гигантские социальные сети, такие как Meta. Компания обладает, пожалуй, одним из самых ценных наборов данных в мире, который включает около 2,94 миллиарда активных пользователей в месяц (MAU). В Meta также работают многие из лучших специалистов по данным со всего мира.

Но для целей данной статьи этот термин будет более узким. Основное внимание будет уделено тем операторам, которые создают платформы и инструменты для использования данных — одной из самых важных технологий на предприятиях в наши дни.

Но даже в этой категории по-прежнему много компаний. Например, если вы выполните поиск аналитики данных на G2, вы увидите результаты для более чем 2200 продуктов.

Так что, когда мы составим список лучших компаний, работающих с данными, он будет, ну, несовершенным. Несмотря на это, есть компании, которые действительно находятся в своей собственной лиге, от известных имен до быстрорастущих стартапов, публично торгуемых и частных. Давайте посмотрим на 10 из них.

Блоки данных

В 2012 году группа ученых из Калифорнийского университета в Беркли создала проект с открытым исходным кодом Apache Spark. Цель состояла в том, чтобы разработать распределенную систему для данных по кластеру машин.

С самого начала проект набирал обороты, поскольку существовал огромный спрос на сложные приложения, такие как глубокое обучение. Затем основатели проекта создали компанию Databricks.

Платформа сочетает в себе хранилище данных и озера данных, которые изначально находятся в облаке. Это позволяет использовать гораздо более мощные приложения для аналитики и искусственного интеллекта. Есть более 7000 платных клиентов, таких как H&M Group, Regeneron и Shell. Прошлым летом ARR (годовой регулярный доход) достиг 600 миллионов долларов.

Примерно в то же время Databricks привлекла 1,6 миллиарда долларов в рамках финансирования серии H, а оценка была установлена на уровне ошеломляющих 38 миллиардов долларов. Среди инвесторов были Андреессен Горовиц, Франклин Темплтон и T. Rowe Price Associates. В какой-то момент ожидается IPO, но даже до текущего падения акций технологических компаний компания, похоже, не торопилась тестировать публичные рынки.

Мы включили Databricks в наши списки лучших решений для озер данных, лучших инструментов DataOps и лучших продуктов для хранения больших данных.

САС

SAS (Система статистического анализа), долгое время являвшаяся частной компанией, является одним из пионеров в области анализа данных. Истоки компании на самом деле восходят к 1966 году в Университете штата Северная Каролина. Профессора создали программу, которая выполняла статистические функции, используя мейнфрейм IBM System/360. Но когда государственное финансирование иссякнет, SAS станет компанией.

Это был, безусловно, хороший ход. SAS станет золотым стандартом для анализа данных. Его платформа позволяет использовать искусственный интеллект, машинное обучение, прогнозную аналитику, управление рисками, качество данных и управление мошенничеством.

В настоящее время у компании 80 800 клиентов, в том числе 88 из 100 лучших в списке Fortune 500. В компании работает 11 764 человека, а выручка в прошлом году достигла 3,2 миллиарда долларов.

SAS — одна из крупнейших в мире частных компаний-разработчиков программного обеспечения. Прошлым летом SAS вела переговоры о продаже Broadcom за 15−20 миллиардов долларов. Но соучредители решили остаться независимыми и, несмотря на то, что они оставались частными с момента основания компании в 1976 году, планируют IPO к 2024 году.

Никого не должно удивлять, что SAS попала в наш список лучших продуктов для анализа данных.

Снежинка

Snowflake, которая управляет облачной платформой данных, провела крупнейшее IPO для компании-разработчика программного обеспечения в конце 2020 года. Она привлекла колоссальные 3,4 миллиарда долларов. Цена размещения составляла 120 долларов, а в первый день торгов она выросла до 254 долларов, в результате чего рыночная стоимость превысила 70 миллиардов долларов. Неплохо для компании, которой было около восьми лет.

Акции Snowflake в конечном итоге превысят 350 долларов. Но, конечно, с падением акций технологических компаний цена акций компании также окажется под сильным давлением. Несколько недель назад он достиг минимума в 110 долларов.

Несмотря на все это, Snowflake продолжает стремительно расти. В последнем квартале компания сообщила о росте выручки на 85% до 422,4 млн долларов, а чистый коэффициент удержания составил впечатляющие 174%. Клиентская база, которая насчитывала более 6300 человек, состояла из 206 компаний, договорившихся о мощностях, которые за последние 12 месяцев принесли более 1 миллиона долларов дохода от продукции.

Snowflake начиналась как хранилище данных. Но с тех пор компания расширила свои предложения, включив озера данных, кибербезопасность, совместную работу и приложения для обработки данных. Snowflake также перемещается в локальное хранилище, например, для запросов к системам, совместимым с S3, без перемещения данных.

Снежинка на самом деле находится на ранних стадиях возможности. Согласно последней презентации для инвесторов, общий адресный рынок составляет около 248 миллиардов долларов.

Как и Databricks, Snowflake попал в наши списки лучших инструментов Data Lake, DataOps и Big Data Storage.

Splunk

Компания Splunk, основанная в 2003 году, является пионером в сборе и анализе больших объемов данных, сгенерированных машиной. Это позволяет создавать очень полезные отчеты и информационные панели.

Ключом к успеху Splunk является его динамичная экосистема, в которую входят более 2400 партнеров. Существует также рынок с более чем 2400 приложений.

Большая часть внимания Splunk была сосредоточена на кибербезопасности. Используя анализ журнала в режиме реального времени, компания может обнаруживать выбросы или необычные действия.

Тем не менее, платформа Splunk продемонстрировала успех во многих других категориях. Например, эта технология помогает при миграции в облако, модернизации приложений и модернизации ИТ.

В марте Splunk объявил о назначении нового генерального директора Гэри Стила. До этого он был генеральным директором Proofpoint, быстрорастущей компании, занимающейся облачной безопасностью.

О первом отчете о доходах Стил сказал: «Splunk — это система учета, которая глубоко укоренилась в бизнесе клиентов и обеспечивает основу для безопасности и отказоустойчивости, чтобы они могли внедрять инновации быстро и гибко. Все это превратилось в огромную, неиспользованную, уникальную возможность, благодаря которой, я считаю, мы можем обеспечить долгосрочный устойчивый рост, постепенно увеличивая операционную маржу и денежный поток».

Клаудера

Хотя в облаке происходят постоянные изменения, реальность такова, что многие крупные предприятия по-прежнему имеют значительные локальные следы. Ключевой причиной этого является соответствие. Необходимо иметь гораздо больший контроль над данными из-за требований конфиденциальности.

Но есть и другие области, где фрагментация данных неизбежна. Это касается периферийных устройств и потоковой передачи от третьих лиц и партнеров.

Для Cloudera — еще одного из наших лучших решений для озера данных — компания создала платформу, предназначенную для стратегии гибридных данных. Это означает, что клиенты могут в полной мере использовать свои данные везде.

Хольгер Мюллер из Constellation Research высоко оценивает доверие Cloudera к технологии Apache Iceberg с открытым исходным кодом для Cloudera Data Platform.

«Открытый исходный код является ключевым, когда речь идет о большинстве предложений „инфраструктура как услуга“ и „платформа как услуга“, поэтому Cloudera решила использовать Apache Iceberg», — сказал Мюллер. «Cloudera могла пойти по проприетарному пути, но использование Iceberg — это тройная победа. Прежде всего, это выигрыш для клиентов, которые могут хранить свои очень большие аналитические таблицы в стандартном формате с открытым исходным кодом, имея при этом доступ к ним на стандартном языке. Это также выигрыш для Cloudera, поскольку он предоставляет ключевую функцию в ускоренном режиме, поддерживая стандарт с открытым исходным кодом. Наконец, это победа Apache, поскольку он получает поддержку другого поставщика».

В прошлом году Cloudera сообщила о доходах более 1 миллиарда долларов. Среди тысяч клиентов компании более 400 правительств, десять ведущих мировых телекоммуникационных компаний и девять из десяти ведущих компаний здравоохранения.

Читайте также: Лучшее программное обеспечение для искусственного интеллекта (ИИ) на 2022 год

MongoDB

Основатели MongoDB были не из индустрии баз данных. Вместо этого они были пионерами рекламных сетей в Интернете. Команда, в которую входили Дуайт Мерриман, Элиот Хоровиц и Кевин Райан, создала DoubleClick, который был запущен в 1996 году. По мере быстрого роста компании им пришлось создавать свои собственные хранилища данных, и они поняли, что традиционные реляционные базы данных не подходят для этой работы.

Нужен был новый тип подхода, который бы масштабировался и позволял быстро внедрять инновации. Поэтому, когда они покинули DoubleClick после продажи компании Google за 3,1 миллиарда долларов, они занялись разработкой собственной системы баз данных. Он был основан на модели с открытым исходным кодом, что позволяло быстро распространяться.

Базовая технология основывалась на модели документов и называлась NoSQL. Это предоставило разработчикам более гибкий способ кодирования своих приложений. Он также был оптимизирован для огромных транзакционных рабочих нагрузок.

С тех пор база данных MongoDB была загружена более 265 миллионов раз. Компания также добавила функции, необходимые предприятиям, такие как высокая производительность и безопасность.

В последнем квартале выручка достигла 285,4 млн долларов, что на 57% больше по сравнению с прошлым годом. Клиентов более 33 000 человек.

Чтобы поддерживать рост, MongoDB стремится отобрать долю рынка у традиционных игроков, таких как Oracle, IBM и Microsoft. С этой целью компания создала Relational Migrator. Он визуально анализирует реляционные схемы и преобразует их в базы данных NoSQL.

Сливающийся

Когда инженеры Джей Крепс, Джун Рао и Неха Нархеде работали в LinkedIn, у них были трудности с созданием инфраструктуры, способной обрабатывать данные в режиме реального времени. Они оценивали готовые решения, но ничего не подходило для работы.

Поэтому инженеры LinkedIn создали собственную программную платформу. Он назывался Apache Kafka и имел открытый исходный код. Программное обеспечение позволяло передавать данные с высокой пропускной способностью и малой задержкой.

С самого начала Apache Kafka был популярен. В 2014 году инженеры LinkedIn увидели возможность построить компанию на основе этой технологии. Они назвали ее Confluent.

Стратегия с открытым исходным кодом, безусловно, была верной. Более 70% компаний из списка Fortune 500 используют Apache Kafka.

Но Confluent также умело создал процветающую экосистему разработчиков. По всему миру насчитывается более 60 000 участников встреч. В результате разработчики за пределами Confluent продолжают создавать коннекторы, новые функции и исправления.

В последнем квартале Confluent сообщила о росте выручки на 64% до 126 миллионов долларов. Также был 791 клиент с $100 000 или более ARR (годовой регулярный доход), что на 41% больше по сравнению с прошлым годом.

Датадог

Компания Datadog, основанная в 2010 году, начинала как оператор единой платформы данных в режиме реального времени. Но это, конечно, не было последним из его новых приложений.

Компания была новатором и довольно успешно внедряла свои технологии. Другие категории, которые ввел Datadog, включают мониторинг инфраструктуры, мониторинг производительности приложений, анализ журналов, мониторинг взаимодействия с пользователем и безопасность. В результате компания стала одним из ведущих игроков на быстрорастущем рынке наблюдаемости.

Программное обеспечение Datadog предназначено не только для крупных предприятий. На самом деле, это доступно для компаний любого размера.

Таким образом, неудивительно, что Datadog очень быстро растет. В последнем квартале выручка выросла на 83% до 363 миллионов долларов. Также было около 2250 клиентов с ARR на сумму более 100 000 долларов по сравнению с 1406 годом ранее.

Ключевым фактором успеха Datadog стало сосредоточение на разрушении хранилищ данных. Это означало гораздо большую видимость в организациях. Это также позволило улучшить ИИ.

Возможности для Datadog все еще находятся на ранней стадии. Согласно анализу Gartner, ожидается, что расходы на наблюдаемость увеличатся с 38 миллиардов долларов в 2021 году до 53 миллиардов долларов к 2025 году.

Ознакомьтесь с лучшими инструментами и платформами наблюдения

Фифтран

Традиционные инструменты интеграции данных полагаются на инструменты извлечения, преобразования и загрузки (ETL). Но этот подход действительно не справляется с современными проблемами, такими как разрастание облачных приложений и хранилищ.

Что делать? Что ж, предприниматели Джордж Фрейзер и Тейлор Браун стремились создать лучший способ. В 2013 году они стали соучредителями Fivetran и получили поддержку знаменитой программы Y Combinator.

Интересно, что изначально они создали инструмент для бизнес-аналитики (BI). Но они быстро поняли, что рынок ETL созрел для разрушения.

С точки зрения разработки продукта, основатели хотели значительно упростить конфигурацию. Цель заключалась в том, чтобы ускорить окупаемость аналитических проектов. Собственно, они и придумали концепцию нулевой настройки и сопровождения. Видение Fivetran состоит в том, чтобы сделать «бизнес-данные такими же доступными, как электричество».

В сентябре прошлого года Fivetran объявила о ошеломляющем раунде венчурного капитала в размере 565 миллионов долларов. Оценка была установлена на уровне 5,6 миллиарда долларов, а среди инвесторов были Andreessen Horowitz, General Catalyst, CEAS Investments и Matrix Partners.

Тектон

Кевин Штумпф и Майк Дель Бальсо познакомились в Uber в 2016 году и работали над ИИ-платформой компании, которая называлась Michelangelo ML. Эта технология позволила компании масштабировать производство тысяч моделей. Лишь некоторые из вариантов использования включали обнаружение мошенничества, прогнозирование прибытия и ценообразование в режиме реального времени.

Это было основано на первом магазине функций. Это позволило быстро развернуть функции машинного обучения, основанные на сложных структурах данных.

Однако эта технология по-прежнему зависела от большого штата инженеров по обработке данных и ученых. Другими словами, магазин функций предназначался в основном для крупных технологических операторов.

Но Штумпф и Дель Бальсо считали, что есть возможность демократизировать технологию. Это стало целью их стартапа Tecton, который они запустили в 2019 году.

Платформа прошла несколько итераций. В настоящее время это, по сути, платформа для управления полным жизненным циклом функций машинного обучения. Система обрабатывает возможности хранения, совместного использования и повторного использования хранилища функций. Это позволяет автоматизировать конвейеры для пакетных, потоковых данных и данных в реальном времени.

В июле Tecton объявила о раунде финансирования серии C на сумму 100 миллионов долларов. Ведущим инвестором был Кляйнер Перкинс. Также приняли участие Snowflake и Databricks.

Разработка сайта Донецк — DonbassWeb