Databricks:データ分析プラットフォームのユニコーン企業(2023年12月27日更新)
INDEX
チャレンジャーベースではトミオによるキャリア面談を随時実施しています。転職相談はもちろん、今直ぐ転職を考えていなくても大丈夫。日系&外資IT業界に関するお話など大歓迎です!学長トミオとお話ししませんか?こちらのフォームからお申し込みください!
こんにちは!チャレンジャーズアカデミー教育実習生(インターン)のREOです!
さて、今回は「Databricks」の企業研究です。過去の企業研究では、いわゆるSaaS製品を主に取り扱っている企業を紹介してきましたが、今回のDatabricksはPaaS(Platform as a Service)企業になります。簡単にいうと、さまざまな形式のデータを素早く処理し、分析、機械学習を行うことができるプラットフォームを提供しています。詳しく説明するには専門用語など難しい言葉を必要としますが、なるだけわかりやすく説明できるように頑張ります!
それでは、Databricksについて詳しくみていきましょう!
チャレンジャーベース的おすすめポイント
- その領域に携わるプロフェッショナルにとって、Databricksは大人気の企業でおすすめです!
- Databricksはまだ非上場で、評価額が高く、その中で株式がもらえるのは嬉しい!
サマリー
アメリカ本社
- 設立年:2013年
- 従業員数:5000 – 10000人
- 業種・事業内容:レイクハウスプラットフォームの開発・提供
- 所在地:160 Spear Street 15th Floor San Francisco, CA 94105
- 公式ウェブサイト:https://www.databricks.com/
- Wikipedia:https://en.wikipedia.org/wiki/Databricks
- 上場・非上場情報:非上場
- 資金調達の状況や過去のラウンド:Series H(2023)
- 出資者:BlackRock, Capital G, Microsoft, Salesforceなど
日本法人
- 設立年:2020年
- 所在地:東京都港区六本木1丁目4-5 アークヒルズサウスタワー16階
- 公式ウェブサイト:https://www.databricks.com/jp
- Wikipedia:https://ja.wikipedia.org/wiki/データブリックス
事業内容・創業経緯
事業内容
データエンジニアリング、データサイエンス、データ分析のためのオープンなレイクハウスプラットフォームの開発・提供
創業経緯
同社は、Apache Sparkの開発に携わっていたカリフォルニア大学バークレー校のプロジェクトから生まれました。創業者の中にはApache Sparkの生みの親であるマテイ・ザハリア氏や、カリフォルニア大学バークレー校の教授達が名を連ねています。
*Apache Sparkとは、世界中で利用されている、データ処理を多数のコンピューターに分散して並列に行わせるオープンソースのソフトウェアのこと。
企業のミッション
Databricks is on a mission to simplify and democratize data and AI, helping data teams solve the world’s toughest problems.(出典:https://www.databricks.com/company/about-us)
同社は製品を通じて、データとAIを簡単かつ民主化し、データチームが世界の難問を解決することを助けることをミッションとしています。
製品情報・導入事例
製品情報
レイクハウスプラットフォーム
レイクハウスプラットフォームを理解するためにデータレイクとデータウェアハウスについて見てみましょう。
- データウェアハウス: 異なるソースから集められたデータを、前もって整理・加工され、一元的に保存されているデータサーバーです。構造化データ(Excelなどのように行と列をもつデータ)のみが保存されます。BIやレポート作成に向いており、最近のAI活用など高速で多様なデータの大規模処理には向いていません。
- データレイク: 大量のデータをそのままの形(生データ)保管するシステムのことを指します。データは前処理されずに必要に応じて利用者が適切な形式に変換して使用します。ここでは、構造化データに加えてセンサーのログデータや、音声や画像など構造化されてないデータをそのままの形で保存することができます。しかしデータ品質の保証や、トランザクションのサポートなど重要な機能が欠けており、活用ができないデータが大量に溜まる状態になりがちです。
データレイクハウスは、これらの2つのコンセプトの良い部分を組み合わせた、データアーキテクチャです。データウェアハウスのようにデータを整理・管理し、データレイクのようにあらゆる種類のデータをその原形のまま保存できます。これにより、高速なデータ検索と複雑な分析を可能にするデータウェアハウスとデータレイクのフレキシビリティが一つにまとまり、企業のデータ活用やAI開発に大きなインパクトを与えることができます。このデータアーキテクチャと分析プラットフォームをレイクハウスプラットフォームとして、提供しています。
まとめると、「データ収集、前処理、分析、AI開発などを一貫して行うことができる」製品です。
こちらの記事にわかりやすく、詳しくまとめてあるので、見てみましょう。
参照:
https://www.databricks.com/jp/glossary/data-lakehouse
https://www.databricks.com/jp/blog/2020/01/30/what-is-a-data-lakehouse.html
https://www.macrometa.com/event-stream-processing/databricks-vs-snowflake
導入事例
横河電機株式会社
同社が、databricks社のレイクハウス・プラットフォームを導入する前は、以下のような課題がありました。
- 業務で生じたさまざまなデータを分析できる統合的な活用基盤が欲しい
- 社内に分散したデータを統合するデータパイプラインを構築したい
- データ分析に関わる作業を標準化し、データを扱える人材を徐々に増やしていきたい
導入後は、以下のような効果がありました。
- データ取り込み、前処理、分析、可視化などが可能な オールインワンの環境が実現
- データのリアルタイムなダイレクト処理が可能に、データの民主化を実現
- BIツールを使った分析の前段階での手作業による処理が 不要に、工数が大幅に削減
導入を決めた理由は、以下の理由だそうです。
- Jupyter Notebook(データ分析で有名なツール)に似た形式でデータ分析ができる
- クラウド上で稼働させることができ、運用も容易
- 使い始めるのが簡単で、スケールアウトが容易
- Databricks社がオープンソース開発において、確固たる実績と信頼性がある
導入前は、データ取り込みから可視化までの各フェーズで様々なツールを必要としており、複雑かつコストがかかっていました。しかし、それらをレイクハウス・プラットフォームを導入することによって全てのプロセスが一元化され、社内に分散していたデータ基盤を統合し、活用できる基盤ができたそうです。また、先ほど説明したレイクハウスの特徴である、様々な形のデータを一元に取り扱える特徴を活かし、開発プロセスで生じた開発管理データ、リリース済み製品の品質管理デー タ、SaaSの利用ログなど、さまざまなデータ形式のデータについて分析を行うことができるようになりました。さらに、社内の技術者が慣れ親しんだ環境で、かつデータにアクセスしやすい環境で開発を続けることができる点も、良かったそうです。
参考:https://www.databricks.com/sites/default/files/2023-06/customer-story-yokogawa-ja-jp.pdf