Google 宣布用戶可在 Kubernetes 上執行 Cloud Dataproc,也就是說,現在使用者可以利用 GKE 叢集執行 Apache Spark 工作負載,而這項更新將為企業簡化管理基礎設施的複雜性。
Cloud Dataproc 是 Google 雲端上全託管的 Apache Hadoop 與 Spark 服務,Google 提到,資料科學家可以使用 Cloud Dataproc 大規模地分析資料或是訓練模型,不過隨著企業基礎架構變得複雜,許多問題慢慢產生,像是部分機器可能處於閒置,但是某個工作負載叢集可能持續擴大,而開源軟體與函式庫也隨著時間過時且與堆疊不相容。
為了解決這些問題,Google 現在讓 Cloud Dataproc 得以在 K8s 上運作,並為其提供了一個控制平臺,讓企業可以同時在公有雲和企業內環境,部署與管理在 GKE 上的 Apache Spark 工作負載。使用 Cloud Dataproc 的新功能,用戶就能以統一的集中檢視工具,跨 K8s 和 YARN 兩個叢集管理系統,操作混合工作負載。
而且新功能還隔離了開源軟體,消除傳統大資料技術對版本以及函式庫的相依性,讓使用者可以將模型和新的 ETL 工作管線,從開發階段直接轉移到生產階段,而不需要考量相容性,Google 提到,使用 K8s 這樣的敏捷基礎架構,讓開源軟體升級更簡單。
Apache Spark 是第一個放到 K8s 上 Cloud Dataproc 的開源資料處理引擎,而這項工作還會繼續擴及更多的開源專案,Google 提到,Cloud Dataproc 搬遷到 K8s 上,改變了他們將 Cloud Dataproc 和開源軟體作為託管服務的方式,他們會持續與其他開源社群合作,並為更多的開源專案啟用 K8s 上執行 Cloud Dataproc 功能。