MLlib | Apache Spark - Spark 繁體中文

MLlib 是 Apache Spark 的可擴充機器學習函式庫。

易於使用

可用於 Java、Scala、Python 和 R。

MLlib 符合 Spark 的 API，並與 Python 中的 NumPy（Spark 0.9 起）和 R 函式庫（Spark 1.5 起）互通。您可以使用任何 Hadoop 資料來源（例如 HDFS、HBase 或本地檔案），輕鬆插入 Hadoop 工作流程。

data = spark.read.format("libsvm")\
.load("hdfs://...")

model = KMeans(k=10).fit(data)

在 Python 中呼叫 MLlib

高品質演算法，比 MapReduce 快 100 倍。

Spark 擅長反覆運算，讓 MLlib 能夠快速執行。同時，我們重視演算法效能：MLlib 包含利用反覆運算的高品質演算法，而且能產生比 MapReduce 有時使用的單次近似更好的結果。

Hadoop 和 Spark 中的邏輯迴歸

Spark 可在 Hadoop、Apache Mesos、Kubernetes、獨立或雲端上執行，針對不同的資料來源。

您可以使用獨立叢集模式、EC2、Hadoop YARN、Mesos 或 Kubernetes 來執行 Spark。存取 HDFS、Apache Cassandra、Apache HBase、Apache Hive 和數百個其他資料來源中的資料。

MLlib 包含許多演算法和實用程式。

ML 演算法包括

ML 工作流程實用程式包括

其他實用程式包括

參閱 MLlib 指南以取得使用範例。

MLlib 是作為 Apache Spark 專案的一部分開發的。因此，它會在每次 Spark 發行時進行測試和更新。

如果您對此函式庫有任何疑問，請在 Spark 郵件清單中詢問。

MLlib 仍是一個快速成長的專案，並歡迎貢獻。如果您想提交演算法至 MLlib，請閱讀如何貢獻 Spark 並寄送補丁給我們！

要開始使用 MLlib