当前位置:网站首页 > 编程语言 > 正文

dbutils工具类(dateutils 工具类)



本文是 Databricks Utilities () 的參考。 公用程式可在 Python、R 和 Scala 筆記本中使用。 您可以使用公用程式來:

  • 有效率地使用檔案和物件儲存體。
  • 使用祕密。

如何:列出公用程式、 列出命令、顯示命令說明

公用程式:資料、fs、工作、程式庫、筆記本、祕密、小工具、公用程式 API 程式庫

若要列出可用的公用程式以及每個公用程式的簡短描述,請針對 Python 或 Scala 執行 。

此範例會列出 Databricks 公用程式可用的命令。

 
  
 
  
 
  

若要列出公用程式的可用命令以及每個命令的簡短描述,請在公用程式的程式設計名稱之後執行 。

此範例會列出 Databricks 檔案系統 (DBFS) 公用程式的可用命令。

 
  
 
  
 
  
 
  

若要顯示命令的說明,請在命令名稱後面執行 。

例如,會顯示 DBFS 複製命令的說明。

 
  
 
  
 
  
 
  

命令:summarize

資料公用程式可讓您了解及解譯資料集。 若要列出所有可用的命令,請執行 。

 
  

計算並顯示 Apache Spark DataFrame 或 pandas DataFrame 的摘要統計資料。 此命令適用於 Python、Scala 和 R。

此命令會分析 DataFrame 的完整內容。 針對非常大型的 DataFrame 執行此命令可能非常昂貴。

若要顯示此命令的說明,請執行 。

在 Databricks Runtime 10.4 LTS 和更新版本中,您可以使用其他 參數來調整計算統計資料的有效位數。

  • 當 設定為 false 時(預設值),某些傳回的統計資料會包含近似值,以減少執行時間。
    • 類別資料行的相異值數目對於高基數資料行可能有 ~5% 的相對錯誤。
    • 當相異值的數目大於 10,000 時,頻繁的值計數可能會有最多 0.01% 的錯誤。
    • 長條圖和百分位數估計值可能相對於資料列總數的誤差高達 0.01%。
  • 當 設定為 true 時,統計資料會以較高的精確度計算。 除了數值資料行的長條圖和百分位數之外,所有統計資料現在都是確切的。
    • 長條圖和百分位數估計值可能相對於資料列總數的誤差高達 0.0001%。

資料摘要輸出頂端的工具提示表示目前執行的模式。

此範例會顯示預設啟用近似值之 Apache Spark DataFrame 的摘要統計資料。 若要查看結果,請在筆記本中執行此命令。 此範例是以範例資料集為基礎。

Python

 
  

R

 
  

Scala

 
  

請注意,視覺效果會使用 SI 標記法來精簡呈現小於 0.01 或大於 10,000 的數值。 例如,數值 會轉譯為。 其中一個例外:視覺效果會針對 (giga) 使用 「」而不是「」。

命令:cp、head、ls、mkdirs、mount、mounts、mv、put、refreshMounts、rm、unmount、updateMount

檔案系統公用程式可讓您存取什麼是 DBFS?,讓您更輕鬆地使用 Azure Databricks 作為檔案系統。

在筆記本中,您也可以使用 magic命令來存取 DBFS。 例如, 與 相同。 請參閱 magic 命令。

若要列出所有可用的命令,請執行 。

 
  

跨檔案系統複製檔案或目錄。

若要顯示此命令的說明,請執行 。

本範例會將名為 的檔案 複製到相同磁碟區中的 。

Python

 
  

R

 
  

Scala

 
  

傳回指定檔案的指定最大位元組數。 位元組會以 UTF-8 編碼字串的形式傳回。

若要顯示此命令的說明,請執行 。

這個範例會顯示位於 中的檔案 前 25 個位元組。

Python

 
  

R

 
  

Scala

 
  

列出目錄內容。

若要顯示此命令的說明,請執行 。

此範例會顯示 的內容相關資訊。 欄位在 Databricks Runtime 10.4 LTS 和更新版本中可用。 在 R 中, 會以字串的形式傳回。

Python

 
  

R

 
  

Scala

 
  

如果指定目錄不存在,則建立該目錄。 也建立任何必要的父系目錄。

若要顯示此命令的說明,請執行 。

這個範例會在 中建立 目錄。

Python

 
  

R

 
  

Scala

 
  

將指定的來源目錄掛接至指定的掛接點上的 DBFS。

若要顯示此命令的說明,請執行 。

Python

 
  

Scala

 
  

如需其他程式碼範例,請參閱連線至 Azure Data Lake Storage Gen2 和 Blob 儲存體。

顯示 DBFS 中目前掛接之專案的相關資訊。

若要顯示此命令的說明,請執行 。

Python

 
  

Scala

 
  

如需其他程式碼範例,請參閱連線至 Azure Data Lake Storage Gen2 和 Blob 儲存體。

移動檔案或目錄,可能跨檔案系統移動。 即使是檔案系統內的移動,移動也是複製後刪除。

若要顯示此命令的說明,請執行 。

這個範例會將名稱為 的檔案從 移至。

Python

 
  

R

 
  

Scala

 
  

將指定的字串寫入檔案。 字串為 UTF-8 編碼。

若要顯示此命令的說明,請執行 。

這個範例會將 字串寫入 中名為 的檔案。 若此檔案已存在,系統會覆寫該檔案。

Python

 
  

R

 
  

Scala

 
  

強制叢集中的所有機器重新整理其裝載快取,確保它們會收到最新的資訊。

若要顯示此命令的說明,請執行 。

Python

 
  

Scala

 
  

如需額外程式碼範例,請參閱連線至 Azure Data Lake Storage Gen2 和 Blob 儲存體。

拿掉檔案或目錄,並選用地移除其所有內容。 如果指定檔案,則會忽略遞迴參數。 如果指定了目錄,如果停用遞迴,而且目錄不是空的,就會發生錯誤。

若要顯示此命令的說明,請執行 。

此範例會移除目錄 ,包括目錄的內容。

Python

 
  

R

 
  

Scala

 
  

刪除 DBFS 掛接點。

若要顯示此命令的說明,請執行 。

 
  

如需其他程式碼範例,請參閱連線至 Azure Data Lake Storage Gen2 和 Blob 儲存體。

類似於 命令,但會更新現有的掛接點,而不是建立新的掛接點。 若屬性不存在,會傳回錯誤。

若要顯示此命令的說明,請執行 。

此命令在 Databricks Runtime 10.4 LTS 和更新版本中可用。

Python

 
  

Scala

 
  

子公用程式:taskValues

工作公用程式可讓您利用工作功能。 若要顯示此公用程式的說明,請執行。

 
  

命令:get、set

提供運用工作工作值的命令。

使用此子公用程式,在工作執行期間設定和取得任意值。 這些值稱為工作值。 您可以在相同工作執行中存取下游工作中的工作值。 例如,您可以在工作執行內的不同工作之間傳達識別碼或計量,例如機器學習模型評估的相關資訊。 每個工作都可以設定多個工作值、取得這些值或兩者。 每個工作值在相同的工作中都有唯一索引鍵。 這個唯一索引鍵稱為工作值的索引鍵。 工作值是使用工作名稱和工作值索引鍵來存取。

若要顯示此子使用量的說明,請執行。

get 命令 (dbutils.jobs.taskValues.get)

取得目前工作執行中指定工作之指定工作值的內容。

若要顯示此命令的說明,請執行 。

例如:

 
  

在前述範例中:

  • 是設定工作值的工作名稱。 如果指令找不到此工作,則會引發 。
  • 是您使用 set 命令 (dbutils.jobs.taskValues.set) 設定之工作值索引鍵的名稱。 如果命令找不到此工作值的索引鍵,則會引發 (除非指定了 )。
  • 如果找不到 ,則會傳回選用值 。 不可以是 。
  • 是選用值,如果您嘗試從在工作外部執行的筆記本內取得工作值,則會傳回這個值。 當您想要手動執行筆記本並傳回某些值,而不是預設引發 時,這在偵錯期間很有用。 不可以是 。

如果您試著從在工作外部執行的筆記本中取得工作值,此命令預設會引發 。 不過,如果在命令中指定 引數,則會傳回 的值,而不是引發 。

set 命令 (dbutils.jobs.taskValues.set)

設定或更新工作值。 您可以為工作執行設定最多 250 個工作值。

若要顯示此命令的說明,請執行 。

這些範例包含:

 
  

在上述範例中:

  • 是工作值的索引鍵。 此索引鍵對工作而言必須是唯一的。 也就是說,如果兩個不同的工作各自設定一個具有索引鍵 的工作值,這就是兩個具有相同索引鍵 的不同工作值。
  • 是此工作值索引鍵的值。 此命令必須能夠以 JSON 格式在內部表示值。 值的 JSON 表示大小不能超過 48 KiB。

如果您嘗試從在工作外部執行的筆記本中設定工作值,此命令不會執行任何動作。

子模組中的大部分方法已被取代。 請參閱程式庫公用程式 (dbutils.library) (legacy)。

您可能需要以程序設計方式重新啟動 Azure Databricks 上的 Python 程序,以確保本機安裝或升級的程式庫在 Python 核心中正常運作,以取得目前的 SparkSession。 若要這麼做,請執行 命令。 請參閱在 Azure Databricks 上重新啟動 Python 程序。

命令:exit、run

Notebook 公用程式可讓您將筆記本鏈結在一起,並對其結果採取行動。 請參閱從另一個筆記本執行 Databricks 筆記本。

若要列出所有可用的命令,請執行 。

 
  

以一個值退出筆記本。

若要顯示此命令的說明,請執行 。

此範例會以值 結束筆記本。

Python

 
  

R

 
  

Scala

 
  

執行筆記本並傳回其結束值。 筆記本預設會在目前的叢集中執行。

若要顯示此命令的說明,請執行 。

此範例會在與呼叫筆記本相同的位置執行名為 的筆記本。 呼叫的 Notebook 結尾是程式碼行 。 如果呼叫的筆記本未在 60 秒內完成執行,則會擲回例外。

Python

 
  

Scala

 
  

命令:get、getBytes、list、listScopes

祕密公用程式可讓您儲存和存取敏感性認證資訊,而不會在筆記本中顯示它們。 請參閱祕密管理和使用筆記本中的祕密。 若要列出所有可用的命令,請執行 。

 
  

取得指定祕密範圍和索引鍵之祕密值的字串表示。

若要顯示此命令的說明,請執行 。

這個範例會取得名為 範圍之祕密值的字串表示,以及名為 的索引鍵。

Python

 
  

R

 
  

Scala

 
  

取得指定範圍和索引鍵之祕密值的位元組表示。

若要顯示此命令的說明,請執行 。

這個範例會取得名為 的範圍和名為 之索引鍵的位元組表示法(在此範例中為 )。

Python

 
  

R

 
  

Scala

 
  

列出指定範圍內祕密的中繼資料。

若要顯示此命令的說明,請執行 。

此範例會列出名為 之範圍內祕密的中繼資料。

Python

 
  

R

 
  

Scala

 
  

列出可用的範圍。

若要顯示此命令的說明,請執行 。

此範例會列出可用的範圍。

Python

 
  

R

 
  

Scala

 
  

命令:combobox、dropdown、get、getArgument、multiselect、remove、removeAll、text

Widgets 公用程式可讓您將筆記本參數化。 請參閱 Databricks 小工具。

若要列出所有可用的命令,請執行 。

 
  

使用指定的程式設計名稱、預設值、選項和選用標籤,建立並顯示下拉式方塊小工具。

若要顯示此命令的說明,請執行 。

此範例會建立並顯示具有程式設計名稱 的下拉式方塊小工具。 它提供選項 、、 和 ,且會設定為 的初始值。 此下拉式方塊小工具具有隨附的標籤。 此範例會以列印下拉式方塊小工具 的初始值結束。

Python

 
  

R

 
  

Scala

 
  

SQL

 
  

使用指定的程式設計名稱、預設值、選項和選用標籤,建立並顯示下拉式清單小工具。

若要顯示此命令的說明,請執行 。

此範例會建立並顯示具有程式設計名稱 的下拉式小工具。 它提供選項 、、 和 ,且會設定為 的初始值。 這個下拉式清單小工具具有隨附的標籤。 此範例的結尾是列印下拉式小工具 的初始值。

Python

 
  

R

 
  

Scala

 
  

SQL

 
  

取得具有指定程式設計名稱之小工具的目前值。 這個程式設計名稱可以是:

  • 筆記本中的自訂小工具名稱,例如 或。
  • 做為筆記本工作的一部分傳遞至筆記本的自訂參數名稱,例如 或。 如需詳細資訊,請參閱工作 UI 中筆記本工作的參數涵蓋範圍,或工作 API 中觸發新工作執行 () 工作中的 欄位。

若要顯示此命令的說明,請執行 。

此範例會取得具有程式設計名稱 的小工具值。

Python

 
  

R

 
  

Scala

 
  

SQL

 
  

這個範例會取得具有程式設計名稱 的筆記本工作參數值。 當相關的筆記本工作執行時,此參數已設定為 。

Python

 
  

R

 
  

Scala

 
  

SQL

 
  

取得所有目前小工具名稱和值的對應。 這對於快速將小工具值傳遞至 查詢特別有用。

此命令在 Databricks Runtime 13.3 LTS 和更新版本中可用。 它僅適用於 Python 和 Scala。

若要顯示此命令的說明,請執行 。

此範例會取得小工具值的對應,並將其當做Spark SQL查詢中的參數引數傳遞。

Python

 
  

Scala

 
  

取得具有指定程式設計名稱之小工具的目前值。 如果小工具不存在,則可以傳回選用訊息。

若要顯示此命令的說明,請執行 。

此範例會取得具有程式設計名稱 的小工具值。 如果這個小工具不存在,則會傳回訊息 。

Python

 
  

R

 
  

Scala

 
  

使用指定的程式設計名稱、預設值、選項和選用標籤,建立並顯示多重選取小工具。

若要顯示此命令的說明,請執行 。

此範例會建立並顯示具有程序設計名稱 的多選小工具。 它會透過 提供選項 ,並將設定為 的初始值。 這個多重選取小工具具有隨附的標籤。 此範例的結尾是列印多重選取小工具 的初始值。

Python

 
  

R

 
  

Scala

 
  

SQL

 
  

移除具有指定程式設計名稱的小工具。

若要顯示此命令的說明,請執行 。

此範例會移除具有程式設計名稱 的小工具。

Python

 
  

R

 
  

Scala

 
  

SQL

 
  

從筆記本中移除所有小工具。

若要顯示此命令的說明,請執行 。

此範例會從筆記本中移除所有小工具。

Python

 
  

R

 
  

Scala

 
  

使用指定的程式設計名稱、預設值和選用標籤,建立並顯示文字小工具。

若要顯示此命令的說明,請執行 。

此範例會建立並顯示具有程序設計名稱 的文字小工具。 它設定為 的初始值。 這個文字小工具具有隨附的標籤 。 此範例的結尾是列印文字小工具 的初始值。

Python

 
  

R

 
  

Scala

 
  

SQL

 
  

若要加速應用程式開發,在將應用程式部署為生產工作之前,先編譯、建置及測試應用程式會很有用。 為了讓您能夠針對 Databricks 公用程式進行編譯,Databricks 會提供 程式庫。 您可以從 Maven 存放庫網站上的 DBUtils API 網頁下載 程式庫,或藉由將相依性新增至組建檔案來包含程式庫:

  • SBT
     
  • Maven
     
  • Gradle (英文)
     

將 取代 為所需的目標(例如 ),並以 所需的版本取代 (例如 )。 如需可用目標和版本的清單,請參閱 Maven 存放庫網站上的 DBUtils API 網頁。

一旦您針對此程式庫建置應用程式,您就可以部署應用程式。

在執行程式內部呼叫 可能會產生非預期的結果或可能導致錯誤。

如果您需要使用 在執行程式上執行檔案系統作業,有數個更快速且更具擴充性的替代方案可供使用:

  • 針對檔案複製或移動作業,您可以檢查平行處理檔案系統作業中所述執行檔案系統作業的更快速選項。
  • 對於檔案系統的列出和刪除作業,您可以參考如何在 Databricks 中更快地列出和刪除檔案中利用 Spark 的平行列出和刪除方法。

如需執行程式的相關資訊,請參閱 Apache Spark 網站上的叢集模式概觀。

到此这篇dbutils工具类(dateutils 工具类)的文章就介绍到这了,更多相关内容请继续浏览下面的相关 推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • win7虚拟机镜像文件下载后打不开(win7虚拟机镜像文件下载后打不开怎么办)2025-06-22 16:45:08
  • 程序员入门技巧视频(程序员快速入门)2025-06-22 16:45:08
  • bt151和bt136的区别(bt136与bt138区别)2025-06-22 16:45:08
  • 二级域名解析到一级域名(二级域名解析到一级域名需要多久)2025-06-22 16:45:08
  • 定位打开了无法获取位置图片(定位打开了无法获取位置图片信息)2025-06-22 16:45:08
  • spss25永久许可证代码(spss27永久许可证代码)2025-06-22 16:45:08
  • 密码库(密码库查询)2025-06-22 16:45:08
  • 操作系统基本操作有哪些(操作系统的操作有哪些)2025-06-22 16:45:08
  • 字体图标什么意思(字体图标是什么)2025-06-22 16:45:08
  • ew是什么意思的缩写(ewm是什么的缩写)2025-06-22 16:45:08
  • 全屏图片