亚洲AV成人午夜一区二区,777奇米视频一区二区三区

發(fā)布人：TensorFlow 團(tuán)隊(duì)的 Mathieu Guillame-Bert 和 Josh Gordon

隨機(jī)森林和梯度提升樹這類的決策森林模型通常是處理表格數(shù)據(jù)最有效的可用工具。與神經(jīng)網(wǎng)絡(luò)相比，決策森林具有更多優(yōu)勢，如配置過程更輕松、訓(xùn)練速度更快等。使用樹可大幅減少準(zhǔn)備數(shù)據(jù)集所需的代碼量，因?yàn)檫@些樹本身就可以處理數(shù)字、分類和缺失的特征。此外，這些樹通常還可提供開箱即用的良好結(jié)果，并具有可解釋的屬性。

盡管我們通常將 TensorFlow 視為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的內(nèi)容庫，但 Google 的一個(gè)常見用例是使用 TensorFlow 創(chuàng)建決策森林。

對數(shù)據(jù)開展分類的決策樹動(dòng)畫

如果您曾使用 2019 年推出的 tf.estimator.BoostedTrees 創(chuàng)建基于樹的模型，您可參考本文所提供的指南進(jìn)行遷移。雖然 Estimator API 基本可以應(yīng)對在生產(chǎn)環(huán)境中使用模型的復(fù)雜性，包括分布式訓(xùn)練和序列化，但是我們不建議您將其用于新代碼。

如果您要開始一個(gè)新項(xiàng)目，我們建議您使用 TensorFlow 決策森林 (TF-DF)。該內(nèi)容庫可為訓(xùn)練、服務(wù)和解讀決策森林模型提供最先進(jìn)的算法，相較于先前的方法更具優(yōu)勢，特別是在質(zhì)量、速度和易用性方面表現(xiàn)尤為出色。

首先，讓我們來比較一下使用 Estimator API 和 TF-DF 創(chuàng)建提升樹模型的等效示例。

以下是使用 tf.estimator.BoostedTrees 訓(xùn)練梯度提升樹模型的舊方法（不再推薦使用）

import tensorflow as tf

# Dataset generators
def make_dataset_fn(dataset_path):
    def make_dataset():
        data = ... # read dataset
        return tf.data.Dataset.from_tensor_slices(...data...).repeat(10).batch(64)
    return make_dataset

# List the possible values for the feature "f_2".
f_2_dictionary = ["NA", "red", "blue", "green"]

# The feature columns define the input features of the model.
feature_columns = [
    tf.feature_column.numeric_column("f_1"),
    tf.feature_column.indicator_column(
       tf.feature_column.categorical_column_with_vocabulary_list("f_2",
         f_2_dictionary,
         # A special value "missing" is used to represent missing values.
         default_value=0)
       ),
    ]

# Configure the estimator
estimator = boosted_trees.BoostedTreesClassifier(
          n_trees=1000,
          feature_columns=feature_columns,
          n_classes=3,
          # Rule of thumb proposed in the BoostedTreesClassifier documentation.
          n_batches_per_layer=max(2, int(len(train_df) / 2 / FLAGS.batch_size)),
      )

# Stop the training is the validation loss stop decreasing.
early_stopping_hook = early_stopping.stop_if_no_decrease_hook(
      estimator,
      metric_name="loss",
      max_steps_without_decrease=100,
      min_steps=50)

tf.estimator.train_and_evaluate(
      estimator,
      train_spec=tf.estimator.TrainSpec(
          make_dataset_fn(train_path),
          hooks=[
              # Early stopping needs a CheckpointSaverHook.
              tf.train.CheckpointSaverHook(
                  checkpoint_dir=input_config.raw.temp_dir, save_steps=500),
              early_stopping_hook,
          ]),
      eval_spec=tf.estimator.EvalSpec(make_dataset_fn(valid_path)))

使用 TensorFlow 決策森林訓(xùn)練相同的模型

import tensorflow_decision_forests as tfdf

# Load the datasets
# This code is similar to the estimator.
def make_dataset(dataset_path):
    data = ... # read dataset
    return tf.data.Dataset.from_tensor_slices(...data...).batch(64)

train_dataset = make_dataset(train_path)
valid_dataset = make_dataset(valid_path)

# List the input features of the model.
features = [
  tfdf.keras.FeatureUsage("f_1", keras.FeatureSemantic.NUMERICAL),
  tfdf.keras.FeatureUsage("f_2", keras.FeatureSemantic.CATEGORICAL),
]

model = tfdf.keras.GradientBoostedTreesModel(
  task = tfdf.keras.Task.CLASSIFICATION,
  num_trees=1000,
  features=features,
  exclude_non_specified_features=True)

model.fit(train_dataset, valid_dataset)

# Export the model to a SavedModel.
model.save("project/model")

附注

雖然在此示例中沒有明確說明，但 TensorFlow 決策森林可自動(dòng)啟用和配置早停。
可自動(dòng)構(gòu)建和優(yōu)化“f_2”特征字典（例如，將稀有值合并到一個(gè)未登錄詞項(xiàng)目中）。
可從數(shù)據(jù)集中自動(dòng)確定類別數(shù)（本例中為 3 個(gè)）。
批次大小（本例中為 64）對模型訓(xùn)練沒有影響。以較大值為宜，因?yàn)檫@可以增加讀取數(shù)據(jù)集的效率。

TF-DF 的亮點(diǎn)就在于簡單易用，我們還可進(jìn)一步簡化和完善上述示例，如下所示。

如何訓(xùn)練 TensorFlow 決策森林（推薦解決方案）

import tensorflow_decision_forests as tfdf
import pandas as pd

# Pandas dataset can be used easily with pd_dataframe_to_tf_dataset.
train_df = pd.read_csv("project/train.csv")

# Convert the Pandas dataframe into a TensorFlow dataset.
train_ds = tfdf.keras.pd_dataframe_to_tf_dataset(train_df, label="my_label")

model = tfdf.keras.GradientBoostedTreeModel(num_trees=1000)
model.fit(train_dataset)

附注

我們未指定特征的語義（例如數(shù)字或分類）。在這種情況下，系統(tǒng)將自動(dòng)推斷語義。
我們也沒有列出要使用的輸入特征。在這種情況下，系統(tǒng)將使用所有列（標(biāo)簽除外）。可在訓(xùn)練日志中查看輸入特征的列表和語義，或通過模型檢查器 API 查看。
我們沒有指定任何驗(yàn)證數(shù)據(jù)集。每個(gè)算法都可以從訓(xùn)練樣本中提取一個(gè)驗(yàn)證數(shù)據(jù)集作為算法的最佳選擇。例如，默認(rèn)情況下，如果未提供驗(yàn)證數(shù)據(jù)集，則 GradientBoostedTreeModel 將使用 10% 的訓(xùn)練數(shù)據(jù)進(jìn)行驗(yàn)證。

下面我們將介紹 Estimator API 和 TF-DF 的一些區(qū)別。

Estimator API 和 TF-DF 的區(qū)別

算法類型

TF-DF 是決策森林算法的集合，包括（但不限于）Estimator API 提供的梯度提升樹。請注意，TF-DF 還支持隨機(jī)森林（非常適用于干擾數(shù)據(jù)集）和 CART 實(shí)現(xiàn)（非常適用于解讀模型）。

此外，對于每個(gè)算法，TF-DF 都包含許多在文獻(xiàn)資料中發(fā)現(xiàn)并經(jīng)過實(shí)驗(yàn)驗(yàn)證的變體 [1, 2, 3]。

精確與近似分塊的對比

TF1 GBT Estimator 是一種近似的樹學(xué)習(xí)算法。非正式情況下，Estimator 通過僅考慮樣本的隨機(jī)子集和每個(gè)步驟條件的隨機(jī)子集來構(gòu)建樹。

默認(rèn)情況下，TF-DF 是一種精確的樹訓(xùn)練算法。非正式情況下，TF-DF 會(huì)考慮所有訓(xùn)練樣本和每個(gè)步驟的所有可能分塊。這是一種更常見且通常表現(xiàn)更佳的解決方案。

雖然對于較大的數(shù)據(jù)集（具有百億數(shù)量級(jí)以上的“樣本和特征”數(shù)組）而言，有時(shí) Estimator 的速度更快，但其近似值通常不太準(zhǔn)確（因?yàn)樾枰N植更多樹才能達(dá)到相同的質(zhì)量）。而對于小型數(shù)據(jù)集（所含的“樣本和特征”數(shù)組數(shù)目不足一億）而言，使用 Estimator 實(shí)現(xiàn)近似訓(xùn)練形式的速度甚至可能比精確訓(xùn)練更慢。

TF-DF 還支持不同類型的“近似”樹訓(xùn)練。我們建議您使用精確訓(xùn)練法，并選擇使用大型數(shù)據(jù)集測試近似訓(xùn)練。

推理

Estimator 使用自上而下的樹路由算法運(yùn)行模型推理。TF-DF 使用 QuickScorer 算法的擴(kuò)展程序。

雖然兩種算法返回的結(jié)果完全相同，但自上而下的算法效率較低，因?yàn)檫@種算法的計(jì)算量會(huì)超出分支預(yù)測并導(dǎo)致緩存未命中。對于同一模型，TF-DF 的推理速度通?？商嵘?10 倍。

TF-DF 可為延遲關(guān)鍵應(yīng)用程序提供 C++ API。其推理時(shí)間約為每核心每樣本 1 微秒。與 TF SavedModel 推理相比，這通?？蓪⑺俣忍嵘?50 至 1000 倍（對小型批次的效果更佳）。

多頭模型

Estimator 支持多頭模型（即輸出多種預(yù)測的模型）。目前，TF-DF 無法直接支持多頭模型，但是借助 Keras Functional API，TF-DF 可以將多個(gè)并行訓(xùn)練的 TF-DF 模型組成一個(gè)多頭模型。

了解詳情

您可以訪問此網(wǎng)址，詳細(xì)了解 TensorFlow 決策森林。

如果您是首次接觸該內(nèi)容庫，我們建議您從初學(xué)者示例開始。經(jīng)驗(yàn)豐富的 TensorFlow 用戶可以訪問此指南，詳細(xì)了解有關(guān)在 TensorFlow 中使用決策森林和神經(jīng)網(wǎng)絡(luò)的區(qū)別要點(diǎn)，包括如何配置訓(xùn)練流水線和關(guān)于數(shù)據(jù)集 I/O 的提示。

您還可以仔細(xì)閱讀從Estimator 遷移到 Keras API，了解如何從 Estimator 遷移到 Keras。

原文標(biāo)題：如何從提升樹 Estimator 遷移到 TensorFlow 決策森林

文章出處：【微信公眾號(hào)：谷歌開發(fā)者】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴