xgboost中哪些特征可以歸一化?
短語參數的命名規則。現在xgboosts模塊。在這個模塊中,命名規則與skl:基本上用的是gbtr:多線程,如果沒有設置,算自動檢查并行計算的核心數量。
2.助推器參數
η(學習rat:學習率0.01-0.2。
min_chil:子節點的最低權重和。防止高的時候過貼,低的時候容易欠貼。
Max_d:損失閾值,當損失降低超過該閾值時,分割將繼續。
最大增量步長:在最大增量步長中,我們允許每個樹的權重估計為。
在subsampl:,當構建0.5-1中的每棵樹時,為了避免過擬合,只取一部分樣本進行構建。
colsampl:[0.5-1]特征采樣
Colsampl:L2正則化$T:L1正則項
秤_位置_重量
3.訓練參數
客觀二分類使用binary:logistic多分類使用multi:softmax直接返回標簽,也可以使用multi:softbob或predict_prob訓練后輸出類別的概率。
eval_metric:用它來評估。估計驗證數據:RMSE,平均誤差,對數損失,誤差,對數損失,auc。
4.XGBoost允許在每次boosting迭代中使用交叉驗證。因此,可以方便地獲得最佳的升壓迭代次數。而如果用sklearn的kfold和cross_val_score,這就是每個模型訓練只用一個固定數據,而不是每輪boosting都要交叉校驗。
5.關于特色工程
XGBOOST是樹的增強模型。由于樹的非線性特征,我們不不需要標準化(正態分布)或縮放(到01區間)特征。
或者拿log(這個存疑,我個人覺得拿log可能有用?),但我們應該關注的是創造特色。
比如過去五天的平均值,去年同期的數值,環比增加,同比增長。比如租房的場景,房租/臥室數量這些和業務非常相關的東西,其實是需要不斷摸索才能找到的。XGBOOSTcan不能幫助我們獲得這些特性。
與深度學習相比,深度學習本質上依賴于特殊的結構,如LSTM和CNN,來獲得適合于這項業務的特征。
那么分類功能在XGBOOST中并不是特別有用,如果相關性不是很大可以去掉。如果類別不多,比如只有個位數的類別,可以添加。如果類別很多,可以考慮使用CATBOOSTING或者LIGHTGBM。
采購員的崗位職責,英文版?
R:
進行戰略性采購
-協助團隊領導建立采購預算、商品策略和運營計劃。
-研究采購營銷,推薦新的潛在供應商支持買家
本地化協調
-負責本地化開發,并針對項目指導提供跨職能支持
-與采購/SDE/采購團隊合作跟蹤所有開發零件的過程,包括所有驗證階段
-與內部部門合作,協調和推進新的本地化流程
-本地化FAI跟蹤列表,推動新的本地化流程
產品視圖計算(面向項目)
-定期創建MLL零件清單,并用Fico數據更新采購價格