全部產品

Simple Log Service：Logtail限制說明

更新時間：Oct 25, 2024

本文簡介Logtail採集資料時在運行環境、檔案採集、容器採集、CheckPoint管理、Logtail採集配置、機器組、效能、錯誤處理等方面的限制。

運行環境

限制項	限制說明
體繫結構	Linux Logtail版本支援x86_64和arm64。 Windows Logtail版本支援x86_32和x86_64。
記憶體	負載為空白時，不開啟外掛程式最少需要20 MB記憶體，開啟外掛程式最少需要120 MB記憶體。實際使用量與採集速率、監控目錄和檔案數量、發送阻塞程度有關。
系統內容	Linux Kernel 2.6.32及以上版本。 glibc 2.5及以上版本。 Windows Server 2004及以上版本。
Kubernetes	使用DaemonSet方式採集日誌時，要求Kubernetes為1.10.0及以上版本（支援Mount propagation: HostToContainer）。使用CRD方式（alibaba-log-controller組件）採集日誌時，要求Kubernetes為1.16.0及以上版本。 Kubernetes 1.7.0及以上版本提供的apiextensions.k8s.io/v1beta1 API也支援CRD能力，但Beta版本的API穩定性取決於具體的Kubernetes版本，穩定性未知。
Docker	採集容器標準輸出的限制說明如下：必須在Docker的設定檔daemon.json中添加`"log-driver": "json-file"`。如果是Centos 7.4及以上版本（除Centos 8.0以外），需設定`fs.may_detach_mounts=1`。更多資訊，請參見Bug 1468249、Bug 1441737和issue 34538。
ACK logtail-ds組件	logtail-ds：每個節點至少預留0.1 Core CPU，256 MB記憶體。 alibaba-log-controller：每個節點至少預留0.05 Core CPU，100 MB記憶體。重要以上組件均為system-cluster-critical優先順序，叢集資源不足時請勿部署，否則可能驅逐節點上原有的Pod。

檔案採集

限制項	限制說明
單條日誌長度	預設限制為512 KB。您可通過啟動參數max_read_buffer_size進行調整，最大不能超過8 MB。具體操作，請參見設定Logtail啟動參數。多行日誌按行首Regex劃分後，每條日誌大小限制仍為512 KB。如果日誌超過512 KB，會被強制拆分為多條進行採集。例如：單條日誌大小為1025 KB，則第一次處理512 KB，第二次處理512 KB，第三次處理1 KB，最終採集結果為多條不完整的日誌。
檔案編碼	支援UTF-8或GBK的編碼記錄檔，建議使用UTF-8編碼獲得更好的處理效能。警告如果記錄檔為其它編碼格式則會出現亂碼、資料丟失等問題。
記錄檔大小	無限制。
記錄檔輪轉	日誌輪轉隊列大小預設為20。您可通過啟動參數logreader_max_rotate_queue_size進行調整。具體操作，請參見設定Logtail啟動參數。支援設定採集路徑為`xxx.log`或`xxx.log*`形式。重要同一個Logtail執行個體中請勿混用兩種形式，否則可能導致同一檔案匹配多個Logtail採集配置，出現重複採集。如果未處理完成的檔案超過20個，將導致新產生的日誌丟失。此類情況，請優先排查Logstore Shard寫入Quota是否超限，並調整Logtail並發水平。具體操作，請推薦參數值。
日誌解析阻塞時採集行為	日誌解析阻塞時，Logtail會保持該記錄檔描述符為開啟狀態，避免阻塞期間檔案被刪除，導致日誌丟失。如果解析阻塞期間出現多次記錄檔輪轉，Logtail會將檔案放入輪轉隊列。
Regex	支援Perl相容Regex。
JSON	完全支援標準JSON（RFC7159、ECMA-404）。不支援非標準JSON，例如`{"name": "\xE5\xAD\xA6"}`。
同一檔案對應多個Logtail配置	預設一個檔案只能匹配一個Logtail採集配置。如果檔案中的日誌需要被採集多份，請參見如何?檔案中的日誌被採集多份。重要採集多份時，檔案讀取的IO、計算資源和網路IO都會線性增加。
檔案開啟行為	Logtail會保持被採集的檔案和輪轉隊列中待採集的檔案處於開啟狀態，以保證採集資料完整性。出現以下情況，會關閉檔案。檔案超過5分鐘未被修改。發生輪轉且採集完畢。 Logtail採集配置發生變更。如果無論檔案是否採集完成或仍有日誌寫入檔案，您都希望檔案在刪除後的可控時間內釋放檔案控制代碼，則您可通過啟動參數force_release_deleted_file_fd_timeout設定逾時時間。具體操作，請參見設定Logtail啟動參數。
首次日誌採集行為	Logtail只採集增量的記錄檔。首次發現檔案被修改後，如果檔案大小超過1 MB（容器標準輸出為512 KB），則從最後1 MB處開始採集，否則從開始位置採集。您可通過Logtail採集配置中的tail_size_kb參數調整新檔案首次採集的大小。具體操作，請參見Logtail配置。如果下發Logtail採集配置後，記錄檔一直無修改，則Logtail不會採集該檔案。如果需要採集歷史檔案，請參見匯入歷史記錄檔。
檔案發生覆蓋的行為	Logtail採用inode+檔案中前1024位元組的Hash識別檔案。檔案被覆蓋後，如果inode或檔案前1024位元組Hash發生變化，則檔案會作為新檔案從頭開始採集，否則不會被採集。
檔案發生移動的行為	檔案發生移動後，如果匹配Logtail採集配置，且該Logtail採集配置之前從未匹配過該檔案，則移動後的文檔將被當成新檔案從頭開始採集，否則不會被採集。
檔案採集歷史	Logtail會在記憶體中保留檔案採集歷史進度，保證檔案發生變化後僅採集增量部分，超過保留範圍的日誌如果發生寫入，會導致重複採集。預設最多保留1個月內的歷史檔案。如果同一目錄下歷史檔案超過5,000個時，僅保留最近1周的記錄。如果同一目錄下歷史檔案超過10,000個時，僅保留1天內的記錄。
非標準文本日誌	對於日誌中包含\0的行，該條日誌會被截斷到第一個\0處，之後部分丟棄。對於其他逸出字元（如ASCII顏色）或不可見字元，Logtail將按原樣上報。

容器採集

說明

通過Logtail採集容器日誌時，除上述檔案採集的限制項外，還存在如下限制項。

限制項	限制說明
首次日誌採集行為	如果採集的是容器標準輸出，則首次發現檔案修改後，預設如果檔案大小超過512 KB，則從最後512 KB處開始採集，否則從頭採集。您可通過Logtail採集配置中的StartLogMaxOffset參數調整。具體操作，請參見通過DaemonSet-控制台方式採集容器標準輸出。
軟連結	採集容器檔案中的日誌時，不支援目錄及檔案的軟串連。
容器生命週期	預設情況下，容器生命週期至少在10秒以上，Logtail才能採集到日誌。在容器檔案採集情境下，出於效能因素，Logtail將限制3分鐘內容器更新次數為10次。您可通過啟動參數docker_config_update_interval和max_docker_config_update_times進行調整。具體操作，請設定Logtail啟動參數。
標準輸出日誌輪轉	容器的標準輸出檔案由docker或kubelet進行輪轉，kubelet記錄檔輪轉預設大小為10 MB（docker日誌輪轉在ACK上被設定為100 MB），如果容器每秒輸出標準輸出的速率大於10 MB/s，將導致檔案快速輪轉，建議改用容器檔案方式採集或修改kubelet的containerLogMaxSize參數以避免日誌丟失。
標準輸出日誌驅動	如果使用Docker作為容器運行時，必須在Docker的設定檔daemon.json中添加`"log-driver": "json-file"`。

CheckPoint管理

限制項	限制說明
CheckPoint逾時時間	預設情況下，如果檔案超過30天未被修改，該Checkpoint將被刪除。如果在Logtail採集配置中設定了`preserve:false`，則檔案超過30分鐘未被修改，該Checkpoint將被刪除。
CheckPoint儲存策略	定期儲存（15分鐘），程式退出時會自動儲存。您可以通過啟動參數check_point_dump_interval進行調整。具體操作，請參見設定Logtail啟動參數。
CheckPoint儲存位置	儲存路徑預設為`/tmp/logtail_checkpoint`。您可以通過啟動參數check_point_filename進行調整。具體操作，請參見設定Logtail啟動參數。
宕機時的處理	由於CheckPoint是定期儲存，因此宕機恢複時將從上一個完整儲存的CheckPoint開始恢複，可能導致資料擷取重複。調整Checkpoint儲存策略以減少資料被重複採集。

Logtail採集配置

限制項	限制說明
配置更新生效的延時	從通過控制台或API更新配置到Logtail用戶端配置生效的延時約為30秒。
配置動態載入	支援，且其中某一配置更新不影響其他配置。
單個Logtail執行個體的總體可載入配置數	理論上無限制。建議一台伺服器中的Logtail採集配置數不超過100個。
第三方Flusher輸出	通過Log Service控制台或者API建立的配置會與Logstore建立關聯，因此，當您在外掛程式配置中使用第三方Flusher時，Logtail會預設往當前Logstore發送一份資料。
多帳號、跨帳號	支援。更多資訊，請參見多帳號情境和通過Logtail跨阿里雲帳號採集容器日誌。
多地區	預設不支援，如有需求請提工單申請。
Global Acceleration	支援。需在服務側開啟後，在用戶端設定Global Acceleration。更多資訊，請參見開啟Global Acceleration服務。

機器組

限制項	限制說明
機器數量	理論上無限制，建議配置不超過100,000個，否則心跳無法正常擷取。
應用配置數	理論上無限制，建議配置數不超過1,000個。

效能

限制項	限制說明
Tlog吞吐能力	原始日誌流量預設限制為20 MB/s（資料被編碼壓縮後上傳，一般壓縮率為5~10倍）。超過該日誌流量則有可能丟失日誌，您可啟動參數max_bytes_per_sec進行調整。具體操作，請參見設定Logtail啟動參數。
最大效能	單核的能力如下：極簡模式日誌最大處理能力為100 MB/s。正則預設最大處理能力為20 MB/s（與Regex的複雜度有關）。分隔字元日誌最大處理能力為40 MB/s。 JSON日誌最大處理能力為30 MB/s。通過啟動參數process_thread_count設定多個處理線程，可提升1.5~3倍效能。
最大監控目錄及檔案數	與記憶體使用量限制參數mem_usage_limit有關（主機情境預設為384 MB，容器情境預設為2048 MB），分為以下四個層級：最大監控目錄總數：⌊mem_usage_limit/100⌋×5000（目錄不包含Logtail採集配置中指定的目錄黑名單）。最大監控目錄和檔案總數：⌊mem_usage_limit/100⌋×50000（目錄不包含Logtail採集配置中指定的目錄黑名單，檔案包含未被Logtail採集配置匹配的檔案）。單個採集配置監控目錄和檔案總數：⌊mem_usage_limit/100⌋×5000（目錄不包含Logtail採集配置中指定的目錄黑名單，檔案包含未被Logtail採集配置匹配的檔案）。單個目錄中被監控的子目錄和檔案總數：⌊mem_usage_limit/100⌋×5000（目錄包含Logtail採集配置中指定的目錄黑名單，檔案包含未被Logtail採集配置匹配的檔案）。當上述任一層級所監控的目錄及檔案數達到上限時，Logtail不再對該層級中剩餘的目錄和檔案進行監控。您可以通過提高Logtail採集配置監控目錄的精度或調整啟動參數mem_usage_limit來提高監控上限。關於mem_usage_limit參數的更多資訊，請參見設定Logtail啟動參數。另外，針對Linux系統，Logtail還支援通過inotify機制對目錄進行監聽，從而減少日誌採集的延時。inotify機制所能監控的最大目錄數（含子目錄）為3000。
資源超限處理策略	如果Logtail佔用相關資源超過最大限制的時間5分鐘，則Logtail會強制重啟，此時資料可能會丟失或重複。
多租戶隔離	Logtail在配置層級實現隔離，即單個Logtail採集配置出現異常不影響其他Logtail採集配置。
日誌採集延遲	正常情況下從日誌寫入磁碟到Logtail採集到日誌的延遲不超過1秒。
日誌上傳策略	Logtail會將同一檔案的日誌自動彙總上傳，彙總條件為日誌超過4000條、日誌總大小超過512 KB或者日誌採集時間超過3秒。任一條件滿足則觸發上傳行為

錯誤處理

限制項	限制說明
網路錯誤處理	在出現網路異常時會主動重試並自動調整稍候再試。在極端情況下，可能存在日誌重複採集或丟棄的風險：用戶端發出的包被服務端接收，而服務端回應的包未能在15秒內被用戶端接收時，用戶端的重試將導致資料的重複採集。網路鏈路異常導致用戶端收到的包損壞，連續產生5次錯誤，最終導致資料被丟棄。
資源配額超限處理	如果資料發送速率超出Logstore最大配額，Logtail會阻塞採集並自動重試。請嘗試擴大Logstore的Shard數量。
用戶端時間異常	可能因為請求時間和服務端時間差別超過15分鐘，導致最大重試5次仍然不成功，資料被丟棄。請修正用戶端機器時間。
Project或Logstore不存在	重試5次仍然不成功後丟棄資料。這種情況可能是因為您通過API刪除了Logstore。請通過API刪除對應Logtail採集配置和配置應用。
鑒權失敗	重試5次仍然不成功後丟棄資料。這種情況通常有2種可能。在Logtail剛啟動時出現，與網路不穩定，無法獲得鑒權有關。如果持續出現，與機器無法通過HTTPS協議與Log ServiceEndpoint建立串連獲得鑒權有關。
其他未知錯誤	重試5次仍然不成功後丟棄資料。
逾時最大嘗試時間	如果資料持續發送失敗超過6小時，該資料將被丟棄。
狀態自檢	支援異常情況下自動重啟，例如程式異常退出及使用資源超限等。