全部產品
Search
文件中心

Simple Log Service:Log Service採集資料常見的錯誤類型

更新時間:Jul 19, 2024

本文介紹Log Service採集資料常見的錯誤類型及對應的解決方案。

如果您遇到其他問題,請提交工單處理。

錯誤類型

錯誤說明

解決方案

LOG_GROUP_WAIT_TOO_LONG_ALARM

資料包從產生到發送的過程中等待的時間較長。

檢查發送是否正常,或者是否存在資料量超過預設配置、配額不足或者網路存在問題。

LOGFILE_PERMINSSION_ALARM

Logtail無許可權讀取指定檔案。

檢查伺服器Logtail的啟動帳號,建議以root方式啟動。

SPLIT_LOG_FAIL_ALARM

行首正則與日誌行首匹配失敗,無法對日誌做分行。

檢查行首正則正確性。

如果是單行日誌可以配置為.*

MULTI_CONFIG_MATCH_ALARM

預設情況下,一個檔案只能匹配一個Logtail配置。當多個Logtail配置匹配同一個檔案時,只會生效一個。

說明

Docker標準輸出可以被多個Logtail配置採集。

REGEX_MATCH_ALARM

完整正則模式下,日誌內容和Regex不匹配。

複製錯誤資訊中的日誌範例,並產生新的Regex。

PARSE_LOG_FAIL_ALARM

JSON、分隔字元等模式下,由於日誌格式不符合定義而解析失敗。

單擊錯誤資訊,查看失敗的詳細報錯。

CATEGORY_CONFIG_ALARM

Logtail採集配置不合法。

常見的錯誤為Regex提取檔案路徑作為Topic失敗,其它錯誤請提交工單

LOGTAIL_CRASH_ALARM

Logtail因超過伺服器資源使用上限而崩潰。

修改CPU、記憶體使用量上限。更多資訊,請參見設定Logtail啟動參數

REGISTER_INOTIFY_FAIL_ALARM

在Linux系統中註冊日誌監聽失敗,可能由於沒有檔案夾許可權或檔案夾被刪除。

檢查Logtail是否有許可權訪問該檔案夾,或者該檔案夾是否被刪除。

DISCARD_DATA_ALARM

配置Logtail使用的CPU資源不夠或網路發送流控。

修改CPU使用上限或網路發送並發限制。更多資訊,請參見設定Logtail啟動參數

SEND_DATA_FAIL_ALARM

  • 阿里雲帳號未建立AccessKey。

  • Logtail用戶端所在機器與Log Service無法連通或者網路鏈路品質較差。

  • Log Service端寫入配額不足。

  • 使用阿里雲帳號建立AccessKey。

  • 檢查本地設定檔/usr/local/ilogtail/ilogtail_config.json,執行curl <伺服器位址>,查看是否有內容返回。

  • 為Logstore增加Shard數量,以支援更巨量資料量的寫入。

REGISTER_INOTIFY_FAIL_ALARM

Logtail為日誌目錄註冊的inotify watcher失敗。

檢查目錄是否存在以及目錄使用權限設定。

SEND_QUOTA_EXCEED_ALARM

日誌寫入流量超出限制。

在控制台上增加Shard數量。更多資訊,請參見分裂Shard

READ_LOG_DELAY_ALARM

日誌採集進度落後於日誌產生進度,一般是由於配置Logtail使用的CPU資源不夠或是網路發送流控導致。

修改CPU使用上限或網路發送並發限制。更多資訊,請參見設定Logtail啟動參數

在匯入歷史資料時,短時間內會採集大量資料,因此出現該錯誤可暫時忽略。

DROP_LOG_ALARM

日誌採集進度落後於日誌產生進度,且未處理的日誌輪轉超過20個,一般是由於配置Logtail使用的CPU資源不夠或是網路發送流控導致。

修改CPU使用上限或網路發送並發限制。更多資訊,請參見設定Logtail啟動參數

LOGDIR_PERMINSSION_ALARM

沒有日誌監控目錄讀取許可權。

檢查日誌監控目錄是否存在。如果存在,請檢查目錄使用權限設定。

ENCODING_CONVERT_ALARM

編碼轉換失敗。

檢查日誌編碼格式配置是否與日誌編碼格式一致。

OUTDATED_LOG_ALARM

到期的日誌,日誌時間落後超過12小時。可能原因:

  • 日誌解析進度落後超過12小時。

  • 使用者自訂時間欄位配置錯誤。

  • 日誌記錄程式時間輸出異常。

  • 查看是否存在READ_LOG_DELAY_ALARM。

    如果存在,按照READ_LOG_DELAY_ALARM處理方式解決;如果不存在,請檢查時間欄位配置。

  • 檢查時間欄位配置。如果時間欄位配置正確,請檢查日誌記錄程式時間輸出是否正常。

STAT_LIMIT_ALARM

日誌採集配置目錄中的檔案數超限。

檢查採集的目標目錄下是否有較多的檔案和子目錄,合理設定監控的根目錄和目錄最大監控深度。

您也可以修改mem_usage_limit參數。更多資訊,請參見設定Logtail啟動參數

DROP_DATA_ALARM

進程退出時日誌落盤到本地逾時,此時會丟棄未落盤完成的日誌。

該報錯通常為採集嚴重阻塞導致。您可以修改CPU使用上限或網路發送並發限制。更多資訊,請參見設定Logtail啟動參數

INPUT_COLLECT_ALARM

輸入源採集異常。

根據錯誤提示處理。

HTTP_LOAD_ADDRESS_ALARM

HTTP資料擷取配置中,設定的Addresses不合法。

檢查Addresses合法性。

HTTP_COLLECT_ALARM

HTTP資料擷取異常。

根據錯誤提示排查,一般由於逾時導致。

FILTER_INIT_ALARM

過濾器初始化異常。

一般由於過濾器的Regex非法導致,請根據提示修複。

INPUT_CANAL_ALARM

MySQL Binlog運行異常。

根據錯誤提示排查。

在配置更新時,canal服務可能重啟,服務重啟的錯誤可以忽略。

CANAL_INVALID_ALARM

MySQL Binlog內部狀態異常。

此錯誤一般由於運行時表的schema資訊變更導致meta不一致。請確認報錯期間是否修改過表的schema。其他情況,請提交工單

MYSQL_INIT_ALARM

MySQL初始化異常。

根據錯誤提示處理。

MYSQL_CHECKPOING_ALARM

MySQL Checkpoint格式異常。

確認是否修改該配置中的Checkpoint相關配置。其他情況,請提交工單

MYSQL_TIMEOUT_ALARM

MySQL查詢逾時。

確認MySQL伺服器和網路是否異常。

MYSQL_PARSE_ALARM

MySQL查詢結果解析失敗。

確認MySQL配置的Checkpoint格式是否匹配對應欄位的格式。

AGGREGATOR_ADD_ALARM

向隊列中添加資料失敗。

由於資料發送過快。如果真實資料量很大,則可忽略。

ANCHOR_FIND_ALARM

processor_anchor外掛程式錯誤、配置錯誤或存在不符合配置的日誌。

單擊錯誤查看詳細報錯,報錯根據內容分為如下類型。請根據詳細報錯中的資訊,檢查相應的配置是否存在問題。

  • anchor cannot find key:配置中指定了SourceKey但日誌中不存在對應的欄位。

  • anchor no start:無法從SourceKey的值中找到Start對應的內容。

  • anchor no stop:無法從SourceKey的值中找到Stop對應的內容。

ANCHOR_JSON_ALARM

processor_anchor外掛程式錯誤,對已配置的StartStop所確定的內容執行JSON展開時發生錯誤。

單擊錯誤查看詳細報錯,檢查所處理的內容以及相關的配置,確定是否有配置錯誤或不合法日誌。

CANAL_RUNTIME_ALARM

Binlog外掛程式執行階段錯誤。

單擊錯誤查看詳細報錯,根據錯誤資訊進行進一步地排查。一般情況下,該錯誤與所串連的MySQL master相關。

CHECKPOINT_INVALID_ALARM

Checkpoint解析失敗。

單擊錯誤查看詳細報錯,根據其中的檢查點鍵、檢查點內容(前1024個位元組)以及具體的錯誤資訊進行進一步排查。

DIR_EXCEED_LIMIT_ALARM

Logtail同時監聽的目錄數超出限制。

檢查當前Logstore的採集配置以及該Logtail上應用的其他配置是否會包含較多的目錄數,合理設定監控的根目錄和目錄最大監控深度。

DOCKER_FILE_MAPPING_ALARM

執行Logtail命令添加Docker檔案對應失敗。

單擊錯誤查看詳細報錯,根據其中的命令以及具體的錯誤資訊進行進一步排查。

DOCKER_FILE_MATCH_ALARM

無法在Docker容器中尋找到指定檔案。

單擊錯誤查看詳細報錯,根據其中的容器資訊以及尋找的檔案路徑進行進一步排查。

DOCKER_REGEX_COMPILE_ALARM

service_docker_stdout外掛程式錯誤,根據配置中的BeginLineRegex編譯失敗。

單擊錯誤查看詳細報錯,檢查其中的Regex是否正確。

DOCKER_STDOUT_INIT_ALARM

service_docker_stdout外掛程式初始化失敗。

單擊錯誤查看詳細報錯,報錯根據內容分為如下類型。

  • host...version...error:檢查配置中指定的Docker Engine是否可訪問。

  • load checkpoint error:載入檢查點失敗,如無影響可忽略此錯誤。

  • container...:指定容器存在非法Label值,目前僅允許配置stdout和stderr。請結合詳細錯誤進行檢查。

DOCKER_STDOUT_START_ALARM

service_docker_stdout外掛程式採集時,stdout大小超過限制。

一般由於首次採集時stdout已存在,可忽略。

DOCKER_STDOUT_STAT_ALARM

service_docker_stdout外掛程式無法檢測到stdout。

一般由於容器退出時無法訪問到stdout,可忽略。

FILE_READER_EXCEED_ALARM

Logtail同時開啟的檔案對象數量超過限制。

一般由於當前處於採集狀態的檔案數過多,請檢查採集配置是否合理。

GEOIP_ALARM

processor_geoip外掛程式錯誤。

單擊錯誤查看詳細報錯,報錯根據內容分為如下類型。

  • invalid ip...:擷取IP地址失敗,請檢查配置中的SourceKey是否正確或是否存在不合法日誌。

  • parse ip...:根據IP位址解析城市失敗,請查看詳細錯誤資訊進行排查。

  • cannot find key...:無法從日誌中查看到指定的SourceKey,請檢查配置是否正確或是否存在不合法日誌。

HTTP_INIT_ALARM

metric_http外掛程式錯誤,配置中指定的ResponseStringMatchRegex編譯錯誤。

單擊錯誤查看詳細報錯,檢查其中的Regex是否正確。

HTTP_PARSE_ALARM

metric_http外掛程式錯誤,擷取HTTP響應失敗。

單擊錯誤查看詳細報錯,根據其中的具體錯誤資訊對配置內容或所請求的HTTP伺服器進行檢查。

INIT_CHECKPOINT_ALARM

Binlog外掛程式錯誤,載入檢查點失敗,外掛程式將忽略檢查點並從頭開始處理。

單擊錯誤查看詳細報錯,根據其中的具體錯誤資訊來確定是否可忽略此錯誤。

LOAD_LOCAL_EVENT_ALARM

Logtail執行了本地事件處理。

此警告一般不會出現,如果非人為操作引起此警告,才需要進行錯誤排查。請單擊錯誤查看詳細報錯,根據其中的檔案名稱、配置名、project、logstore等資訊進行進一步地排查。

LOG_REGEX_FIND_ALARM

processor_split_log_regex以及 processor_split_log_string外掛程式錯誤,無法從日誌中擷取到配置中指定的SplitKey

單擊錯誤查看詳細報錯,檢查是否存在配置錯誤的情況。

LUMBER_CONNECTION_ALARM

service_lumberjack外掛程式錯誤,停止外掛程式時關閉伺服器錯誤。

單擊錯誤查看詳細報錯,根據其中的具體錯誤資訊進行進一步排查,此錯誤一般可忽略。

LUMBER_LISTEN_ALARM

service_lumberjack外掛程式錯誤,初始化進行監聽時發生錯誤。

單擊錯誤查看詳細報錯,報錯根據內容分為如下類型。

  • init tls error...:請結合具體的錯誤資訊檢查TLS相關的配置是否正確

  • listen init error...:請結合具體的錯誤資訊檢查地址相關的配置是否正確。

LZ4_COMPRESS_FAIL_ALARM

Logtail執行LZ4壓縮發生錯誤。

單擊錯誤查看詳細報錯,根據其中的log lines、project、category、region等值來進行進一步排查。

MYSQL_CHECKPOINT_ALARM

MySQL外掛程式錯誤,檢查點相關錯誤。

單擊錯誤查看詳細報錯,報錯根據內容分為如下類型。

  • init checkpoint error...:初始化檢查點失敗,請根據錯誤資訊檢查配置指定的檢查點列以及所擷取的值是否正確。

  • not matched checkpoint...:檢查點資訊不匹配,請根據錯誤資訊檢查是否是由於配置更新等人為原因導致的錯誤,如果是則可忽略。

NGINX_STATUS_COLLECT_ALARM

nginx_status外掛程式錯誤,擷取狀態發生錯誤。

單擊錯誤查看詳細報錯,根據其中的URL以及具體的錯誤資訊來進行進一步排查。

NGINX_STATUS_INIT_ALARM

nginx_status外掛程式錯誤,初始化解析配置中指定的URL失敗。

單擊錯誤查看詳細報錯,根據其中的URL檢查地址是否正確配置。

OPEN_FILE_LIMIT_ALARM

Logtail已開啟檔案數量超過限制,無法開啟新的檔案。

單擊錯誤查看詳細報錯,根據其中的記錄檔路徑、Project、Logstore等資訊進行進一步排查。

OPEN_LOGFILE_FAIL_ALARM

Logtail開啟檔案出錯。

單擊錯誤查看詳細報錯,根據其中的記錄檔路徑、Project、Logstore等資訊進行進一步排查。

PARSE_DOCKER_LINE_ALARM

service_docker_stdout外掛程式錯誤,解析日誌失敗。

單擊錯誤查看詳細報錯,報錯根據內容分為如下類型。

  • parse docker line error: empty line:日誌為空白。

  • parse json docker line error...:以JSON格式解析日誌失敗,請根據錯誤資訊以及日誌的前512個位元組進行排查。

  • parse cri docker line error...:以CRI格式解析日誌失敗,請根據錯誤資訊以及日誌的前512個位元組進行排查。

PLUGIN_ALARM

外掛程式初始化及相關調用發生錯誤。

單擊錯誤查看詳細報錯,報錯根據內容分為如下類型,請根據具體的錯誤資訊進行進一步排查。

  • init plugin error...:初始化外掛程式失敗。

  • hold on error...:暫停外掛程式運行失敗。

  • resume error...:恢複外掛程式運行失敗。

  • start service error...:啟動 service input類型的外掛程式失敗。

  • stop service error...:停止 service input類型的外掛程式失敗。

PROCESSOR_INIT_ALARM

processor_regex外掛程式錯誤,編譯配置中指定的RegexRegex失敗。

單擊錯誤查看詳細報錯,檢查其中的Regex是否正確。

PROCESS_TOO_SLOW_ALARM

Logtail日誌解析速度過慢。

  1. 單擊錯誤查看詳細報錯,根據其中的日誌數量、緩衝區大小、解析時間來確定是否正常。

  2. 如果不正常,檢查Logtail所在節點是否有其他進程佔用了過多的CPU資源或是存在效率較低的Regex等不合理的解析配置。

REDIS_PARSE_ADDRESS_ALARM

redis外掛程式錯誤,配置中提供的ServerUrls存在解析失敗的情況。

單擊錯誤查看詳細報錯,對其中報錯的URL進行檢查。

REGEX_FIND_ALARM

processor_regex外掛程式錯誤,無法從日誌中找到配置中SourceKey指定的欄位。

單擊錯誤查看詳細報錯,檢查是否存在SourceKey配置錯誤或日誌不合法的情況。

REGEX_UNMATCHED_ALARM

processor_regex外掛程式錯誤,匹配失敗。

單擊錯誤查看詳細報錯,報錯根據內容分為如下類型,請根據具體的錯誤資訊進行排查。

  • unmatch this log content...:日誌無法匹配配置中的Regex

  • match result count less...:匹配的結果數量少於配置中指定的 Keys 數量。

SAME_CONFIG_ALARM

同一個Logstore下存在同名的配置,後發現的配置會被拋棄。

單擊錯誤查看詳細報錯,根據其中的配置路徑等資訊排查是否存在配置錯誤的情況。

SPLIT_FIND_ALARM

split_char以及split_string外掛程式錯誤,無法從日誌中找到配置中SourceKey指定的欄位。

單擊錯誤查看詳細報錯,檢查是否存在SourceKey配置錯誤或日誌不合法的情況。

SPLIT_LOG_ALARM

processor_split_char以及processor_split_string外掛程式錯誤,解析得到的欄位數量與SplitKeys中指定的不相同。

單擊錯誤查看詳細報錯,檢查是否存在SourceKey配置錯誤或日誌不合法的情況。

STAT_FILE_ALARM

通過LogFileReader對象進行檔案採集時發生錯誤。

單擊錯誤查看詳細報錯,根據其中的檔案路徑、錯誤資訊進行進一步排查。

SERVICE_SYSLOG_INIT_ALARM

service_syslog外掛程式錯誤,初始化失敗。

單擊錯誤查看詳細報錯,檢查配置中的Address是否正確。

SERVICE_SYSLOG_STREAM_ALARM

service_syslog外掛程式錯誤,通過TCP採集時發生錯誤。

單擊錯誤查看詳細報錯,報錯根據內容分為如下類型,請根據詳細報錯中的具體錯誤資訊進行排查。

  • accept error...:執行Accept時發生錯誤,外掛程式將等待一段時間後重試。

  • setKeepAlive error...:設定 Keep Alive失敗,外掛程式將跳過此錯誤並繼續運行。

  • connection i/o timeout...:通過TCP讀取時逾時,外掛程式將重設逾時並繼續讀取。

  • scan error...:TCP 讀取錯誤,外掛程式將等待一段時間後重試。

SERVICE_SYSLOG_PACKET_ALARM

service_syslog外掛程式錯誤,通過UDP採集時發生錯誤。

單擊錯誤查看詳細報錯,報錯根據內容分為如下類型,請根據詳細報錯中的具體錯誤資訊進行排查。

  • connection i/o timeout...:通過UDP讀取時逾時,外掛程式將重設逾時並繼續讀取。

  • read from error...:UDP讀取錯誤,外掛程式將等待一段時間後重試。

PARSE_TIME_FAIL_ALARM

解析日誌時間失敗。

您可以通過以下兩種方法定位及解決問題:

  • Regex提取的時間欄位是否正確。

  • 指定的時間欄位內容是否匹配配置中的時間運算式。