本文为您介绍数据集成任务常见问题。
资源组操作及网络连通
- 在做离线同步时,我们需要先了解哪些DataWorks及其网络能力?
- 同步ECS自建的数据库的数据时,如何保障数据库与DataWorks的网络连通?
- 数据库和DataWorks不在同一个地域(Region)下,进行数据同步时如何保障数据库与DataWorks的网络连通?
- 数据库和DataWorks不在同一个阿里云账号下,进行数据同步时如何保障数据库与DataWorks的网络连通?
- 访问VPC环境下的数据库测试连通性失败,该如何处理?
- 数据源连通性有时成功,有时失败,如何处理?
- 已经购买独享资源组,但在数据源测试连通性时或任务执行时找不到该资源组怎么办?
- 如何通过日志查看任务执行在什么资源组类型上?
- 如何切换任务在调度系统中执行所用的资源组。
- 如何排查自定义调度资源组等待gateway?
- 如何查看资源组对外IP,以便用于加白放行?
- 资源组还有剩余资源,为什么会提示任务资源不足无法启动?
离线同步常见问题
离线同步任务运维常见问题
- 为什么数据源测试连通性成功,但是离线同步任务执行失败?
- 如何切换数据集成任务执行资源组?
- 脏数据如何排查和定位?
- 如何查看脏数据?
- 如果离线同步传输数据时,脏数据超出限制,是否所有数据都不会同步?
- 如何排查离线同步任务运行时间长的问题?
非插件报错原因及解决方案
- 如何处理编码格式设置/乱码问题导致的脏数据报错?
- 任务存在SSRF攻击Task have SSRF attacks如何处理?
- 离线同步任务执行偶尔成功偶尔失败。
- 离线同步源表有加列(修改)如何处理?
- 如何处理表列名有关键字导致同步任务失败的情况?
具体插件报错原因及解决方案
- 添加MongoDB数据源时,使用root用户时报错。
- 离线同步常见问题
- 读取MongoDB时,如何在query参数中使用timestamp实现增量同步?
- MongoDB同步至数据目的端数据源后,时区加了8个小时,如何处理?
- 读取MongoDB数据期间,源端有更新记录,但未同步至目的端,如何处理?
- 读取OSS文件是否有文件数限制?
- 写入DataHub时,一次性写入数据超限导致写入失败如何处理?
- 使用lindorm bulk方式写入数据,是否每次都会替换掉历史数据?
- 如何查询一个ES索引下的所有字段?
离线同步场景及解决方案
- 离线同步任务如何自定义表名?
- 配置离线同步节点时,无法查看全部的表,该如何处理?
- 读取MaxCompute(ODPS)表数据时,添加一行注意事项。
- 读取MaxCompute(ODPS)表数据时,如何同步分区字段?
- 读取MaxCompute(ODPS)表数据时,如何同步多个分区数据?
- 如何处理表列名有关键字导致同步任务失败的情况?
- 读取Loghub同步某字段有数据但是同步过来为空
- 读取Loghub同步少数据。
- 读取Loghub字段映射时读到的字段不符合预期。
- 读取kafka配置了endDateTime来指定所要同步的数据的截止范围,但是在目的数据源中发现了超过这个时间的数据。
- Kafka中数据量少,但是任务出现长时间不读取数据也不结束,一直运行中的现象是为什么?
- 写入OSS出现随机字符串如何去除?
- MySQL分库分表如何将分表同步到一张MaxCompute中。
- 数据同步任务where条件没有索引,导致全表扫描同步变慢。
- 目的端MySQL表字符集为utf8mb4时,同步到MySQL中的中文字符出现乱码时,如何处理?
- 使用API方式同步的时候,支持使用来源端的(例如MaxCompute)函数做聚合吗?例如源表有a、b两列作为Lindorm的主键。
- 同步的数据表,是否只能使用Alter方式来修改TTL?
- Elasticsearch Reader如何同步对象Object或Nested字段的属性?(例如同步object.field1)
- 存储在ODPS的string类型同步至ES后,两侧缺少引号,如何处理?源端JSON类型的string是否可以同步为ES中的NESTED对象?
- 源端数据为string "[1,2,3,4,5]",如何以数组形式同步至ES中存储?
- 自建的索引中nested的属性类型type为keyword,为什么自动生成之后类型会变成 keyword?(自动生成是指配置cleanup=true执行同步任务)
- 向ES写入数据时,会做一次无用户名的提交,但仍需验证用户名,导致提交失败,因此提交的所有请求数据都被记录,导致审计日志每天都会有很多,如何处理?
- Elasticsearch writer配置了Settings,为什么在创建索引时不生效?
- 如何同步至ES中为Date日期类型?
- Elasticsearch Writer指定外部version导致写入失败,如何处理?
- 非结构化数据源,单击数据预览字段无法映射,如何处理?
报错信息及解决方案
实时同步常见问题
实时同步任务配置须知
- 实时同步任务支持哪些数据源?
- 为什么实时同步任务延迟较大?
- 实时同步任务延迟解决方案。
- 实时同步任务为什么不建议使用公网?
- 实时同步字段格式问题。
- 实时同步数据时,如何处理TRUNCATE?
- 如何提高实时同步的速度和性能?
- 实时同步是否支持在界面运行?
- 实时同步MySQL数据源时速度为什么会变慢?
- 实时同步中选择单库与选择多库的内存占用模式为什么会有差异?
- 实时同步任务DDL策略都有哪些?
实时同步MySQL数据常见问题
实时同步MySQL数据源的数据时,一开始读到数据,一段时间后无法读到数据,怎么处理?
实时同步至Oracle、PolarDB、MySQL常见问题
实时同步Oracle、PolarDB、MySQL任务重复报错。