AWS Glue CSV file input có bao gồm tiếng Nhật/Trung thì sẽ xảy ra error
Table of contents
tôi nghĩ nguyên nhân lỗi là do bạn đang sử dụng vectorized CSV reader không hỗ trợ tiếng Nhật [1]
Hãy kiểm tra xem trong code của bạn có configure như sau không nhé:
glueContext.create_dynamic_frame.from_options(
frame = datasource1,
connection_type = "s3",
connection_options = {"paths": ["s3://s3path"]},
format = "csv",
format_options={
"optimizePerformance": True,
"separator": ","
},
transformation_ctx = "datasink2")
nếu có optimizePerformance là True trong code, hoặc trong table properties thì hãy bỏ những ký tự multibytes như tiếng Nhật, tiếng Trung đi vì không support.
Tham khảo thêm
Format Options for ETL Inputs and Outputs in AWS Glue
https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-format.html
It doesn’t support reading CSV files with multiByte characters such as Japanese or Chinese characters
Bạn thấy bài viết này như thế nào?