Extend list of basic partitioner: FieldAndTimeBasedPartitioner.java & HeaderAndTimeBasedPartitioner.java #290

ostetsenko · 2023-01-19T14:30:11Z

We use KafkaConnect to dump topics to AWS S3. Analyzing data is pretty simple with Athena + AWS Glue (Crawlers) + AWS S3. It looks like a common way for AWS users.

Problem
The base problem happens when we partition by fields from the Kafka message. Athena can not create a table because parts of S3 subpath are separate columns and all Json keys are separate columns too. Two the same column names are impossible.

Solution
It's a good idea to add Partitioner based on Header field & Time

Extra
There is a good custom Partitioner which also can be used as default in this repo FieldAndTimeBasedPartitioner

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Extend list of basic partitioner: FieldAndTimeBasedPartitioner.java & HeaderAndTimeBasedPartitioner.java #290

Extend list of basic partitioner: FieldAndTimeBasedPartitioner.java & HeaderAndTimeBasedPartitioner.java #290

ostetsenko commented Jan 19, 2023 •

edited

Loading

Extend list of basic partitioner: FieldAndTimeBasedPartitioner.java & HeaderAndTimeBasedPartitioner.java #290

Extend list of basic partitioner: FieldAndTimeBasedPartitioner.java & HeaderAndTimeBasedPartitioner.java #290

Comments

ostetsenko commented Jan 19, 2023 • edited Loading

ostetsenko commented Jan 19, 2023 •

edited

Loading