Reddit

A junior data engineer is developing a streaming pipeline to calculate average humidity and temperature per device in 5-minute non-overlapping windows. Given a streaming DataFrame df with schema "device_id INT, event_time TIMESTAMP, temp FLOAT, humidity FLOAT", which line of code correctly completes this aggregation?

df.withWatermark("event_time", "10 minutes")
  .groupBy(
    window("event_time", "5 minutes"),
    "device_id"
  )
  .agg(
    avg("temp").alias("avg_temp"),
    avg("humidity").alias("avg_humidity")
  )
  .writeStream
  .format("delta")
  .saveAsTable("sensor_avg")

df.withWatermark("event_time", "10 minutes")
  .groupBy(
    window("event_time", "5 minutes"),
    "device_id"
  )
  .agg(
    avg("temp").alias("avg_temp"),
    avg("humidity").alias("avg_humidity")
  )
  .writeStream
  .format("delta")
  .saveAsTable("sensor_avg")

Exam-Like

to_interval("event_time", "5 minutes").alias("time")

13.3%

window("event_time", "5 minutes").alias("time")

75.5%

"event_time"

4.1%

lag("event_time", "10 minutes").alias("time")

7.1%

Databricks Certified Data Engineer - Professional

Comments

Get started today