CSE-4/562 Spring 2019

Why does a tuple appear in a query output?

The answer can be summarized by a polynomial.


      PROVENANCE OF SELECT A FROM R NATURAL JOIN S

A	B	C	$\phi_1$	$\phi_2$
1	2	1	$R_1$	$S_1$
1	2	2	$R_1$	$S_2$
1	3	3	$R_2$	$S_3$
2	3	3	$R_3$	$S_3$

A	B	C	$\phi_1$	$\phi_2$
1	2	1	$R_1$	$S_1$
1	2	2	$R_1$	$S_2$
1	3	3	$R_2$	$S_3$
2	3	3	$R_3$	$S_3$
2	1	4	$T_1$	`NULL`
4	5	5	$T_2$	`NULL`

A	B	C	$\phi_1$	$\phi_2$
1	2	1	$R_1$	$S_1$
1	2	2	$R_1$	$S_2$
1	3	3	$R_2$	$S_3$
2	3	3	$R_3$	$S_3$
2	1	4	$T_1$	`NULL`
4	5	5	$T_2$	`NULL`

A	$\phi_1$	$\phi_2$
1	$R_1$	$S_1$
1	$R_1$	$S_2$
1	$R_2$	$S_3$
2	$R_3$	$S_3$
2	$T_1$	`NULL`
4	$T_2$	`NULL`

A	COUNT	$\phi_1$	$\phi_2$
1	3	$R_1$	$S_1$
1	3	$R_1$	$S_2$
1	3	$R_2$	$S_3$
2	2	$R_3$	$S_3$
2	2	$T_1$	`NULL`
4	1	$T_2$	`NULL`

A	B	C
1	2	1	→ $R_1 \wedge S_1$
1	2	2	→ $R_1 \wedge S_2$
1	3	3	→ $R_2 \wedge S_3$
2	3	3	→ $R_3 \wedge S_3$
2	1	4	→ $T_1$
4	5	5	→ $T_2$

A	B	C
1	2	1	→ $F \wedge S_1$
1	2	2	→ $F \wedge S_2$
1	3	3	→ $T \wedge S_3$
2	3	3	→ $T \wedge S_3$
2	1	4	→ $T$
4	5	5	→ $T$

A	B	C
1	2	1	→ $F$
1	2	2	→ $F$
1	3	3	→ $T$
2	3	3	→ $T$
2	1	4	→ $T$
4	5	5	→ $T$

A	B	C	$\phi_1$	$\phi_2$
1	3	3	$R_2$	$S_3$
2	3	3	$R_3$	$S_3$
2	1	4	$T_1$	`NULL`
4	5	5	$T_2$	`NULL`


                  SELECT DISTINCT A, COUNT 
                  FROM (PROVENANCE OF Q_1)
                  WHERE phi_1 = 'R_1'

Observation 1: predicate on $\phi$ can be pushed down.

Observation 2: DISTINCT would be a no-op (group-by attributes are always a key) if not for provenance additions.

This query can be made to run very fast!