Una scena si può comporre a partire da "primitive", ossia modelli tridimensionali rappresentanti primitive geometriche, scomponibili in singole facce o combinabili per formare oggetti più complessi. Il modo più semplice per organizzarla è quello di creare un array di primitive, ma questo metodo non permette una descrizione più dettagliata della scena, semplicemente "spiega" al renderer come disegnare la stessa. Una tecnica più avanzata organizza gli oggetti in una struttura dati ad albero (scene graph), che permette di raggruppare logicamente gli oggetti (ad esempio, si può quindi replicare più volte un oggetto, avendolo modellato attraverso più patch NURBS raggruppate, all'interno della stessa scena).
Le primitive sono generalmente descritte all'interno del proprio sistema di riferimento locale, e vengono posizionate sulla scena attraverso opportune trasformazioni. Le trasformazioni affini più impiegate, come omotetia, rotazione e traslazione, possono essere descritte in uno spazio proiettivo con una matrice 4x4: esse si applicano moltiplicando la matrice per il vettore a quattro componenti che rappresenta ogni punto di controllo delle curva. La quarta dimensione è denominata coordinata omogenea.
Ad ogni nodo dello scene graph è associata una trasformazione, che si applica anche ad ogni nodo sottoposto, ricreando l'interazione fisica tra oggetti raggruppati (come quella tra un uomo e il suo vestito). Anche in sistemi di modellazione e rendering che non fanno uso di scene graph è comunque generalmente presente il concetto di trasformazione applicata "in verticale".
segue: "RENDERING"