Evaluiere: Scattern in seperatem Durchlauf

In #47 (closed) wurden zum scattern der Ergebnisdaten Atomics benutzt. In diesem Milestone soll ein alternatives Verfahren ausprobiert werden:

Auf der GPU wird ein großes Array mit lokalen Ergebnisdaten allokiert, im wesentlichen ein Array von Arrays, so dass für jedes Gitterelement ein seperates Array vorhanden ist
in der 1. Variante soll dieses Array komplett heruntergeladen werden, und das Zusammenfassen in ein Vertex-indiziertes Array soll sequentiell auf der CPU passieren (dies wurde tatsächlich schon in #47 (closed) umgesetzt, da atomics mit floating-point typen nicht functionierten)
in der 2. Variante soll das Array in einem zweiten Kernel-Aufruf auf dem Device zusammegefasst werden, und nur die zusammengefasste Variante heruntergeladen werden.