Parallele Ausführung auf der GPU

Sobald gathern (#46 (closed)) und scattern (#47 (closed)) der Daten vorbereitet sind, sollte die parallele Ausführung auf dem Device möglich sein.

In diesem Issue soll die Schleife über die Elemente in GridOperator::nonlinear_jacobian_apply() in einen parallelen PACXX-Kernelaufruf umgewandelt werden.

Blockiert von: