kleine Funktion vektorisieren?

bisher haben mir hier schon einigen Leute sehr gut geholfen - Danke an camper,SeppJ,Schlangenmensch und die anderen

Wie kann man die calculate-Methode vektorisieren? (Es sind ein paar von dieser Art aber mir würde diese als "Einstieg" in die Thematik helfen)

#include <chrono>
#include <array>
#include <iostream>

typedef double realtype_t;

struct point3d_t
{
	point3d_t(const realtype_t& x, const realtype_t& y, const realtype_t& z) :_data{ x, y, z }{}
	std::array<realtype_t, 3> _data;
	realtype_t x() const { return _data[0]; }
	realtype_t y() const { return _data[1]; }
	realtype_t z() const { return _data[2]; }
};

struct kinematic
{
	kinematic(const point3d_t& a, const point3d_t& b, const point3d_t& c, const point3d_t& d, const point3d_t& e):
		_a(a),
		_b(b),
		_c(c),
		_d(d),
		_e(e)
	{
	}

	point3d_t _a;
	point3d_t _b;
	point3d_t _c;
	point3d_t _d;
	point3d_t _e;

	point3d_t calculate(realtype_t f, realtype_t g, realtype_t h) const
	{
		realtype_t sin_h = std::sin(h);
		realtype_t cos_h = std::cos(h);
		return point3d_t
		(
			_a.x() + _b.x()     - (-_e.x() + _c.y() + _d.y()) * sin_h + (_c.x() + _d.x()) * cos_h,
			_a.y() + _b.y() + f + (-_e.x() + _c.y() + _d.y()) * cos_h + (_c.x() + _d.x()) * sin_h,
			_a.z() + _b.z() + g + _c.z() + _d.z()
		);
	}
};

int main(int argc, char** argv)
{
	constexpr size_t WORK_COUNT = 70000000;
	constexpr size_t AVERAGE_COUNT = 10;

	std::cout << "work_count: " << WORK_COUNT << std::endl;
	std::cout << "average_count: " << AVERAGE_COUNT << std::endl;

	//irgendwelche Werte - nur eben nicht optimierbar
	point3d_t a(1 / argc, 2 / argc, 3 / argc);
	point3d_t b(11 / argc, 22 / argc, 33 / argc);
	point3d_t c(111 / argc, 222 / argc, 333 / argc);
	point3d_t d(1111 / argc, 2222 / argc, 3333 / argc);
	point3d_t e(11111 / argc, 2222 / argc, 3333 / argc);

	const auto k = kinematic(a,b,c,d,e);

	double anti_optimizer_value = 0.0;

	double complete_duration = 0.0;

	for (size_t t = 0; t < AVERAGE_COUNT; ++t)
	{
		auto start = std::chrono::high_resolution_clock::now();

		for (size_t i = 0; i < WORK_COUNT; ++i)
		{
			  //irgendwelche Werte - nur eben nicht optimierbar
				realtype_t f = i+argc;
				realtype_t g = i / f;
				realtype_t h = i / g;
				const auto r = k.calculate(f, g, h);

				anti_optimizer_value += r.x() + r.y() + r.z();
		}

		auto end = std::chrono::high_resolution_clock::now();
		auto diff = end - start;

		auto milliseconds = std::chrono::duration_cast<std::chrono::milliseconds>(diff);
		complete_duration += milliseconds.count();

		std::cout << "duration: " << milliseconds.count() << " ms" << std::endl;
	}

	double average = complete_duration / AVERAGE_COUNT;

	std::cout << "average: " << average << " ms (dummy: " << anti_optimizer_value << ")" << std::endl;

	return 0;
}

"Legende"

3d Punkte (a|b|c|e)[3]={X,Y,Z} = als floats (oder doubles)
-> runtime Konstant (veraendern sich nicht beim Aufruf von calculate)
-> kommen aus Konfiguration
-> bisher Members von kinematic

f, g, h = float (oder double) Wert
-> runtime Variant (aendern sich bei jedem Aufruf von calculate)

ich bin an kein Speicherlayout bei den 3d Punkten, Members, Parameter etc. gebunden -> alles ist möglich
bisher stelle ich meinen Rechentyp per template-Parameter um alles auf float oder double -> double ist aber nicht zwingend noetig
calulate ist eine Methode - könnte aber auch eine freie Funktion sein falls das was bringt

Entwicklungssystem:
VS2015 - zwingend
(VS2017,gcc6.3,clang4/5 - sind (nur) zum spielen vorhanden)

Mein Wissen:

-Einfach verwenden != Schnell - man kann viel Falsch machen was dann auch zu noch schlechterer Performanz fuehren kann
-der Microsoft-Kompiler kann Autovektorisieren wenn man ihm hilft
-Programmieren mit Instrinsics ist wie Assembler kann aber auch viel bringen - jeder Kompiler hat da sein eigenes Süppchen
-Es gibt Libraries z.B. boost.SIMD die bei der Vektorisierung von Code helfen - es gibt da ein paar Libs aber deren Qualität usw.
kann ich schlecht einschaetzen (stupide Aufrufe von boost::simd::sincos usw. wirken sich bisher eher negativ auf Performanz aus -
was aber auch an meinem Speicher-Layout/Ablauf hängen kann
-die calculate-Methode ist so "einfach" das man da wohl mit Autovektorisierung oder Instrinsics arbeiten kann
-der VStudio/Analyze/Performance Analyser sagt das ich die meiste Zeit in sin/cos verbringen - und scheinbar ist das auch ein Problem
beim Vektorisieren - vielleicht hilft boost::simd::sincos(single/vector) bei richtiger Anwendung?

Eingrenzung:

1. bisher bekomme ich ich nur einen (f,g,h) Satz - d.h. ich koennte wirklich nur die Punktberechnung
in sich vektorisieren

2. in Zukunft (aber erst viel spaeter) will ich mein Programm umbauen damit man auch Blöcke(z.B. aus n (f,g,h) bekommt und
calculate dann noch eine for-Schleife enthaelt - aber da muss ich erst mal pruefen ob das funktionieren kann

kann man hier überhaupt was optimieren oder frisst eben sin/cos schon alles weg - boost.SIMD bietet eine kombinierte/vektorisierte sincos-Funktion
die liefert die gleichen Ergebnisse ist aber (bisher) langsamer als die Microsoft Routinen - kann aber auch wie gesagt an falsche Anwendung liegen

Ich könnte wohl auch erstmal die runtime-Konstanten im Kinematic-ctor vorberechnen und mich nur auf sin/cos konzentrieren - aber ich glaube das bringt nicht so viel oder?

hat jemand Ideen, Tips?

die unveraenderlichen Anteile im ctor berechnet - hat aber keine messbare Auswirkung - geht im Rauchen unter

struct kinematic
{
	kinematic(const point3d_t& a, const point3d_t& b, const point3d_t& c, const point3d_t& d, const point3d_t& e):
		_a(a),
		_b(b),
		_c(c),
		_d(d),
		_e(e),
		//---
		_x_fix_part(_a.x() + _b.x()),
		_y_fix_part(_a.y() + _b.y()),
		_xy_fix_part0((-_e.x() + _c.y() + _d.y())),
		_xy_fix_part1((_c.x() + _d.x())),
		_z_fix_part(_a.z() + _b.z() + _c.z() + _d.z())
		//---
	{
	}

	point3d_t _a;
	point3d_t _b;
	point3d_t _c;
	point3d_t _d;
	point3d_t _e;

	realtype_t _x_fix_part;
	realtype_t _y_fix_part;
	realtype_t _xy_fix_part0;
	realtype_t _xy_fix_part1;
	realtype_t _z_fix_part;

	point3d_t calculate(realtype_t f, realtype_t g, realtype_t h) const
	{
		realtype_t sin_h = std::sin(h);
		realtype_t cos_h = std::cos(h);
		return point3d_t
		(
			_a.x() + _b.x() - (-_e.x() + _c.y() + _d.y()) * sin_h + (_c.x() + _d.x()) * cos_h,
			_a.y() + _b.y() + (-_e.x() + _c.y() + _d.y()) * cos_h + (_c.x() + _d.x()) * sin_h + f,
			_a.z() + _b.z() + _c.z() + _d.z() + g
		);
	}

	point3d_t calculate2(realtype_t f, realtype_t g, realtype_t h) const
	{
		realtype_t sin_h = std::sin(h);
		realtype_t cos_h = std::cos(h);
		return point3d_t
		(
			_x_fix_part - _xy_fix_part0 * sin_h + _xy_fix_part1 * cos_h,
			_y_fix_part + _xy_fix_part0 * cos_h + _xy_fix_part1 * sin_h + f,
			_z_fix_part + g
		);
	}

};

der gezeigte Code ist nur ein kleiner kompilierbarer Benchmark - braucht ca. 12-14sek auf meinen System - soll nur Aufzeigen wie die calculate-Methode genutzt wird