Multithreading -> Instabilere Programme?

Shade Of Mine

Jester schrieb:

In der Tat. Die sind auch so unheimlich praktisch, weil man nämlich gleich noch zusätzlich zur Funktion einen zustand mitgeben und manipulieren kann. Genau das, was in der funktionalen Welt aber nicht erlaubt ist.

Ich meinte eher weniger functors als lambda Ausdruecke, closures, anonyme Funktionen

Jester

Wie sieht denn die automatische Parallelisierung von einem einfachen Algorithmus in Erlang aus? Was passiert, wenn ich ein simples Quicksort implementiere. Wie sieht dazu die automatische Parallelisierung aus? Was passiert da parallel und was nicht?

rüdiger schrieb:

Man kann Multithreading auch dafür nutzen, dass man stabilere Programme erzeugt.

Wie?

rüdiger

Jester schrieb:

Wie sieht denn die automatische Parallelisierung von einem einfachen Algorithmus in Erlang aus? Was passiert, wenn ich ein simples Quicksort implementiere. Wie sieht dazu die automatische Parallelisierung aus? Was passiert da parallel und was nicht?

Automatisch wird bei Erlang gar nichts parallelisiert.

ShadeOfMine schrieb:

Wenn wir uns zB Erlang ansehen: jede Funktion ist ein Prozess. Man hat per Definition keine Locking Probleme - denn wenn man etwas sharen will, muss man es explizit machen.

Nein und nein Bei Erlang ist nicht jede Funktion ein Prozess. Locking-Probleme hat man auch.

Ich denke aber, dass es einfacher ist ein Nachrichtenbasiertes System zu testen, da die Kommunikation nur über definierte Schnittstellen funktioniert.

In Erlang werden eben auch gewisse Programmiertechniken benutzt, um Deadlocks zu vermeiden. So lässt man bei einem Fehler (zB undefinierte Zustände/Nachrichten) einfach den Prozess abstürzen und neustarten.

ShadeOfMine schrieb:

C++ ist hier leider furchtbar, da jede Funktion Seiteneffekte haben kann. Deshalb ist soetwas einfaches wie std::for_each nicht parallelisierbar.

Wo ist C++ da anders, als zB C#? (Wenn du schon ParallelFX erwähnst).

So etwas wie ParallelFX ist ja auch für C++ möglich: http://gcc.gnu.org/onlinedocs/libstdc++/parallel_mode.html

Jester schrieb:

Die automatische Parallelisierung ist sicherlich einen Versuch wert. Allerdings denke ich, dass das noch ein weiter Weg wird. Kurzfristig ist sicherlich das Parallelisieren der Grundalgorithmen der vielversprechendere Weg. Und wenn es wirklich um pure Leistung geht, dann müssen auch die Algorithmen von Hand parallelisiert werden. Schließlich ist es oft auch für Menschen nicht offensichtlich wie sich eine Aufgabe parallelisieren lässt. Da können wir es kaum von der Plattform erwarten.

Ich denke so etwas wie OpenMP scheint auch ganz interessant zu sein. Wo man einfach angeben kann welche Schleifen und Codeteile parallelisiert werden können und der Compiler und die Lib kümmern sich dann darum, dass der Code entsprechend auf Prozesse aufgeteilt wird.

Jester

OpenMP ist sicher ein gute Framework. Allerdings hilft es mir eher bei der Implementierung einer parallelen Applikation als bei deren Entwurf. Ich denke was wir auf Dauer brauchen sind Werkzeuge und Bibliotheken, die beim Entwurf von parallelen Applikationen unterstützen.

rüdiger

und schrieb:

rüdiger schrieb:

Man kann Multithreading auch dafür nutzen, dass man stabilere Programme erzeugt.

Wie?

In dem man Multithreading für Redundanz nutzt zB.

rüdiger schrieb:

und schrieb:

rüdiger schrieb:

Man kann Multithreading auch dafür nutzen, dass man stabilere Programme erzeugt.

Wie?

In dem man Multithreading für Redundanz nutzt zB.

Da fällt mir jetzt nur sowas wie in Raketen oder Flugzeugen ein, also mehrere Rechner und dann das Ergebnis nehmen das die meisten haben. Aber was bringt sowas bei einem Rechner?

Shade Of Mine

Jester schrieb:

Wie sieht denn die automatische Parallelisierung von einem einfachen Algorithmus in Erlang aus? Was passiert, wenn ich ein simples Quicksort implementiere. Wie sieht dazu die automatische Parallelisierung aus? Was passiert da parallel und was nicht?

In Erlang rufst du eher selten Funktionen auf - du sendest viel oefter Nachrichten. Ich wuerde in meiner naivitaet einfach folgendes machen: Die rekursiven aufrufe von QuickSort durch Message Passing ersetzen.

Und immer wenn die nur Nachrichten verschickst, kannst du Parallel Arbeiten. Ganz trivial ist das ganze natuerlich nicht. (ich habe jetzt 10 min ueberlegt wie man das am besten implementieren wuerde - aber da ich in Erlang nicht ganz so fit bin, bin ich am Design gescheitert :/)

Jester

Shade Of Mine schrieb:

In Erlang rufst du eher selten Funktionen auf - du sendest viel oefter Nachrichten. Ich wuerde in meiner naivitaet einfach folgendes machen: Die rekursiven aufrufe von QuickSort durch Message Passing ersetzen.

Das ist genau das wo ich Probleme bei der automatischen Parallelisierung sehe: Diese naive Parallelisierung von Quicksort skaliert nicht.

Allein das erste partitionieren, das dadurch ja nicht parallelisiert wird, benötigt O(n) Zeit. Das heißt egal wieviele Prozessoren ich Dir spendiere, es wird ab einer gewissen Sättigungsgrenze einfach nicht mehr schneller, der erste Partitionierungsschritt wird zum Flaschenhals.

Ich denke dieses Problem lässt sich am besten durch geeignete Bibliotheken umgehen, die die Algorithmen bereit stellen.

Shade Of Mine

Jester schrieb:

Ich denke dieses Problem lässt sich am besten durch geeignete Bibliotheken umgehen, die die Algorithmen bereit stellen.

PLINQ

array.AsParallel().Orderby(x => x)

Jester

Klingt nach einem guten Ansatz. Zumindest die wichtigsten Grundoperationen sollten dadurch abgedeckt werden können.

Shade Of Mine

Jester schrieb:

Klingt nach einem guten Ansatz. Zumindest die wichtigsten Grundoperationen sollten dadurch abgedeckt werden können.

Das steckt ebenfalls noch in den Kinderschuhen und mit .NET 3.5 kam die erste Version raus. LINQ sagt dir uU etwas - query syntax auf Datenstrukturen.

Danach ging man einen Schritt weiter und hat PLINQ entwickelt (wobei PLINQ seit 2005 in Entwicklung ist) um eben solche Sachen parallelisieren zu koennen.

Was aber wieder fehlt ist eine Garantie dass der Code wenn er parallel ablaeuft nicht durch Seiteneffekte kaputt gemacht wird. Weiters glaube ich, dass (P)LINQ keine Inplace Operationen machen kann. Sprich man hat enormen Speicherverbrauch

Ideal ist es also noch lange nicht - aber die unterliegende Technik ist ziemlich interessant. PLINQ basiert auf der TPL.

TPL (Task Parallel Library) ist die Library um das Subsystem in .NET dass die komplette Parallelisierung uebernimmt. Ein Parallel.forEach oder ein PLINQ Query machen nichts anderes als eine Menge kleiner Tasks zu erstellen - die Arbeit also in kleine Stueckchen zu schneiden. Diese Tasks werden dann je nach Plattform parallelisiert.

Worum es nun geht ist, den Programmierern die Tools zu geben um solche Tasks moeglichst automatisiert zu erstellen. PLINQ ist da recht nett - man macht Queries auf Datenstrukturen und diese koennen dann Parallel ablaufen. Aber wie dein QuickSort Beispiel ja zeigt - so einfach ist das nicht immer. Denn man wird immer Algorithmen haben die man selber Parallelisieren muss und das suckt.

Aber die Ansaetze sind ja schonmal da - wenn wir zB von einem Binary Tree ausgehen und wir wollen alle Elemente aufsummieren:

int sum() {
  return left.sum()+right.sum();
}

dann bietet uns ParallelFX folgendes nettes:

int sum() {
  int r,l;
  Parallel.Do(
    delegate { l=left.sum(); }
    delegate { r=right.sum(); }
  );
  return l+r;
}

Wobei man hier natuerlich aufpassen muss, dass man nicht zuviel Zeit mit dem Schedulen verbringt und man Sequentiell nicht schneller waere - da Threads ja doch Overhead bringen.

Ich bin jedenfalls gespannt was es noch so alles geben wird - denn momentan gibt es verschiedene interessante Ansaetze - aber das wichtigste fehlt noch: die Garantie dass Seiteneffekte den Code nicht zerstoeren.

Automatische Parallelisieurng funktioniert wahrscheinlich genauso gut wie automatisch Programme schreiben lassen. Parallelisierung ist bei nicht standard Sachen meistens was das vom Mensch besser erkannt wird als vom PC, weil der PC den Sinn des Programms nicht versteht. Woher soll der PC z.B. wissen, dass ein Thread den oberen und ein Thread den unteren Teil eines Bildes bearbeiten kann? Da müsste er ja erst mal wissen was ein Bild ist.

Eben. Man muss schon Funktionen vorgeben, die parallel laufen sollen. Und dann kann man auch gleich eine normale thread-library nehmen (z.B. boost::thread). Da brauch man kein parallelfx & Co.

Shade Of Mine

naja schrieb:

Automatische Parallelisieurng funktioniert wahrscheinlich genauso gut wie automatisch Programme schreiben lassen. Parallelisierung ist bei nicht standard Sachen meistens was das vom Mensch besser erkannt wird als vom PC, weil der PC den Sinn des Programms nicht versteht. Woher soll der PC z.B. wissen, dass ein Thread den oberen und ein Thread den unteren Teil eines Bildes bearbeiten kann? Da müsste er ja erst mal wissen was ein Bild ist.

Nein muss er nicht. Er muss nur wissen ob 2 Funktionen einander beeinflussen. Wenn wir zB von Haskell ausgehen - dort gibt es praktisch keinen shared state - so kann dort Problemlos parallelisiert werden.

Natuerlich ist das nur ein Teil der Parallelisierung die wir brauchen. Wo die Entwicklung hingeht ist die parallelisierung von Algorithmen. Beispielsweise Map/Reduce zur verarbeitung von Daten oder eben alternativen zu Sortieralgorithmen wie QuickSort. Jester hat da vor ein paar Jahren beim Forentreffen zB Super Scalar Sample Sort vorgestellt.

Aber genau wegen sowas gibt es ja Abstraktion. Ich rufe nicht "QuickSort" auf, sondern "sort". Gerade bei den Algorithem gibt es viel Potential und Tools wie PLINQ sind eben ein Ansatz dieses leichter zu entfalten. Wir stehen aber erst am Anfang von dem was moeglich ist.

Was Tools wie ParallelFX oder auch MCSTL bieten ist eine Vereinfachung der Parallelisierung. Keines dieser Tools kann Zaubern. Aber sie uebernehmen enorm komplexe Aufgaben was Load Balancing und Locking betrifft. Load Balancing ist zB wieder ein enorm wichtiges Thema - auf Single Core CPUs war es das nicht, da ja alles was man rechnen musste auf der einen CPU ablief - jetzt mit 2,4,8,... CPUs muss man ploetzlich die einzelnen Worker Threads Load Balancen - ParallelFX bietet hier eben ein "Work Stealing System" das das Balancen uebernimmt (zumindest einen Teil davon. Andere Sachen wie eben das Partitionieren des WorkLoads uebernimmt zB PLINQ oder der Programmierer selber).

Aber auch das Partitionieren ist kein einfaches Thema und das Mergen am Ende der Arbeit ist auch nicht trivial.

Man braucht Tools die das automatisieren. Natuerlich ist ParallelFX prinzipiell schlecht weil es von Microsoft kommt - aber soweit ich sehe ist es das aktuell weitest entwickelte Tool. Andere werden folgen und uU auch ParallelFX in den Schatten stellen.

Worum es aber geht ist, diese Tools zu verlangen. Wir brauchen diese Automatisierungen. Es steckt soviel Parallelisierungspotential in unserem Code das wir sofort nutzen koennten. Fuer andere Sachen muessen wir unseren Programmierstil oder unsere Algorithmen/Datenstrukturen aendern - aber viel ist mit guten Libraries jetzt schon machbar.

Ich kann mir nicht wirklich vorstellen, dass das so einfach klappt. Mal abgesehen davon, dass in der praxis kaum Haskell, sondern mehr C++, C# und Java und ähnliches eingesetzt wird. Bei normal geschriebnem Code ist es doch so, dass eine Funktion was berechnet und die nächste dann mit diesen Ergebnissen weiterarbeitet. Da kannst du schon mal garnicht beide gleichzeitig ausführen lassen.

Das größte Parallelisierungspotential steck halt darin große Datenmenge aufzuteilen, aber ob sowas einfach geht, weiß halt keine Sprache oder Compiler. Klar kann man irgendwie sowas schreiben

doParallel(function(data1), function(data2))

Aber das sich die Funktionen nicht stören muss schon der Programmierer wissen. Und so ne doParallel Funktion zu schreiben ist ja auch nicht so schwer.

Wahrscheinlich wird es schon bald ein paar Libs geben, die standard Sachen wie Sort parallelisieren können, aber die komplizierten Sachen muss schon der Programmierer machen (die Libs macht ja auch einer).

Shade Of Mine

Und genau da liegst du falsch. PLINQ erfuellt bereits fast alle Anforderungen an Arbeiten mit Datensets.

Und enorm viele Sachen sind Parallelisierbar - schau dir einfach nur mal die Schleifen an die du in deinem Code hast. Ein nicht unrelevanter Teil davon ist jetzt parallelisierbar oder mit kleinen Aenderungen parallelisierbar.

Nahezu alle STL Algos sind parallelisierbar. Das Problem ist das fehlen an Tools dafuer. Ein simpler for Loop ist ohne Tools nicht so einfach parallelisierbar weil einem die Infrastruktur killt.

Wir muessen lediglich von der Idee in Threads zu denken weggehen. Deshalb finde ich den ParallelFX Ansatz ganz interessant. Jede Aufgabe wird in kleinere Aufgaben aufgeteilt und diese dann irgendwie verarbeitet. Ich muss also nur ein "Tasks" denken. Die Idee dahinter ist locking freier Concurrent Code.

Klar ist noch nicht alles machbar - aber wir stehen hier auch am Anfang. Was sich noch alles ergeben wird weiss noch Niemand. Aber jeder Programmierer sollte sich dennoch Gedanken machen: wie koennen meine Anwendungen 32 Prozessoren benutzen? Threads sind hier der falsche Ansatz. Denn 32 Threads auf einem 2 Kern System ist eine Katastrophe und 2 Threads auf einem 32 Kern System ebenso. Aber auch 32 Threads auf einem 32 Kern System ist nicht unbedingt das gelbe vom Ei (denn X Kerne koennen ja komplett ausgelastet sein durch andere Anwendungen).

Wir muessen also in anderen Bahnen denken. ParallelFX geht den Weg in Tasks zu denken. uU ist das Bloedsinn und in ein paar Jahren wissen wir dass das der falsche Ansatz war - aber irgendwohin muessen wir ja arbeiten.

Mal ein Beispiel. Es gibt ne Message Queue und die Messages werden in ner Schleife abgearbeitet. So jetzt sag ich dem Framework mach das mal parallel für jede Message nen Task und das macht das auch schön. Das Problem ist nur, das Farmework weiß garnicht, dass die Reichenfolge wichtig ist und die ganze Anwendung nicht mehr geht, wenn man das durcheinander abarbeitet. Das muss ich als Programmierer wissen und entsprechend darauf achten, sowas kann mir kein Framework abnehmen. Einfach nur Task statt Thread zu sagen hilft da nicht viel.

Klar kann das Framework schauen wieviele Kerne mein System hat und dann die Daten aus ner Collection entsprechend verteilen. Das ist aber der einfachere Teil der Arbeit.

Das wissen, dass Daten parallel abgearbeitet werden können kommt vom Programmierer. Sowas zu analysieren kann extrem komplex sein. Hier keinen Fehler zu machen und irgendeinen Nebeneffekt zu übersehen kann mir kein Framework abnehmen. Und einfach mal hergehen und alle Schleifen zu parallelisieren, bei denen es einfach geht, halte ich für genauso sinnvoll, wie zu optimieren ohne vorher nen Profiler zu verwenden. Der Programmierer muss wissen, wo es sinnvoll ist zu parallelisieren. Wenn du z.B. ein Bild skalieren willst und einfach mal die Schleife im Kernel (der Teil der die Bilddaten interpoliert) parallelisierst, dann wird das nicht viel bringen, weil da immer nur ein paar Pixel abgearbeitet werden und das Aufteilen in Tasks/Threads dann nur mehr Zeit braucht, als der eigentliche Schleifendurchlauf. Da ist es sicher schlauer das Bild in n Teile aufzuteilen und die parallel abzuarbeiten, aber sowas weiß kein Framework oder Compiler.

Irgendwelche standard Algorithmen zu parallelisieren wird bald keinen mehr interessieren, weils sowas schon fertig geben wird. Genauso wie es jetzt schon Quicksort fertig gibt und dich keiner bezahlt um diesen zu entwickeln.

Shade Of Mine

naja schrieb:

Einfach nur Task statt Thread zu sagen hilft da nicht viel.

Du hast nichts von dem verstanden was ich gesagt habe

'threads' sind ja diese dinger, mit denen man manuell die CPU-ressourcen aufteilt. diese, rein technische sichtweise des händischen und statischen zerstückelns von rechenzeit, ist wohl das, was du (shade'o'mine), mit dem begriff 'task' abmildern willst. nenn' es doch 'prozess'. so wird's z.b. im umfeld von hardwarebeschreibungssprachen genannt. da ist es gang und gebe, dass sich viel paralleles und nebenläufiges zeug abspielt (was für die denke reiner softwerker, mit ihren auf sequentiellen code ausgelegten programmiersprachen, erstmal eine grosse hürde ist).

Multithreading -&gt; Instabilere Programme?

Multithreading -> Instabilere Programme?