Datenanalyse und Hypothesentests ohne Normalverteilung



  • Servus,

    bei meinem Problem stellt sich die Frage, ob ein Messwert eher dem statistischen Rauschen zugeordnet werden kann oder eben nicht. Ist das Rauschen für den Wert unwahrscheinlich, dann wirds interessant und klügere Köpfe als ich machen sich Gedanken, wie das wohl zu erklären ist.

    Die Frage ist aus dem Bereich Bioinformatik. Proteine kann man als Zeichenkette darstellen. Bündelt man viele ähnliche solcher Zeichenketten mit bekannter Funktion, kann man die für die Funktion vielleicht relevanten Zeichenketten-Positionen ermitteln.

    Ich hatte nun vor der Antwort auf die Frage 'Rauschwert' oder 'kein Rauschwert' auf den Grund zu gehen und dachte dabei an Hypothesentests. In meinem schlauen Statistik-Buch sehe ich aber immer nur feine Normalverteilungen, bei mir sind die Real-Werte aber nicht normalverteilt - was nun?

    Ich habe im Anhang ein Bild mit den beiden Kurven. Ich habe einmal das reale Multiple Sequenzalignment (MSA - eine Zeichenkettentabelle) durch einen Algorithmus gejagt und dann das MSA 'gemischt' und nochmal durchgeschickt - man hat also nun einmal die Werte fürs Zufalls-MSA und einmal die Werte für das reale MSA. Wie man sieht, sind beim realen MSA viel mehr höhere Werte.

    Am Ende hoffe ich durch den Hypothesentest auf einen Schwellwert zu kommen, ab wann man den Wert für das MSA lieber nicht mehr in die Berechnung aufnimmt. In die Berechnung sollten alle Werte die nicht durch statistisches Rauschen auftreten.

    Den höchsten Zufalls-U-Wert soll ich aber auch nicht nehmen, denn dann gehen viele biologische relevante U-Werte verloren - wie würdet ihr da vorgehen.

    Angehängt ist das Bild mit der Verteilungen ( http://jochen-bauer.net/downloads/u-werte.png ). Auf der X-Achse sind die Klassen der U-Werte, das sind 0.01, 0.02, 0.03 ... 0.99 , auf der Y-Achse die Anzahl der Klassenelemente.

    Danke vorab für die Rückmeldung.



  • Ich denke ich habe es. Ich brauche für die Neyman-Pearson-Tests gar keine Normalverteilung. Wenn ich den alpha-Fehler vorher quantifiziere, dann kann ich den Schwellwert ermitteln.

    Jetzt kann ich damit etwas mit dem alpha variieren und schauen, wie sich das auswirkt - wie viele Rauschwerte, wie viele biologisch relevante Werte und wie viele Werte insgesamt in den Algorithmus wandern.

    Mache ich das mit vielen unterschiedlichen MSAs, dann kann ich MSA-Klassen bilden und dort die Beobachtung machen. Am Ende habe ich dann eine Begründung wie hoch der Schwellwert beim Algorithmusstart für ein MSA dieser bestimmten Klasse zu wählen ist.

    Aus dem Algorithmus, den man aktuell mit MSA und der 'Anzahl relevanter Werte' startet, wurde der Algorithmus, der den Parameter 'Anzahl relevanter Werte' gar nicht mehr braucht, sondern selbst einen statistisch gesicherten Wert vorschlägt.

    Passt so denke ich - oder habe ich irgendwo einen Denkfehler?



  • Jay1980 schrieb:

    Die Frage ist aus dem Bereich Bioinformatik. Proteine kann man als Zeichenkette darstellen. Bündelt man viele ähnliche solcher Zeichenketten mit bekannter Funktion, kann man die für die Funktion vielleicht relevanten Zeichenketten-Positionen ermitteln.

    Die Kurve sieht ähnlich einer Boltzmann-Verteilung aus, daher würde ich es mit so einer Verteilung probieren und dann die Kurve an die Meßwerte fitten. Dabei sollte man das Fehlermeß des Fits unbedingt im Auge behalten. Ist dieser zu groß muß man sich halt etwas anderes ausdenken. Explizite Test ob die Hypothese zutrifft, kannst Du dann anschließen durchführen.



  • Danke john, aber das muss ich erstmal durchdenken, was du mir da gesagt hast.

    Aktuell wollte ich einmal probieren eine Entscheidungsfunktion aufzustellen, wann ich mich für welche Hypothesen entscheide. Hier habe ich schnell eine Skizze mit den Kurven hingeklatscht: http://www.jochen-bauer.net/downloads/uwert-verteilung.png

    H0: ist Zufallswert, die Kurve ist denke ich normalverteilt, aber das werde ich noch testen.
    H1: ist biologisch relevant, also nicht mehr durch Zufall erklärbar.

    Der Wert ist normiert, liegt also zwischen 0 und 1. Jetzt lege ich eine Liste an,
    was ich bei welchem Messwert mache. Beim Fall 0.7 etwa ist die Sache klar, da entscheide ich mich für H1, da p(H0) 0 ist. Aber was mache ich beim Fall Messwert = 0.2?

    p( H0 ) = 5000/100000
    p( H1 ) = 2500/100000

    Wie komme ich an Werte, die meine Entsheidung stärken, klar sehe ich dass es wahrscheinlicher ist, dass H0 gilt, aber ich will ja irgendwie einen quantifizierten Fehler erster Art - wie könnte ich den bekommen?

    Danke vorab.


Log in to reply