t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2024)

In diesem Tutorial geht es um die z-Standardisierung (z-Transformation). Wir besprechen was der z-Wert ist, wie die z-Standardisierung funktioniert und was die Standardnormalverteilung ist. Außerdem wird hier erklärt, was die z-Wert-Tabelle ist und wofür sie verwendet wird.

Was ist die z-Standardisierung?

Die z-Standardisierung ist ein statistisches Verfahren, das dazu dient, Datenpunkte aus verschiedenen Datensätzen vergleichbar zu machen. Bei diesem Verfahren wird jeder Datenpunkt in einen z-Score umgewandelt. Ein z-Score gibt an, wie viele Standardabweichungen ein Datenpunkt vom Mittelwert des Datensatzes entfernt ist.

Beispiel z-Standardisierung

Angenommen, du bist Arzt oder Ärztin und möchtest den Blutdruck deiner Patienten untersuchen. Dazu hast du bei einer Stichprobe von 40 Patienten den Blutdruck gemessen. Aus den gemessenen Daten kannst du nun den Mittelwert berechnen, also den Wert, den die 40 Patienten im Durchschnitt haben.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (1)

Nun fragt dich einer der Patienten, wie hoch sein Blutdruck im Vergleich zu den anderen Patienten ist. Du sagst ihm, dass sein Blutdruck 10mmHg über dem Durchschnitt liegt. Jetzt stellt sich natürlich die Frage, ob 10mmHg viel oder wenig ist.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2)

Wenn die anderen Patienten sehr eng um den Mittelwert streuen, dann sind 10 mmHg viel im Verhältnis zur Streuung. Wenn die anderen Patienten jedoch sehr weit um den Mittelwert streuen, dann sind 10 mmHg vielleicht nicht so viel.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (3)

Wie stark die Daten streuen, sagt uns die Standardabweichung. Wenn die Daten nahe am Mittelwert liegen, haben wir eine kleine Standardabweichung, wenn sie stark streuen, haben wir eine große Standardabweichung.

Sagen wir, für unsere Daten erhalten wir eine Standardabweichung von 20 mmhg. Das heißt, dass im quadratischen Mittel die Patienten um 20 vom Mittelwert abweichen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (4)

Der z-Wert sagt uns nun, wie weit eine Person in Einheiten der Standardabweichung vom Mittelwert entfernt ist. Also eine Person, die eine Standardabweichung vom Mittelwert abweicht, hat einen z-Wert von 1, eine Person, die doppelt so weit vom Mittelwert abweicht, hat einen z-Wert von 2 und eine Person, die drei Standardabweichungen vom Mittelwert abweicht, hat einen z-Wert von 3.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (5)

Dementsprechend hat eine Person, die um minus eine Standardabweichung abweicht, einen z-Wert von -1, eine Person, die um minus zwei Standardabweichungen abweicht, einen z-Wert von minus 2 und eine Person, die um minus drei Standardabweichungen abweicht, einen z-Wert von minus 3.

Und wenn eine Person genau den Wert des Mittelwertes hat, dann weicht sie natürlich um null Standardabweichung vom Mittelwert ab und erhält den Wert null.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (6)

Der z-Wert gibt also an, wie viele Standardabweichungen ein Messwert vom Mittelwert entfernt ist. Wie bereits erwähnt, ist die Standardabweichung nur ein Maß für die Streuung des Blutdrucks der Patienten um den Mittelwert.

Kurz gesagt, der z-Wert hilft uns zu verstehen, wie außergewöhnlich oder normal ein bestimmter Messwert im Vergleich zum Gesamtdurchschnitt ist.

z-Wert berechnen

Wie berechnen wir den z-Wert? Wir wollen die Ausgangsdaten, in unserem Fall den Blutdruck, irgendwie in z-Werte umrechnen, also eine z-Standardisierung durchführen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (7)

Hier sehen wir die Formel für die z-Standardisierung. Hier ist z jener z-Wert, den wir berechnen wollen, x ist der beobachtete Wert, in unserem Fall der Blutdruck der betreffenden Person, μ ist der Mittelwert der Stichprobe, in unserem Fall also der Mittelwert aller 40 Patienten, und σ ist die Standardabweichung der Stichprobe, also die Standardabweichung unserer 40 Patienten.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (8)

Achtung: Eigentlich sind μ und σ der Mittelwert und die Standardabweichung der Grundgesamtheit. In unserem Fall haben wir aber nur eine Stichprobe. Unter bestimmten Voraussetzungen, auf die wir später noch eingehen werden, können wir jedoch den Mittelwert und die Standardabweichung mit Hilfe der Stichprobe schätzen.

Angenommen, in unserem Beispiel haben die 40 Patienten einen Mittelwert von 130 und eine Standardabweichung von 20. Wenn wir beide Werte einsetzen, erhalten wir für z: x-130 geteilt durch 20

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (9)

Nun können wir den Blutdruck von jedem einzelnen Patienten für x einsetzen und uns den z Wert berechnen. Machen wir das einfach mal für den ersten Patienten. Nehmen wir an, dieser Patient hat einen Blutdruck von 97, dann setzen wir einfach 97 für x ein und erhalten damit einen z-Wert von -1,65.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (10)

Diese Person weicht also um -1,65 Standardabweichungen vom Mittelwert ab. Das können wir jetzt für alle Patienten machen.

Unabhängig von der Einheit der Ausgangsdaten haben wir jetzt eine Übersicht, in der wir sehen können, wie weit eine Person vom Mittelwert in Einheiten der Standardabweichung abweicht.

Jetzt haben wir natürlich nur eine Stichprobe, die aus einer bestimmten Grundgesamtheit stammt. Aber wenn die Daten normalverteilt sind und die Stichprobengröße größer als 30 ist, dann können wir mit Hilfe des z-Wertes sagen, wie viel Prozent der Patienten einen niedrigeren Blutdruck als z.B. 110 haben und wie viel Prozent einen höheren Blutdruck als 110 haben.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (11)

Aber wie geht das? Wenn die Ausgangsdaten normalverteilt sind, erhalten wir durch die z-Standardisierung eine sogenannte Standardnormalverteilung.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (12)

Die Standardnormalverteilung ist eine bestimmte Art der Normalverteilung mit einem Mittelwert von 0 und einer Standardabweichung von 1.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (13)

Die Besonderheit besteht darin, dass jede Normalverteilung, unabhängig von ihrem Mittelwert oder ihrer Standardabweichung, in eine Standardnormalverteilung umgewandelt werden kann.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (14)

Da wir nun eine standardisierte Verteilung haben, brauchen wir eigentlich nur noch eine Tabelle, die uns für möglichst viele z-Werte sagt, wie viel Prozent der Werte unter diesem Wert liegen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (15)

Und eine solche Tabelle findest du in fast jedem Statistik Buch oder hier: Tabelle der z-Verteilung. Jetzt ist natürlich die Frage, wie man diese Tabelle liest?

Wenn wir z.B. einen z-Wert von -2 haben, dann können wir aus dieser Tabelle einen Wert von 0,0228 ablesen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (16)

Das bedeutet, dass 2,28% der Werte kleiner als ein z-Wert von -2 sind. Da die Summe immer 10% oder 1 beträgt, sind 97,72 % der Werte größer.

Bei einem z-Wert von Null liegen wir genau in der Mitte und erhalten einen Wert von 0,5. Dies bedeutet, dass 50% der Werte kleiner als ein z-Wert von 0 und 50% der Werte größer als 0 sind. Da die Normalverteilung symmetrisch ist, können wir die Wahrscheinlichkeiten für positive z-Werte genau ablesen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (17)

Wenn wir einen z-Wert von 1 haben, brauchen wir nur nach -1 zu suchen. Wir müssen jedoch beachten, dass wir in diesem Fall einen Wert erhalten, der uns sagt, wie viel Prozent der Werte größer als der z-Wert sind. Bei einem z-Wert von 1 sind also 15,81% der Werte größer und 84,14% der Werte kleiner.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (18)

Was aber, wenn wir z.B. aus der Tabelle einen z-Wert von -1,81 ablesen wollen? Dazu brauchen wir die anderen Spalten. Einen z-Wert von -1,81 können wir bei -1,8 und bei 0,01 ablesen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (19)

Nun schauen wir uns das Ganze noch einmal für einen Blutdruckwert an. Wenn wir z.B. wissen wollen, wie viel Prozent der Patienten einen Blutdruck unter 123 haben, können wir mit Hilfe der z-Standardisierung einen Blutdruck von 123 in einen z-Wert umrechnen. In diesem Fall erhalten wir einen z-Wert von -0,35.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (20)

Nun können wir die Tabelle mit den z-Verteilungen nehmen und nach einem z-Wert von -0,35 suchen. Hier haben wir einen Wert von 0,3632. Also 36,32 Prozent der Werte sind kleiner als ein z-Wert von -0,35 und 63,68 Prozent sind größer.

Verschiedene Datensätze vergleichen

Es gibt aber noch einen wichtigen Anwendungsfall für die z-Standardisierung. Die z-Standardisierung kann helfen, auf unterschiedliche Weise gemessene Werte vergleichbar zu machen. Hier ein Beispiel.

Angenommen, wir haben zwei Klassen, Klasse A und Klasse B, die einen unterschiedlichen Test in Mathematik geschrieben haben.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (21)

Die Tests sind unterschiedlich gestaltet, haben einen unterschiedlichen Schwierigkeitsgrad und eine unterschiedliche maximale Punktzahl.

Um die Leistungen der Schüler der beiden Klassen fair vergleichen zu können, können wir die Z-Standardisierung anwenden.

Die durchschnittliche Punktzahl bzw. der Mittelwert der Klasse A betrug 70 Punkte mit einer Standardabweichung von 10 Punkten. Die durchschnittliche Punktzahl für den Test in Klasse B betrug 140 Punkte mit einer Standardabweichung von 20 Punkten.

Wir wollen nun die Leistung von Max aus der Klasse A, der 80 Punkte erreicht hat, mit der Leistung von Emma aus der Klasse B, die 160 Punkte erreicht hat, vergleichen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (22)

Hierfür berechnen wir den z-Wert von Max und Emma. Wir tragen für x einmal 80 ein und erhalten einen z-Wert von 1. Und wir tragen 160 für x ein und erhalten ebenfalls einen z-Wert von 1.

Die z-Werte von Max und Emma sind also gleich. Das bedeutet, dass beide Schulkinder in Bezug auf die durchschnittliche Leistung und die Streuung in ihrer jeweiligen Klasse gleich gut abgeschnitten haben. Beide liegen genau eine Standardabweichung über dem Mittelwert ihrer Klasse.

Voraussetzungen

Aber was ist mit den Voraussetzungen? Können wir einfach eine z-Standardisierung berechnen und die Tabelle der Standardnormalverteilung verwenden?

Die z-Standardisierung selbst, d.h. die Umrechnung der Datenpunkte in z-Werte mit Hilfe dieser Formel, unterliegt im Wesentlichen keinen strengen Voraussetzungen. Sie kann unabhängig von der Datenverteilung durchgeführt werden.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (23)

Wenn wir jedoch die resultierenden z-Werte im Kontext der Standardnormalverteilung für statistische Analysen verwenden (z.B. für Hypothesentests oder Konfidenzintervalle), müssen bestimmte Bedingungen erfüllt sein.

Die z-Verteilung setzt voraus, dass die zugrunde liegende Grundgesamtheit normalverteilt ist und dass der Mittelwert (μ) und die Standardabweichung (σ) der Grundgesamtheit bekannt sind.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (24)

Da in der Praxis aber selten die gesamte Grundgesamtheit vorhanden ist und auch Mittelwert und Standardabweichung meist nicht bekannt sind, ist diese Voraussetzung natürlich oft nicht erfüllt. Glücklicherweise gibt es aber noch eine alternative Voraussetzung.

Obwohl die z-Verteilung für normalverteilte Grundgesamtheiten definiert ist, kann der Zentrale Grenzwertsatz auf große Stichproben angewendet werden. Dieser Satz besagt, dass sich die Verteilung der Stichprobe einer Normalverteilung annähert, wenn der Stichprobenumfang größer als 30 ist.

Wenn also die Stichprobe größer als 30 ist, kann die Standardnormalverteilung als Annäherung verwendet werden und der Mittelwert und die Standardabweichung können mit Hilfe der Stichprobe geschätzt werden.

Wenn die Standardabweichung aus der Stichprobe geschätzt wird, schreibt man üblicherweise s anstelle von σ und für den Mittelwert x Strich anstelle von mu.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (25)

Die z-Standardisierung darf nicht mit dem z-Test oder dem t-Test verwechselt werden. Wenn du wissen möchtest, was der t-Test ist, kannst du dir das folgende Video ansehen.

t-Test, Chi-Quadrat, ANOVA, Regression, Korrelation... (2024)

FAQs

When to use chi-square vs ANOVA vs t-test? ›

While t-tests and ANOVA primarily deal with continuous dependent variables, Chi-Square tests come into play when there is a categorical dependent variable, often in the context of logistic regression.

Is ANOVA a correlation or regression? ›

Thus, ANOVA can be considered as a case of a linear regression in which all predictors are categorical. The difference that distinguishes linear regression from ANOVA is the way in which results are reported in all common Statistical Softwares.

What is the use of t-test, ANOVA, correlation, and regression in research? ›

The Student's t test is used to compare the means between two groups, whereas ANOVA is used to compare the means among three or more groups. In ANOVA, first gets a common P value. A significant P value of the ANOVA test indicates for at least one pair, between which the mean difference was statistically significant.

How do you interpret t-test results in regression analysis? ›

The t-test assesses whether the beta coefficient is significantly different from zero. If the beta coefficient is not statistically significant (i.e., the t-value is not significant), the variable does not significantly predict the outcome. If the beta coefficient is significant, examine the sign of the beta.

Why is ANOVA test better than t-test? ›

T-tests need to handle multiple comparisons better. Conducting multiple t-tests between different pairs of groups increases the likelihood of Type I errors (false positives). ANOVA incorporates post hoc tests (e.g., Tukey's test, Bonferroni correction) to handle multiple comparisons and control the overall error rate.

Why do we use t-test instead of chi-square? ›

The t-test and the chi-square test are two different statistical tests used for different types of data. The t-test is used to compare the means of two groups and is suitable for continuous numerical data. On the other hand, the chi-square test is used to examine the association between two categorical variables.

When should we use regression instead of ANOVA? ›

If you're interested in predicting an outcome or understanding the relationship between variables, regression is your go-to method. But if your focus is on comparing means and determining whether differences are significant, ANOVA is the tool of choice.

When to use t test vs correlation? ›

Correlation is a statistic that describes the association between two variables. The correlation statistic can be used for continuous variables or binary variables or a combination of continuous and binary variables. In contrast, t-tests examine whether there are significant differences between two group means.

What is the difference between t test and regression? ›

The main difference is that t-tests and ANOVAs involve the use of categorical predictors, while linear regression involves the use of continuous predictors. When we start to recognise whether our data is categorical or continuous, selecting the correct statistical analysis becomes a lot more intuitive.

When not to use ANOVA? ›

ANOVA requires the dependent variable to be continuous (interval/ratio), and the independent variable to be categorical (nominal/ordinal). If your variables do not meet these requirements, then ANOVA may not be the best choice.

When to use a chi-square test? ›

You can use a chi-square test of independence when you have two categorical variables. It allows you to test whether the two variables are related to each other. If two variables are independent (unrelated), the probability of belonging to a certain group of one variable isn't affected by the other variable.

Which statistical test should I use? ›

If distribution of the data is not normal or if one is not sure about the distribution, it is safer to use non-parametric tests. When comparing more than two sets of numerical data, a multiple group comparison test such as one-way analysis of variance (ANOVA) or Kruskal-Wallis test should be used first.

What is a good p-value in regression? ›

A common threshold of the P-value is 0.05. Note: A P-value of 0.05 means that 5% of the times, we will falsely reject the null hypothesis.

What is the ANOVA in regression interpretation? ›

Analysis of Variance (ANOVA) consists of calculations that provide information about levels of variability within a regression model and form a basis for tests of significance. The basic regression line concept, DATA = FIT + RESIDUAL, is rewritten as follows: (yi - ) = ( i - ) + (yi - i).

What is an acceptable t-value in regression? ›

Generally, any t-value greater than +2 or less than - 2 is acceptable.

When should a chi-square test be used? ›

A chi-square test is used to help determine if observed results are in line with expected results and to rule out that observations are due to chance. A chi-square test is appropriate for this when the data being analyzed is from a random sample, and when the variable in question is a categorical variable.

When should you use an ANOVA test? ›

Use a one-way ANOVA when you have collected data about one categorical independent variable and one quantitative dependent variable. The independent variable should have at least three levels (i.e. at least three different groups or categories).

When ANOVA is used and why it is a better way than performing multiple t-tests What is the purpose of doing a post hoc test? ›

Post hoc tests attempt to control the experimentwise error rate (usually alpha = 0.05) in the same manner that the one-way ANOVA is used instead of multiple t-tests. Post hoc tests are termed a posteriori tests; that is, performed after the event (the event in this case being a study).

When to use a t-test? ›

A t test is appropriate to use when you've collected a small, random sample from some statistical “population” and want to compare the mean from your sample to another value. The value for comparison could be a fixed value (e.g., 10) or the mean of a second sample.

References

Top Articles
Latest Posts
Article information

Author: Geoffrey Lueilwitz

Last Updated:

Views: 5305

Rating: 5 / 5 (80 voted)

Reviews: 87% of readers found this page helpful

Author information

Name: Geoffrey Lueilwitz

Birthday: 1997-03-23

Address: 74183 Thomas Course, Port Micheal, OK 55446-1529

Phone: +13408645881558

Job: Global Representative

Hobby: Sailing, Vehicle restoration, Rowing, Ghost hunting, Scrapbooking, Rugby, Board sports

Introduction: My name is Geoffrey Lueilwitz, I am a zealous, encouraging, sparkling, enchanting, graceful, faithful, nice person who loves writing and wants to share my knowledge and understanding with you.