OriginLab Corporation - Data Analysis and Graphing Software - 2D graphs, 3D graphs, Contour Plots, Statistical Charts, Data Exploration, Statistics, Curve Fitting, Signal Processing, and Peak Analysis     
 
Skip Navigation Links
All BooksExpand All Books
TutorialsExpand Tutorials
StatisticsExpand Statistics
Multivariate Analysis (OriginPro Only)Expand Multivariate Analysis (OriginPro Only)

Hauptkomponentenanalyse

Inhalt

Zusammenfassung

Die Hauptkomponentenanalyse eignet sich zum Reduzieren und Interpretieren von großen multivariaten Datensätzen mit zugrundeliegenden linearen Strukturen und zum Entdecken von unerwarteten Beziehungen.

Es wird von einem Datensatz ausgegangen, der den Eiweißverbrauch in 25 europäischen Ländern für neun Lebensmittelgruppen enthält. Mit Hilfe der Hauptkomponentenanalyse wird das Verhältnis zwischen Eiweißquellen und diesen europäischen Ländern untersucht.

Origin-Version mind. erforderlich: Origin 8.6 SR0

Hauptmethoden auswählen

Um die Anzahl der zu verbleibenden Hauptkomponenten zu ermitteln, sollten Sie zuerst die Hauptkomponentenanalyse durchführen und dann auf Grundlage deren Ergebnisses fortfahren:

  1. Öffnen Sie ein neues Projekt oder eine neue Arbeitsmappe. Importieren Sie die Datendatei \samples\Statistics\Protein Consumption in Europe.dat
  2. Markieren Sie das gesamte Arbeitsblatt und wählen Sie dann Statistik: Multivariate Analyse: Hauptkomponentenanalyse.
  3. Akzeptieren Sie die Standardeinstellungen in dem geöffneten Dialog und klicken Sie auf OK
  4. Wählen Sie das Blatt PCA Report aus.
  5. In der Tabelle Eigenwerte der Korrelationsmatrix können Sie sehen, dass die ersten vier Hauptkomponenten 86% der Varianz erklären und die verbleibenden Komponenten jeweils 5% oder weniger beitragen. Wir behalten vier Hauptkomponenten.
    PCA.png
  6. Ein Scree-Diagramm kann als visuelles Hilfsmittel beim Bestimmen der geeigneten Anzahl von Hauptkomponenten nützlich sein. Die Anzahl der Komponenten richtet sich nach dem Punkt, an dem die verbleibenden Eigenwerte relativ klein und ungefähr alle gleich groß sind. Dieser Punkt ist nicht sehr offensichtlich im Scree-Diagramm, trotzdem kann gesagt werden, dass der vierte Punkt dieser besondere Punkt ist.
    Pca scree plot.png
  7. Klicken Sie auf das Schlosssymbol Icon Recalculate Manual Green.png im Ergebnisbaum und wählen Sie Parameter ändern im Kontextmenü. Setzen Sie auf der Registerkarte Einstellungen die Anzahl der zu extrahierenden Komponenten auf 4. Schließen Sie den Dialog nicht; in den nächsten Schritten erstellen Sie die Diagramme der Komponenten.
    DOC-2411 Pca ex1 dialog1a Magenta.png

Abrufen von Hauptkomponentendiagrammen

Im Zweig Zeichnungen des Dialogs können Anwender wählen, ob sie ein Scree- oder ein Komponentendiagramm erstellen möchten.

  • Scree-Diagramm
    Das Scree-Diagramm ist eine nützliche visuelle Hilfe, um eine angemessene Anzahl von Hauptkomponenten zu bestimmen.
  • Komponentendiagramm
    Komponentendiagramme zeigen den Score der Komponenten jeder Beobachtung oder die Komponentenladung jeder Variable für ein Paar von Hauptkomponenten. In der Gruppe Hauptkomponenten zum Zeichnen auswählen können Anwender festlegen, welches Komponentenpaar gezeichnet werden soll. Die Komponentendiagramme umfassen:
    • Ladungsdiagramm
      Das Ladungsdiagramm ist eine Zeichnung der Beziehung zwischen den ursprünglichen Variablen und den Unterraumdimensionen. Es wird verwendet, um die Beziehungen zwischen den Variablen zu interpretieren.
    • Score-Diagramm
      Das Score-Diagramm ist eine Projektion von Daten auf den Unterraum. Es wird verwendet, um die Beziehungen zwischen den Beobachtungen zu interpretieren.
    • Biplot
      Der Biplot zeigt beide Ladungen und die Scores für beide ausgewählte Komponenten parallel.
  1. In dem Dialog, das in den vorherigen Schritten aufgerufen wurde, erweitern Sie den Zweig Zeichnungen. Stellen Sie sicher, dass Scree-Diagramm, Ladungsdiagramm und Biplot aktiviert sind.
  2. Die ersten beiden Komponenten sind normalerweise für den Großteil der Varianz verantwortlich. Deswegen zeichnen Sie das Komponentendiagramm im Raum der ersten beiden Hauptkomponenten. Setzen Sie in der Gruppe Hauptkomponenten zum Zeichnen auswählen die Hauptkomponente für X-Achse auf 1 und die Hauptkomponente für Y-Achse auf 2. Klicken Sie auf OK.
    DOC-2411 Pca ex1 dialog2a Magenta.png

Ergebnisse interpretieren

  1. In der Korrelationsmatrix können Sie sehen, dass die Variablen stark korreliert sind. Viele Werte sind größer als 0,3. Mit der Hauptkomponentenanalyse können Sie die Kollinearität entfernen.
    Pca ex1 correlation matrix.png
  2. Die Hauptkomponentenvariablen werden als lineare Kombinationen der ursprünglichen Variablen definiert. Die Tabelle Extrahierte Eigenwerte bietet Koeffizienten für Gleichungen.
    Pca ex1 extracted eigenvectors.png
    PC1=0,30261*RedMeat + 0,31056*WhiteMeat + 0,42668*Eggs + 0,37773*Milk + 0,13565*Fish - 0,43774*Cereals + 0,29725*Starch - 0,42033*Nuts - 0,11042*FruitsVegetables
    PC2=-0,05625*RedMeat - 0,23685*WhiteMeat - 0,03534*Eggs - 0,18459Milk + 0,64682*Fish - 0,23349*Cereals + 0,35283*Starch + 0,14331*Nuts + 0,53619*FruitsVegetables
    PC1=-0,29758*RedMeat + 0,6239*WhiteMeat + 0,18153*Eggs + 0,38566*Milk + 0,32127*Fish - 0,09592*Cereals + 0,24298*Starch - 0,05439*Nuts - 0,40756*FruitsVegetables
    PC4=0,64648*RedMeat - 0,03699*WhiteMeat + 0,31316Eggs - 0,00332*Milk - 0,21596*Fish - 0,0062*Cereals - 0,33668*Starch + 0,33029*Nuts + 0,46206*FruitsVegetables
  3. Das Ladungsdiagramm macht die Beziehungen zwischen den Variablen im Raum der ersten beiden Komponenten deutlich. Im Ladungsdiagramm ist zu sehen, dass rotes Fleisch, Eier, Milch und weißes Mehl ähnlich starke Ladungen für Hauptkomponente 1 haben. Fisch, Obst und Gemüse haben dagegen eine ähnliche Ladung für Hauptkomponente 2.
    Pca ex1 loading plot.png
  4. Der Biplot zeigt beide Ladungen und die Scores für beide ausgewählte Komponenten parallel. Er kann die Projektion der Beobachtung auf den Unterraum mit den Scorepunkten aufzeigen Außerdem kann er das Verhältnis von Beobachtungen und Variablen im Unterraum der ersten beiden Komponenten darstellen. (Hinweis: Klicken Sie doppelt auf das Diagramm, um es zu öffnen und benutzerdefiniert anzupassen.)
  5. Verwenden Sie das Hilfsmittel Datenkoordinaten Button Data Reader.png, um das Dateninfofenster zu öffnen und die Zeichnung in ihren Einzelheiten zu untersuchen. Es ist zu erkennen, dass die Eiweißquellen von Spanien und Portugal sich von denen der anderen europäischen Länder unterscheiden. Spanien und Portugal greifen mehr auf Obst und Gemüse zurück, während osteuropäische Ländern wie Albanien, Bulgarien, Jugoslawien und Rumänien Getreideprodukte und Nüsse bevorzugen.
    Pca ex1 biplot.png
Um Länderinformationen im Fenster Daten Info, wie im Bild oben zu sehen, anzuzeigen,
  1. klicken Sie mit der rechten Maustaste in das Fenster Daten Info und wählen Einstellungen.
  2. Verschieben Sie die Country auf der Registerkarte Zeilen vom linken Bedienfeld in das rechte. Klicken Sie auf OK.
    Pca data info settings.png

Um ein beliebiges 3D-Ladungsdiagramm zu erstellen, wie z.B. PC1-PC2-PC4 oder PC1-PC3-PC5:

  1. Klicken Sie auf das Schlosssymbol Icon Recalculate Manual Green.png im Ergebnisbaum und wählen Sie Parameter ändern im Kontextmenü. Setzen Sie auf der Registerkarte Einstellungen die Anzahl der zu extrahierenden Komponenten auf die entsprechende Anzahl. Wenn Sie beispielsweise ein Ladungsdiagramm für PC1-PC2-PC4 erstellen möchten, sollte Anzahl der zu extrahierenden Komponenten auf 4 gesetzt werden. Klicken Sie auf OK, um den Dialog zu schließen.
  2. Die Tabelle Extrahierte Eigenvektoren hat jetzt 4 Spalten. Um das Blatt PCA Plot Data1 zu duplizieren, markieren Sie das Blatt PCA Plot Data1 und klicken Sie mit der rechten Maustaste und wählen Sie Duplizieren. Benennen Sie dann das neue Blatt um in PCA Plot Data2.
  3. Angenommen, Sie möchten ein Ladungsdiagramm für PC1-PC2-PC4 zeichnen. Aktivieren Sie das Blatt PCA Plot Data2, markieren Sie Spalte Col (E) und klicken Sie mit der rechten Maustaste, um eine Spalte vor Col (E) einzufügen. Fügen Sie eine Spalte vor Col (G) ein. Markieren Sie zwei neue Spalten und klicken Sie mit der rechten Maustaste auf sie, um Setzen als: Als Z setzen auszuwählen.
  4. Benennen Sie den Langnamen von Col (H1) und Col (I1) in Hauptkomponente 4 um. Setzen Sie alle Eigenwerte von Col (H1) auf 0.
  5. Gehen Sie zu Blatt PCA1, kopieren Sie die Koeffizienten von PC4 in der Tabelle Extrahierte Eigenvektoren und fügen Sie diese in Spalte Col (I1) des Blatts PCA Plot Data2 ein.
  6. Markieren Sie Col (C) bis Col (I1) und wählen Sie Zeichnen: 3D-Symbol/-Bar/-Vektor: 3D-Vektor XYZ XYZ.
  7. Sie können die Zeichnung benutzerdefiniert anpassen, indem Sie die Vektorfarbe ändern und eine Beschriftung hinzufügen. Klicken Sie doppelt, um den Dialog Details Zeichnung zu öffnen, und gehen Sie zur Ebene Original. Wählen Sie die Registerkarte 3D-Vektor, legen Sie die Farbe mit Blau fest und die Breite mit 4; wechseln Sie zur Registerkarte Beschriftung und passen Sie mit folgenden Einstellungen an: Beschriftungsformat: Col(G), Position: Rechts, Größe: 20 und Anhängen an: Pfeilspitze. Klicken Sie auf OK, um den Dialog zu schließen. Das 3D-Ladungsdiagramm wurde, wie folgt, erstellt.

     

    3D loading plot.png


 

© OriginLab Corporation. Alle Rechte vorbehalten.