Αφήστε τη γραμμική παλινδρόμηση να είναι το πρώτο σας βήμα προς την προγνωστική ανάλυση.
Ας ξεκινήσουμε!!!

Περιεχόμενα

1. Εισαγωγή στη Γραμμική παλινδρόμηση.
2. Τύποι γραμμικής παλινδρόμησης.
3. Κατανόηση της απλής γραμμικής παλινδρόμησης.
4. Κατανόηση της πολλαπλής γραμμικής παλινδρόμησης.
5. Κατανόηση των υποθέσεων της γραμμικής Παλινδρόμηση.
6. Πώς λειτουργεί η συνάρτηση κόστους;
7. Τι είναι το Gradient Descent;

Εισαγωγή στη Γραμμική παλινδρόμηση.

Η γραμμική παλινδρόμηση είναι το εποπτευόμενο μοντέλο μηχανικής μάθησης στο οποίο το μοντέλο βρίσκει την καλύτερη προσαρμογή γραμμική γραμμή μεταξύ των ανεξάρτητων και των εξαρτημένων μεταβλητών.

Τύποι γραμμικής παλινδρόμησης

Υπάρχουν δύο τύποι εποπτευόμενων μοντέλων γραμμικής παλινδρόμησης.
1. Απλή γραμμική παλινδρόμηση.
2. Πολυγραμμική παλινδρόμηση.

Απλή γραμμική παλινδρόμηση

Μια στατιστική μέθοδος στην οποία υπάρχει μόνο μία ανεξάρτητη μεταβλητή και το μοντέλο πρέπει να βρει τη γραμμική σχέση της με την εξαρτημένη μεταβλητή.

  • Μία μεταβλητή που συμβολίζεται x, θεωρείται ως η επεξηγηματική ή ανεξάρτητη μεταβλητή.
  • Μία μεταβλητή, που συμβολίζεται με y, θεωρείται ως η απόκριση, η πρόβλεψη, το αποτέλεσμα ή η εξαρτημένη μεταβλητή.

Θεωρήστε το y ως το εισόδημά σας και το 𝑥1 ως την εκπαίδευσή σας, όσο περισσότερη εκπαίδευση έχετε τόσο υψηλότερο εισόδημα θα αποκτήσετε.
𝛽1λειτουργεί ως πολλαπλασιαστής και ποσοτικοποιεί το εισόδημα, ενώ το 𝛽0 είναι μια σταθερή τιμή (θεωρήστε το ως κατώτατο μισθό), οπότε αν έχετε 0 εκπαίδευση (𝑥1 = 0) θα λάβετε έναν κατώτατο μισθό.
𝜀 είναι το σφάλμα (κατά μέσο όρο το σφάλμα είναι 0).

𝒚̂: Εκτιμώμενη προβλεπόμενη τιμή.
𝒃𝟎: Τέμμα/σταθερά.
𝒃𝟏: Κλίση/ποσοτικοποιητής.
𝒙𝟏: Δείγμα δεδομένων για μια ανεξάρτητη μεταβλητή.

Πολλαπλή Γραμμική Παλινδρόμηση

Μια στατιστική μέθοδος μπορεί να χρησιμοποιηθεί για την ανάλυση της σχέσης μεταξύ μιας μεμονωμένης εξαρτημένης μεταβλητής και πολλαπλών ανεξάρτητων μεταβλητών.

  • Πολλαπλές μεταβλητές, που συμβολίζονται 𝒙𝟏, 𝒙𝟐, 𝒙𝟑, . . . . . . , 𝒙𝒏 θεωρούνται οι επεξηγηματικές ή ανεξάρτητες μεταβλητές. 
  • Μία μεταβλητή, που συμβολίζεται με y, θεωρείται ως η απόκριση, η πρόβλεψη, το αποτέλεσμα ή η εξαρτημένη μεταβλητή.

𝒚̂: Εκτιμώμενη προβλεπόμενη τιμή.
𝒃𝟎: Εντόπιση / σταθερά.
𝒃𝟏, 𝒃𝟐, 𝒃𝟑,… . . , 𝒃𝒏: Κλίση / ποσοτικοποιητής.
𝒙𝟏, 𝒙𝟐, 𝒙𝟑, … … , 𝒙𝒏: Δείγμα δεδομένων για ανεξάρτητη μεταβλητή.

Υποθέσεις Γραμμικής Παλινδρόμησης

Η παλινδρόμηση είναι μια παραμετρική προσέγγιση, που σημαίνει ότι κάνει υποθέσεις σχετικά με τα δεδομένα για σκοπούς ανάλυσης.
Για επιτυχή ανάλυση παλινδρόμησης, είναι απαραίτητο να επικυρωθούν οι ακόλουθες παραδοχές.

Υπάρχουν οι ακόλουθες πέντε υποθέσεις γραμμικής παλινδρόμησης.
1. Γραμμικότητα.
2. Χωρίς ενδογενή.
3. Κανονικότητα και ομοιοσκεδαστικότητα.
4. Δεν υπάρχει αυτόματη συσχέτιση υπολειμμάτων.
5. Χωρίς πολυσυγγραμμικότητα.

Γραμμικότητα

Η γραμμική παλινδρόμηση χρειάζεται η σχέση μεταξύ των ανεξάρτητων και των εξαρτημένων μεταβλητών να είναι γραμμική.

Η υπόθεση γραμμικότητας μπορεί καλύτερα να ελεγχθεί με διαγράμματα διασποράς, τα ακόλουθα δύο παραδείγματα απεικονίζουν δύο περιπτώσεις, όπου δεν υπάρχει γραμμικότητα και γραμμικότητα.

Χωρίς Ενδογένεια

Η ενδογένεια αναφέρεται σε καταστάσεις στις οποίες ένας προγνωστικός παράγοντας (π.χ. 𝐲̂) σε ένα μοντέλο γραμμικής παλινδρόμησης συσχετίζεται με τον όρο σφάλματος. Η ενδογένεια προκαλείται από την παραλειπόμενη μεταβλητή μεροληψία.

Η παραλειπόμενη μεροληψία μεταβλητής εμφανίζεται όταν ένα στατιστικό μοντέλο αποτυγχάνει να συμπεριλάβει μία ή περισσότερες σχετικές μεταβλητές.

Παράδειγμα:

Ας πούμε, θέλετε να προβλέψετε την επίδραση της εκπαίδευσης στους μισθούς των ανθρώπων.
Γνωρίζουμε ότι μόνο η εκπαίδευση δεν αρκεί για την πρόβλεψη των μισθών, η ικανότητα (ικανότητα) είναι επίσης ένας σημαντικός παράγοντας

Η μη συμπερίληψη της δυνατότητας θα προκαλέσει την παραλειπόμενη μεροληψία μεταβλητής. Ο μισθός είναι επίσης πιθανό να σχετίζεται με την ικανότητα, την οποία αποφασίσαμε προηγουμένως να αποκλείσουμε. Με τη σειρά της, η ικανότητα σχετίζεται επίσης με το επίπεδο εκπαίδευσης που αποκτά ένα άτομο, καθώς όσοι έχουν μεγαλύτερες ικανότητες είναι πιθανό να ακολουθήσουν τριτοβάθμια εκπαίδευση.

Η παραλειφθείσα μεταβλητή (ικανότητα) επηρεάζει την ανάλυσή σας τόσο για την εκπαίδευση (η ανεξάρτητη μεταβλητή) όσο και για τα κέρδη (την εξαρτημένη μεταβλητή).

Η ικανότητα βρίσκεται στον όρο σφάλματος λόγω ενδογενείας. Δεδομένου ότι η ικανότητα δεν είναι στο μοντέλο παλινδρόμησης, η εκτίμησή μας για το β1 θα απορροφήσει ορισμένες από τις επιπτώσεις της ικανότητας (καθώς συσχετίζεται με την εκπαίδευση).

Η εκτίμηση είναι πλέον μεροληπτική, επομένως δεν μπορούμε πλέον να κάνουμε αιτιώδη ισχυρισμό σχετικά με την εκπαίδευση.

Κανονικότητα & Ομοσκεδαστικότητα

Κανονικότητα σημαίνει ότι οι μεταβλητές σας πρέπει να ακολουθούν την κατανομή Gauss, μπορείτε να ελέγξετε την κανονικότητα χρησιμοποιώντας ιστογράμματα ή διαγράμματα Q-Q.

Εάν δεν παρατηρείται κανονικότητα, μετασχηματίστε τις μεταβλητές (χρησιμοποιώντας μετασχηματισμό log, εκθετικό μετασχηματισμό, αμοιβαίο μετασχηματισμό, μετασχηματισμό τετραγωνικής ρίζας, μετασχηματισμό box-cox, κ.λπ.).

Homo σημαίνει το ίδιο Scedasticity σημαίνει να διασκορπίζω, homoscedasticity σημαίνει να έχετε την ίδια διασπορά ή γενικά να έχετε την ίδια διακύμανση.

Μπορούμε να ελέγξουμε την ομοσκεδαστικότητα σχεδιάζοντας τις προβλεπόμενες τιμές έναντι των υπολειμμάτων, εάν το spread είναι ίσο, τότε η συνθήκη ομοσκεδαστικότητας πληρούται.

Το πλεονέκτημα της ομοιοσκεδαστικότητας είναι ότι η βέλτιστη γραμμή μπορεί να χωρέσει οπουδήποτε στο οικόπεδο λόγω της εξάπλωσης των υπολειμμάτων αποφεύγοντας τα σενάρια υπερπροσαρμογής και κακής προσαρμογής.

Χωρίς αυτόματο συσχετισμό υπολειμμάτων

Χωρίς αυτόματο συσχετισμό υπολειμμάτων σημαίνει ότι δεν θα πρέπει να υπάρχει συσχέτιση μεταξύ των υπολειμμάτων, που σημαίνει ότι όταν σχεδιάζετε τα υπολείμματα δεν πρέπει να ακολουθούν ένα συγκεκριμένο μοτίβο (+ve αυτοσυσχέτιση), πρέπει να διασκορπίζονται τυχαία (-ve autocorrelation).

Αυτό υποδηλώνει ότι το μοντέλο καταγράφει σωστά τις υποκείμενες σχέσεις στα δεδομένα και ότι οι προβλέψεις που γίνονται από το μοντέλο είναι αξιόπιστες.

Χωρίς Πολυσυγγραμμικότητα

Η πολυσυγγραμμικότητα παρατηρείται όταν δύο ή περισσότερες ανεξάρτητες μεταβλητές συσχετίζονται μεταξύ τους.
Εάν εντοπίσουμε κάποια μεταβλητή που προκαλεί πρόβλημα συγγραμμικότητας, πρέπει να την απορρίψουμε.

Παράδειγμα

Σκεφτείτε ένα παιδί που του αρέσει να βλέπει τηλεόραση και να τρώει σνακ. Τώρα, το παιδί βλέπει τηλεόραση ενώ τρώει σνακ, μπορείτε να πείτε ποια δραστηριότητα (είτε να παρακολουθεί τηλεόραση είτε να τρώει σνακ) αγαπά περισσότερο το παιδί; Δεν έχει δικαίωμα? επειδή του αρέσουν και τα δύο, επομένως δεν μπορούμε να αποφασίσουμε καθώς η παρακολούθηση τηλεόρασης και η κατανάλωση σνακ συσχετίζονται, για να αποφασίσουμε πρέπει να ρίξουμε μια μεταβλητή για να μπορέσουμε να αποφασίσουμε.

Η καλύτερη μέθοδος για τον έλεγχο της υπόθεσης συγγραμμικότητας είναι η μέθοδος Variance Inflation Factor.

Λειτουργία κόστους

Μια συνάρτηση κόστους είναι ο υπολογισμός των υπολειμμάτων μεταξύ των προβλεπόμενων και των πραγματικών τιμών.

Μας λέει πόσο άσχημα έχει το μοντέλο.

Βοηθά στην εύρεση των βέλτιστων τιμών των 𝜷𝟎 & 𝜷𝟏, με τέτοιο τρόπο ώστε να έχουμε όσο το δυνατόν μικρότερη τιμή της συνάρτησης κόστους.

Παράδειγμα

Ας εξετάσουμε ένα παράδειγμα συνάρτησης κόστους που χρησιμοποιεί απλή γραμμική παλινδρόμηση.
Καθώς θυμόμαστε την εξίσωση γραμμικής παλινδρόμησης,

Για απλή γραμμική παλινδρόμηση,

αντικαθιστούμε 𝒃𝟎 = 0

Η αντικατάσταση του 𝒃𝟎 = 𝟎 δεν κάνει τίποτα περισσότερο από το να περάσουμε τη γραμμή μας που ταιριάζει καλύτερα από την αρχή (μπορείτε να δοκιμάσετε να βάλετε μερικές τυχαίες τιμές των 𝒙𝟏 και 𝒃𝟏 λαμβάνοντας υπόψη 𝒃𝟎 = 𝟎, 𝟏, 𝟏, την ιδέα της επιλογής σας ή οποιαδήποτε τιμή πώς το 𝒃𝟎 επηρεάζει την εξίσωση).
Η αντικατάσταση του 𝒃𝟎 = 𝟎 θα μετατρέψει τη συνάρτηση κόστους ως,

όπου,
𝜷𝟏 είναι σταθερό
𝒙^𝒊 είναι η ανεξάρτητη μεταβλητή
𝒚^𝒊 είναι η παρατηρούμενη τιμή
𝒎 είναι ο συνολικός αριθμός των παρατηρήσεων

Λαμβάνοντας υπόψη τις ακόλουθες τιμές των 𝒙 & 𝒚.

Ας διορθώσουμε την τιμή του 𝜷𝟏 = 𝟎,

Ας διορθώσουμε την τιμή του 𝜷𝟏 = 𝟎. 𝟓,

Ας διορθώσουμε την τιμή του 𝜷𝟏 = 𝟏,

Εδώ σχεδιάσαμε πολλαπλές διαφορετικές τιμές του x χρησιμοποιώντας τη συνάρτηση κόστους για να ελαχιστοποιήσουμε την απώλεια.

Μπορούμε να παρατηρήσουμε ότι καθώς η τιμή του 𝜷𝟏 αυξάνεται ή μειώνεται, η συνάρτηση κόστους αυξάνεται εκτός από την περίπτωση που 𝜷𝟏 = 𝟏 στην οποία το κόστος είναι 0.

Gradient Descent

Το Gradient descent είναι ένας αλγόριθμος βελτιστοποίησης που χρησιμοποιείται για την εύρεση των τιμών των 𝜷𝟎 & 𝜷𝟏.

Αυτός ο αλγόριθμος χρησιμοποιείται καλύτερα όταν τα 𝜷𝟎 & 𝜷𝟏 δεν μπορούν να υπολογιστούν χειροκίνητα (χρησιμοποιώντας τη συνάρτηση κόστους).

Μπορούμε να χρησιμοποιήσουμε gradient descent για να ελαχιστοποιήσουμε τη συνάρτηση κόστους.

Το gradient descent λειτουργεί με βάση την τιμή του alpha (μια μικρή τιμή) που εκχωρούμε, η gradient descent κάνει τα παιδικά βήματα σύμφωνα με το alpha και προσπαθεί να φτάσει τα παγκόσμια ελάχιστα.

Γενικευμένη φόρμουλα,

Φόρμουλα με σεβασμό στα 𝜷𝟎 & 𝜷𝟏,

Συμπερασματικά, η γραμμική παλινδρόμηση είναι ένα ισχυρό και ευρέως χρησιμοποιούμενο εργαλείο για τη μοντελοποίηση και την πρόβλεψη αριθμητικών αποτελεσμάτων.

Ελπίζω να έχετε αποκτήσει μια εννοιολογική κατανόηση του αλγορίθμου γραμμικής παλινδρόμησης.

Εάν σας άρεσε το άρθρο μου, εξετάστε το ενδεχόμενο να υποστηρίξετε τη δουλειά μου κοινοποιώντας το και δίνοντάς του ένα χειροκρότημα. Σκοπεύω να γράψω περισσότερα άρθρα για τη μηχανική μάθηση στο μέλλον. 😃