Ας θεωρήσουμε ότι έχουμε ένα σνακ σακουλάκι με M&M. Και προσπάθησε να μην τα φας, καλά ποιον κοροϊδεύω;

Σε αυτό το ιστολόγιο, θα παρουσιάσω διαφορετικές προσεγγίσεις σε ένα πρόβλημα πιθανοτήτων.

Κλασικό μοντέλο πιθανοτήτων:

Ας αναλογιστούμε ότι το σνακ σακουλάκι της M&M που έχουμε, περιέχει 50 κόκκινα, 50 μπλε, 50 καφέ και 50 πράσινα M&M. Εδώ έχουμε ίσες πιθανότητες (25%) να σχεδιάσουμε ένα κόκκινο, μπλε, καφέ ή πράσινο M&M. Κατά την κλασική πιθανότητα, το γράφουμε ως εξής:

P (παίρνοντας ένα κόκκινοM&M) = P (λαμβάνοντας ένα μπλεM&M) = P (λαμβάνοντας ένα καφέM&M) = P (λαμβάνοντας ένα μπλε ισχυρό>πράσινοM&M)

Γενικά, η κλασική πιθανότητα ισχύει όταν υπάρχει ένας πεπερασμένος αριθμός πιθανοτήτων. Για παράδειγμα, σε αυτό το παράδειγμα, η λήψη ενός κόκκινου M&M ή ενός μπλε M&M είναι εξίσου πιθανό και ποσοτικοποιήσιμο.

Η πιθανότητα ενός συμβάντος είναι ο λόγος του συνολικού αριθμού των φορών που θα μπορούσε να συμβεί ένα συμβάν (στην περίπτωσή μας λαμβάνοντας ένα κόκκινο M&M) προς τον συνολικό αριθμό των πιθανών αποτελεσμάτων.

Η κλασική προσέγγιση πιθανοτήτων περιορίζεται σε σενάρια στα οποία γνωρίζετε ποιες είναι όλες οι πιθανότητες, πόσες υπάρχουν και ότι αυτές οι επιλογές είναι πεπερασμένες.

Τι γίνεται αν ο αριθμός των δυνατοτήτων δεν είναι πεπερασμένος; Αυτό συμβαίνει όταν χρησιμοποιούμε μια προσέγγιση συχνότητας πιθανοτήτων.

Μοντέλο συχνότητας πιθανοτήτων:

Ας αναλογιστούμε ότι η σακούλα σνακ των καραμελών M&M περιέχει 50 κόκκινα, 50 μπλε, 50 καφέ και 50 πράσινα M&M. Αλλά τώρα, θα πάρουμε μια χούφτα M&M και θα τα φάμε. Τέλος, εσωτερική γαλήνη.

Τώρα, καθώς δεν γνωρίζουμε τον αριθμό χρωμάτων των M&M που αφαιρέθηκαν, δεν μπορούμε πλέον να χρησιμοποιήσουμε την κλασική προσέγγιση πιθανοτήτων.

Επειδή, για παράδειγμα, η χούφτα μου μπορεί να αποτελείται από 45 πράσινα M&M’s (ίσως, είμαι τόσο επιλεκτικός όταν πρόκειται για M&M). Τότε, θα μας έμεναν 50 κόκκινα, 50 μπλε, 50 καφέ και 5 πράσινα M&M. Και όταν παίρνετε το επόμενο M&M από την τσάντα, δεν μπορείτε να προβλέψετε την πιθανότητα. Αφού δεν ξέρεις το χρώμα των M&M που έχω φάει.

Χμ, φαίνεται ότι υπάρχει πρόβλημα. Τώρα, τι κάνουμε; Αυτό είναι όταν η προσέγγιση συχνότητας πιθανοτήτων εμφανίζεται στην εικόνα.

Ας υποθέσουμε ότι συνεχίζουμε να παίρνουμε ένα Μ&Μ από την τσάντα, σημειώνουμε το χρώμα και αντικαθιστούμε τα Μ&Μ στην τσάντα. Ας πούμε ότι την πρώτη φορά που παίρνουμε ένα M&M, παίρνουμε ένα κόκκινο. Τώρα, λάβετε υπόψη το χρώμα και ανακινήστε την τσάντα για να αποφύγετε τυχόν προκατάληψη κατά την παραλαβή του επόμενου M&M. Επαναλάβετε αυτή τη διαδικασία όσες φορές χρειάζεται για τη συλλογή δεδομένων.

Για παράδειγμα, έχω επαναλάβει τη διαδικασία 1000 φορές και σημείωσα τα δεδομένα. Το δείγμα δεδομένων που συλλέγεται μπορεί να μοιάζει με αυτό:

Με βάση αυτά τα δεδομένα, φαίνεται ότι έχω αφαιρέσει τα περισσότερα από τα πράσινα M&M. Έτσι, είναι ασφαλές να πούμε ότι μου αρέσουν τα Green M&Ms. Λοιπόν, αυτό θέτει το ερώτημα — Έχουν όλα τα M&M την ίδια γεύση; Λοιπόν, αυτό είναι μια ιστορία για άλλη φορά.

Η συχνή προσέγγιση της πιθανότητας δηλώνει ότι θα συλλέγαμε πολλά διαφορετικά σημεία εμπειρικών δεδομένων παίρνοντας τυχαία τα M&M από το σάκο επανειλημμένα για να προβλέψουμε την απαιτούμενη πιθανότητα.

Στην προσέγγιση Frequentist, η πιθανότητα ορίζεται ως όριο. Φανταστείτε να εκτελείτε αυτές τις δοκιμές ξανά και επανειλημμένα, και καθώς το n (ο αριθμός των φορών που έχουμε πάρει ένα M&M από την τσάντα) τείνει στο άπειρο, η αναλογία είναι ο αριθμός των περιστατικών που θέλετε να συμβούν, διαιρούμενος με τον συνολικό αριθμό των φορών που έχετε κάνει ένα M&M έξω από την τσάντα είναι η τιμή της πιθανότητας.

Η προσέγγιση συχνότητας είναι χρήσιμη όταν έχετε μια άγνωστη κατανομή του δείγματος. Έτσι, συλλέγετε μεγάλο όγκο δεδομένων και λέτε, Εντάξει, τώρα μπορώ να καταλάβω ποια θα είναι η πιθανότητα με βάση τις δοκιμές μου. Αυτή η μοντελοποίηση πιθανοτήτων που βασίζεται σε συχνότητες είναι επίσης η βασική αρχή για τη συχνότητα δοκιμής A/B.

Τώρα, τι γίνεται αν θέλουμε να προβλέψουμε την τιμή της μετοχής της Apple — $AAPL; Δεν μπορούμε να έχουμε πολλές πιθανότητες να αγοράσουμε τη μετοχή σε μια συγκεκριμένη στιγμή και τιμή. Υπάρχει μόνο μία ευκαιρία. Τι κάνεις? — Μπεϋζιανή προσέγγιση. Παρακάτω είναι ένα διάσημο επιχείρημα μεταξύ των προσεγγίσεων συχνότητας και της Bayesian πιθανοτήτων.

Μοντέλο πιθανοτήτων Bayes:

Ας υποθέσουμε ότι επιλέγω ένα M&M από τη σακούλα σνακ. Τώρα ξέρω τι χρώμα είναι το M&M. Ωστόσο, δεν πρόκειται να σας δείξω τι χρώμα είναι το M&M. Τώρα θα σας κάνω μια ερώτηση. Ποια είναι η πιθανότητα το M&M να είναι κόκκινο; Θα απαντούσατε στο 25% των περιπτώσεων. Ωστόσο, η απάντησή μου θα ήταν τελείως διαφορετική γιατί ξέρω περισσότερα για τα M&M από εσάς. Για παράδειγμα, η απάντησή μου, σε αυτήν την περίπτωση, θα ήταν 100% ή 0%, αφού ξέρω ότι γνωρίζω το χρώμα εκ των προτέρων (προηγούμενες πληροφορίες).

Με βάση τις διαθέσιμες πληροφορίες, το Bayesian Probability ενημερώνει την πιθανότητα του συμβάντος. Και η τιμή πιθανότητας εξαρτάται από τις διαθέσιμες πληροφορίες. Η προηγούμενη πιθανότητα σας, σε αυτήν την περίπτωση, ήταν 25%. Και αν σας έδειχνα το χρώμα των M&M, θα αυξούσατε την πιθανότητα στο 100% ή θα μείωνατε την πιθανότητα σας στο 0%.

Θα ενημερώσετε ουσιαστικά την πεποίθησή σας για την πιθανότητα (μεταγενέστερη πιθανότητα) από την αρχική τιμή πιθανότητας (προηγούμενη πεποίθηση) με βάση την πιθανότητα των γεγονότων (να δείξω το χρώμα του M&M).

Σε σύγκριση με την προσέγγιση Συχνότητας, η Μπεϋζιανή προσέγγιση αποθηκεύει τις προηγούμενες πληροφορίες σχετικά με παρόμοια πειράματα σε μια στατιστική μονάδα γνωστή ως προγενέστερη, η οποία στη συνέχεια συνδυάζεται με τα τρέχοντα δεδομένα πειράματος για να εξαχθεί ένα συμπέρασμα σχετικά με τη δοκιμή στην εικόνα. em>

Σύνοψη:

Τόσο οι συχνότητες όσο και οι στατιστικές Bayesian έχουν τα πλεονεκτήματα και τα μειονεκτήματά τους. Οι μέθοδοι συχνότητας δεν απαιτούν την κατασκευή ενός προηγούμενου. Οι μέθοδοι Bayes, από την άλλη πλευρά, βασίζονται στο προηγούμενο και στην πιθανότητα των παρατηρούμενων δεδομένων.

Δεν πρέπει να αποφασίζει κανείς για το ποια προσέγγιση είναι καλύτερη. Αντίθετα, ένας χρήστης μπορεί να χρησιμοποιήσει και τις δύο μεθόδους για να αναλύσει τα δεδομένα με βάση το σενάριο.

Βρήκα αυτή την εικόνα, η οποία θα συνόψιζε ολόκληρο το επιχείρημα μεταξύ της προσέγγισης Bayeaisan και Frequentist με έναν πιο καθηλωτικό τρόπο.

Αναφορές και περαιτέρω ανάγνωση:

[1] https://cxl.com/blog/bayesian-frequentist-ab-testing/

[2] https://lihan.me/2020/11/is-bayesian-approach-for-a-b-testing-overrated/

[3] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6406060/