Τα σχολεία του 💭 σε πιθανότητες — Συχνιστικές και Μπεϋζιανές

Ας θεωρήσουμε ότι έχουμε ένα σνακ σακουλάκι με M&M. Και προσπάθησε να μην τα φας, καλά ποιον κοροϊδεύω;

Σε αυτό το ιστολόγιο, θα παρουσιάσω διαφορετικές προσεγγίσεις σε ένα πρόβλημα πιθανοτήτων.

Κλασικό μοντέλο πιθανοτήτων:

Ας αναλογιστούμε ότι το σνακ σακουλάκι της M&M που έχουμε, περιέχει 50 κόκκινα, 50 μπλε, 50 καφέ και 50 πράσινα M&M. Εδώ έχουμε ίσες πιθανότητες (25%) να σχεδιάσουμε ένα κόκκινο, μπλε, καφέ ή πράσινο M&M. Κατά την κλασική πιθανότητα, το γράφουμε ως εξής:

P (παίρνοντας ένα κόκκινοM&M) = P (λαμβάνοντας ένα μπλεM&M) = P (λαμβάνοντας ένα καφέM&M) = P (λαμβάνοντας ένα μπλε ισχυρό>πράσινοM&M)

Γενικά, η κλασική πιθανότητα ισχύει όταν υπάρχει ένας πεπερασμένος αριθμός πιθανοτήτων. Για παράδειγμα, σε αυτό το παράδειγμα, η λήψη ενός κόκκινου M&M ή ενός μπλε M&M είναι εξίσου πιθανό και ποσοτικοποιήσιμο.

Η πιθανότητα ενός συμβάντος είναι ο λόγος του συνολικού αριθμού των φορών που θα μπορούσε να συμβεί ένα συμβάν (στην περίπτωσή μας λαμβάνοντας ένα κόκκινο M&M) προς τον συνολικό αριθμό των πιθανών αποτελεσμάτων.

Η κλασική προσέγγιση πιθανοτήτων περιορίζεται σε σενάρια στα οποία γνωρίζετε ποιες είναι όλες οι πιθανότητες, πόσες υπάρχουν και ότι αυτές οι επιλογές είναι πεπερασμένες.

Τι γίνεται αν ο αριθμός των δυνατοτήτων δεν είναι πεπερασμένος; Αυτό συμβαίνει όταν χρησιμοποιούμε μια προσέγγιση συχνότητας πιθανοτήτων.

Μοντέλο συχνότητας πιθανοτήτων:

Ας αναλογιστούμε ότι η σακούλα σνακ των καραμελών M&M περιέχει 50 κόκκινα, 50 μπλε, 50 καφέ και 50 πράσινα M&M. Αλλά τώρα, θα πάρουμε μια χούφτα M&M και θα τα φάμε. Τέλος, εσωτερική γαλήνη.

Τώρα, καθώς δεν γνωρίζουμε τον αριθμό χρωμάτων των M&M που αφαιρέθηκαν, δεν μπορούμε πλέον να χρησιμοποιήσουμε την κλασική προσέγγιση πιθανοτήτων.

Επειδή, για παράδειγμα, η χούφτα μου μπορεί να αποτελείται από 45 πράσινα M&M’s (ίσως, είμαι τόσο επιλεκτικός όταν πρόκειται για M&M). Τότε, θα μας έμεναν 50 κόκκινα, 50 μπλε, 50 καφέ και 5 πράσινα M&M. Και όταν παίρνετε το επόμενο M&M από την τσάντα, δεν μπορείτε να προβλέψετε την πιθανότητα. Αφού δεν ξέρεις το χρώμα των M&M που έχω φάει.

Χμ, φαίνεται ότι υπάρχει πρόβλημα. Τώρα, τι κάνουμε; Αυτό είναι όταν η προσέγγιση συχνότητας πιθανοτήτων εμφανίζεται στην εικόνα.

Ας υποθέσουμε ότι συνεχίζουμε να παίρνουμε ένα Μ&Μ από την τσάντα, σημειώνουμε το χρώμα και αντικαθιστούμε τα Μ&Μ στην τσάντα. Ας πούμε ότι την πρώτη φορά που παίρνουμε ένα M&M, παίρνουμε ένα κόκκινο. Τώρα, λάβετε υπόψη το χρώμα και ανακινήστε την τσάντα για να αποφύγετε τυχόν προκατάληψη κατά την παραλαβή του επόμενου M&M. Επαναλάβετε αυτή τη διαδικασία όσες φορές χρειάζεται για τη συλλογή δεδομένων.

Για παράδειγμα, έχω επαναλάβει τη διαδικασία 1000 φορές και σημείωσα τα δεδομένα. Το δείγμα δεδομένων που συλλέγεται μπορεί να μοιάζει με αυτό:

Με βάση αυτά τα δεδομένα, φαίνεται ότι έχω αφαιρέσει τα περισσότερα από τα πράσινα M&M. Έτσι, είναι ασφαλές να πούμε ότι μου αρέσουν τα Green M&Ms. Λοιπόν, αυτό θέτει το ερώτημα — Έχουν όλα τα M&M την ίδια γεύση; Λοιπόν, αυτό είναι μια ιστορία για άλλη φορά.

Η συχνή προσέγγιση της πιθανότητας δηλώνει ότι θα συλλέγαμε πολλά διαφορετικά σημεία εμπειρικών δεδομένων παίρνοντας τυχαία τα M&M από το σάκο επανειλημμένα για να προβλέψουμε την απαιτούμενη πιθανότητα.

Στην προσέγγιση Frequentist, η πιθανότητα ορίζεται ως όριο. Φανταστείτε να εκτελείτε αυτές τις δοκιμές ξανά και επανειλημμένα, και καθώς το n (ο αριθμός των φορών που έχουμε πάρει ένα M&M από την τσάντα) τείνει στο άπειρο, η αναλογία είναι ο αριθμός των περιστατικών που θέλετε να συμβούν, διαιρούμενος με τον συνολικό αριθμό των φορών που έχετε κάνει ένα M&M έξω από την τσάντα είναι η τιμή της πιθανότητας.

Η προσέγγιση συχνότητας είναι χρήσιμη όταν έχετε μια άγνωστη κατανομή του δείγματος. Έτσι, συλλέγετε μεγάλο όγκο δεδομένων και λέτε, Εντάξει, τώρα μπορώ να καταλάβω ποια θα είναι η πιθανότητα με βάση τις δοκιμές μου. Αυτή η μοντελοποίηση πιθανοτήτων που βασίζεται σε συχνότητες είναι επίσης η βασική αρχή για τη συχνότητα δοκιμής A/B.

Τώρα, τι γίνεται αν θέλουμε να προβλέψουμε την τιμή της μετοχής της Apple — $AAPL; Δεν μπορούμε να έχουμε πολλές πιθανότητες να αγοράσουμε τη μετοχή σε μια συγκεκριμένη στιγμή και τιμή. Υπάρχει μόνο μία ευκαιρία. Τι κάνεις? — Μπεϋζιανή προσέγγιση. Παρακάτω είναι ένα διάσημο επιχείρημα μεταξύ των προσεγγίσεων συχνότητας και της Bayesian πιθανοτήτων.

Μοντέλο πιθανοτήτων Bayes:

Ας υποθέσουμε ότι επιλέγω ένα M&M από τη σακούλα σνακ. Τώρα ξέρω τι χρώμα είναι το M&M. Ωστόσο, δεν πρόκειται να σας δείξω τι χρώμα είναι το M&M. Τώρα θα σας κάνω μια ερώτηση. Ποια είναι η πιθανότητα το M&M να είναι κόκκινο; Θα απαντούσατε στο 25% των περιπτώσεων. Ωστόσο, η απάντησή μου θα ήταν τελείως διαφορετική γιατί ξέρω περισσότερα για τα M&M από εσάς. Για παράδειγμα, η απάντησή μου, σε αυτήν την περίπτωση, θα ήταν 100% ή 0%, αφού ξέρω ότι γνωρίζω το χρώμα εκ των προτέρων (προηγούμενες πληροφορίες).

Με βάση τις διαθέσιμες πληροφορίες, το Bayesian Probability ενημερώνει την πιθανότητα του συμβάντος. Και η τιμή πιθανότητας εξαρτάται από τις διαθέσιμες πληροφορίες. Η προηγούμενη πιθανότητα σας, σε αυτήν την περίπτωση, ήταν 25%. Και αν σας έδειχνα το χρώμα των M&M, θα αυξούσατε την πιθανότητα στο 100% ή θα μείωνατε την πιθανότητα σας στο 0%.

Θα ενημερώσετε ουσιαστικά την πεποίθησή σας για την πιθανότητα (μεταγενέστερη πιθανότητα) από την αρχική τιμή πιθανότητας (προηγούμενη πεποίθηση) με βάση την πιθανότητα των γεγονότων (να δείξω το χρώμα του M&M).

Σε σύγκριση με την προσέγγιση Συχνότητας, η Μπεϋζιανή προσέγγιση αποθηκεύει τις προηγούμενες πληροφορίες σχετικά με παρόμοια πειράματα σε μια στατιστική μονάδα γνωστή ως προγενέστερη, η οποία στη συνέχεια συνδυάζεται με τα τρέχοντα δεδομένα πειράματος για να εξαχθεί ένα συμπέρασμα σχετικά με τη δοκιμή στην εικόνα. em>

Σύνοψη:

Τόσο οι συχνότητες όσο και οι στατιστικές Bayesian έχουν τα πλεονεκτήματα και τα μειονεκτήματά τους. Οι μέθοδοι συχνότητας δεν απαιτούν την κατασκευή ενός προηγούμενου. Οι μέθοδοι Bayes, από την άλλη πλευρά, βασίζονται στο προηγούμενο και στην πιθανότητα των παρατηρούμενων δεδομένων.

Δεν πρέπει να αποφασίζει κανείς για το ποια προσέγγιση είναι καλύτερη. Αντίθετα, ένας χρήστης μπορεί να χρησιμοποιήσει και τις δύο μεθόδους για να αναλύσει τα δεδομένα με βάση το σενάριο.

Βρήκα αυτή την εικόνα, η οποία θα συνόψιζε ολόκληρο το επιχείρημα μεταξύ της προσέγγισης Bayeaisan και Frequentist με έναν πιο καθηλωτικό τρόπο.

Αναφορές και περαιτέρω ανάγνωση:

[1] https://cxl.com/blog/bayesian-frequentist-ab-testing/

[2] https://lihan.me/2020/11/is-bayesian-approach-for-a-b-testing-overrated/

[3] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6406060/

Statistics Machine Learning Bayesian Statistics Frequentists Probability

παρόμοια υλικά:

Έργο Fullstack Generator URL με React18, ASP.NET Core WebAPI (.NET 7) και TypeScript

Ο πιγκουίνος μαγεύει

Super Easy Prettier + Eslint + Ενσωμάτωση VSCode

Πώς να προσεγγίσετε την εξαγωγή δομημένων δεδομένων από εικόνες

The Perpetual Student: Γιατί ένας Μηχανικός Λογισμικού μαθαίνει πάντα

Νέα υλικά

Έργο Fullstack Generator URL με React18, ASP.NET Core WebAPI (.NET 7) και TypeScript

Αυτό το άρθρο πρόκειται να παρουσιάσει το πρόσφατο βίντεο μου στο YouTube: Εισαγωγή Σε αυτό το βίντεο, θα δημιουργήσουμε ένα έργο Fullstack URL Generator χρησιμοποιώντας React18,..

Ο πιγκουίνος μαγεύει

Ουάου! Τι καταπληκτικό τριήμερο ήταν αυτό. Τι ευλογία που ήταν, δεν θα ήταν κανείς πιο ευγνώμων από το να είσαι μέλος του πιγκουίνου της ομάδας μας. Εδώ είναι το συναρπαστικό μέρος :Καταρχήν μας..

Super Easy Prettier + Eslint + Ενσωμάτωση VSCode

Super Easy Prettier + Eslint + Ενσωμάτωση VSCode Prettier + Eslint + Vscode + React όλα σε ένα πακέτο 📦 Εγκατάσταση όλων των εξαρτήσεων $ yarn add --dev eslint eslint-config-airbnb..

Πώς να προσεγγίσετε την εξαγωγή δομημένων δεδομένων από εικόνες

Έχω κάνει πολλή επεξεργασία εικόνας τον τελευταίο καιρό, με στόχο την εξαγωγή των δομημένων δεδομένων που είναι ορατά μέσα σε μια εικόνα. Ενώ έχω ακόμα φρέσκο μυαλό για αρχάριους και πολλά..

The Perpetual Student: Γιατί ένας Μηχανικός Λογισμικού μαθαίνει πάντα

Στον ταχέως εξελισσόμενο κόσμο της τεχνολογίας, οι μηχανικοί λογισμικού μαθαίνουν συνεχώς. Ο τομέας της ανάπτυξης λογισμικού είναι δυναμικός, με τα εργαλεία, τις γλώσσες, τα πλαίσια και τις..

Καθαρισμός δεδομένων, Επιλογή χαρακτηριστικών, Μοντελοποίηση και Ερμηνευσιμότητα

Ο καθαρισμός δεδομένων, η επιλογή χαρακτηριστικών, η μοντελοποίηση και η ερμηνευτικότητα είναι κρίσιμα βήματα για την ανάπτυξη ενός επιτυχημένου μοντέλου μηχανικής εκμάθησης. Τα ακριβή και..

Code Smell 210 - Dynamic Properties

Η τεμπελιά και η μαγεία φέρνουν ελαττώματα TL;DR: Να είστε ξεκάθαροι με τα χαρακτηριστικά σας Προβλήματα Ευανάγνωστο Ορισμός πεδίου εφαρμογής Απαρατήρητα τυπογραφικά λάθη..

Ετικέτες
Machine Learning JavaScript Data Science Artificial Intelligence Web Development Python Software Development Coding Deep Learning React AI Software Engineering Nodejs Front End Development Data Typescript Computer Science Tutorial Algorithms Java Tech NLP ChatGPT Golang Javascript Tips Development HTML Data Visualization Programming Languages Angular Code Swift Python Programming Startup Javascript Development Engineering Kotlin Open Source