Υπολογισμός ακραίων τιμών

Συγγραφέας: Charles Brown
Ημερομηνία Δημιουργίας: 8 Φεβρουάριος 2021
Ημερομηνία Ενημέρωσης: 1 Ιούλιος 2024
Anonim
Φ.Π.Α ΜΕΡΟΣ 2 | Υπολογισμός τιμής χωρίς το ΦΠΑ
Βίντεο: Φ.Π.Α ΜΕΡΟΣ 2 | Υπολογισμός τιμής χωρίς το ΦΠΑ

Περιεχόμενο

ΕΝΑ ακραία ή ακραία Στα στατιστικά στοιχεία είναι ένα σημείο δεδομένων που διαφέρει σημαντικά από τα άλλα σημεία δεδομένων σε ένα δείγμα. Συχνά, οι ακραίες τιμές δείχνουν ασυμφωνίες ή σφάλματα στις μετρήσεις στους στατιστικολόγους, μετά τις οποίες μπορούν να αφαιρέσουν το ακραίο σημείο από το σύνολο δεδομένων. Εάν στην πραγματικότητα επιλέξουν να αφαιρέσουν τα ακραία σημεία από το σύνολο δεδομένων, θα μπορούσε να προκαλέσει σημαντικές αλλαγές στα συμπεράσματα που προέκυψαν από τη μελέτη. Αυτός είναι ο λόγος για τον οποίο είναι σημαντικό να υπολογίσετε και να καθορίσετε τα ακραία σημεία εάν θέλετε να ερμηνεύσετε σωστά τα στατιστικά δεδομένα.

Για να πας

  1. Μάθετε πώς να εντοπίζετε πιθανά ακραία σημεία. Προτού μπορέσουμε να αποφασίσουμε εάν θα αφαιρέσουμε ανώμαλες τιμές από ένα συγκεκριμένο σύνολο δεδομένων, πρέπει φυσικά πρώτα να προσδιορίσουμε τα πιθανά ακραία σημεία στο σύνολο δεδομένων. Σε γενικές γραμμές, τα ακραία σημεία είναι τα σημεία δεδομένων που αποκλίνουν σημαντικά από την τάση που διαμορφώνουν τις άλλες τιμές στο σύνολο - με άλλα λόγια, βγαίνω των άλλων τιμών. Συνήθως είναι εύκολο να το αναγνωρίσεις σε πίνακες και (ειδικά) σε γραφήματα. Εάν το σύνολο δεδομένων έχει γραφική παράσταση οπτικά, τα ακραία σημεία θα είναι "μακριά" από τις άλλες τιμές. Για παράδειγμα, εάν τα περισσότερα σημεία σε ένα σύνολο δεδομένων σχηματίζουν ευθεία γραμμή, τα ακραία σημεία δεν θα συμμορφώνονται με αυτήν τη γραμμή.
    • Ας ρίξουμε μια ματιά σε ένα σύνολο δεδομένων που δείχνει τις θερμοκρασίες 12 διαφορετικών αντικειμένων σε ένα δωμάτιο. Εάν η θερμοκρασία των 11 αντικειμένων κυμαίνεται κατά μερικούς βαθμούς το πολύ περίπου 21 ° C, ενώ ένα αντικείμενο, ένας φούρνος, έχει θερμοκρασία 150 ° C, μπορείτε να δείτε με μια ματιά ότι ο φούρνος είναι πιθανότατα ένα εξωτερικό.
  2. Ταξινόμηση όλων των σημείων δεδομένων από το χαμηλότερο στο υψηλότερο. Το πρώτο βήμα στον υπολογισμό των ακραίων τιμών είναι η εύρεση της μέσης τιμής (ή της μέσης τιμής) του συνόλου δεδομένων. Αυτή η εργασία γίνεται πολύ πιο εύκολη εάν οι τιμές στο σύνολο είναι από τη χαμηλότερη έως την υψηλότερη. Έτσι, προτού συνεχίσετε, ταξινομήστε τις τιμές στο σύνολο δεδομένων σας ως εξής.
    • Ας συνεχίσουμε με το παραπάνω παράδειγμα. Ακολουθεί το σύνολο δεδομένων μας που δείχνει τις θερμοκρασίες σε βαθμούς Φαρενάιτ διαφορετικών αντικειμένων σε ένα δωμάτιο: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Εάν ταξινομήσουμε τις τιμές στο σύνολο από το χαμηλότερο στο υψηλότερο, αυτό γίνεται το νέο μας σύνολο: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Υπολογίστε τη μέση τιμή του συνόλου δεδομένων. Το διάμεσο ενός συνόλου δεδομένων είναι το σημείο δεδομένων όπου τα μισά δεδομένα βρίσκονται πάνω από αυτό και τα μισά από τα δεδομένα είναι κάτω από αυτό - είναι στην πραγματικότητα το "κέντρο" του συνόλου δεδομένων. Εάν το σύνολο δεδομένων περιέχει έναν περίεργο αριθμό σημείων, ο διάμεσος είναι εύκολο να βρεθεί - ο διάμεσος είναι το σημείο με τόσα περισσότερα σημεία όπως παρακάτω. Εάν υπάρχει ένας ζυγός αριθμός πόντων, επειδή δεν υπάρχει ένα κέντρο, πρέπει να πάρετε τον μέσο όρο των δύο κεντρικών πόντων για να βρείτε τη διάμεση. Κατά τον υπολογισμό των ακραίων τιμών, ο διάμεσος αναφέρεται συνήθως από τη μεταβλητή Q2 - επειδή βρίσκεται μεταξύ Q1 και Q3, του πρώτου και του τρίτου τεταρτημορίου. Θα προσδιορίσουμε αυτές τις μεταβλητές αργότερα.
    • Μην μπερδεύεστε από σύνολα δεδομένων με ζυγό αριθμό σημείων - ο μέσος όρος των δύο μεσαίων σημείων είναι συχνά ένας αριθμός που δεν υπάρχει στο ίδιο το σύνολο δεδομένων - αυτό είναι εντάξει. Ωστόσο, εάν τα δύο μεσαία σημεία είναι τα ίδια, ο μέσος όρος θα είναι φυσικά και αυτός ο αριθμός - επίσης αυτός είναι εντάξει.
    • Στο παράδειγμά μας έχουμε 12 βαθμούς. Οι δύο μεσαίοι όροι είναι τα σημεία 6 και 7 - 70 και 71, αντίστοιχα. Επομένως, ο μέσος όρος του συνόλου δεδομένων μας είναι ο μέσος όρος αυτών των δύο σημείων: ((70 + 71) / 2) =70,5.
  4. Υπολογίστε το πρώτο τεταρτημόριο. Αυτό το σημείο, το οποίο δηλώνουμε με τη μεταβλητή Q1, είναι το σημείο δεδομένων κάτω από το οποίο βρίσκεται το 25 τοις εκατό (ή το ένα τέταρτο) των παρατηρήσεων. Με άλλα λόγια, αυτό είναι το κέντρο όλων των σημείων στο σύνολο δεδομένων σας παρακάτω ο διάμεσος. Εάν υπάρχει ένας ζυγός αριθμός τιμών κάτω από τη διάμεση τιμή, πρέπει να πάρετε ξανά τον μέσο όρο των δύο μεσαίων τιμών για να βρείτε το Q1, όπως θα μπορούσατε να έχετε κάνει για να προσδιορίσετε τον ίδιο τον διάμεσο.
    • Στο παράδειγμά μας, έξι σημεία είναι πάνω από τη διάμεση και έξι σημεία κάτω από αυτό. Έτσι, για να βρούμε το πρώτο τεταρτημόριο, πρέπει να πάρουμε τον μέσο όρο των δύο μεσαίων σημείων στα κάτω έξι σημεία. Τα σημεία 3 και 4 του κάτω έξι είναι και τα δύο 70, οπότε ο μέσος όρος τους είναι ((70 + 70) / 2) =70. Έτσι, η τιμή μας για το Q1 είναι 70.
  5. Υπολογίστε το τρίτο τεταρτημόριο. Αυτό το σημείο, το οποίο δηλώνουμε με τη μεταβλητή Q3, είναι το σημείο δεδομένων πάνω από το οποίο βρίσκεται το 25% των δεδομένων. Η εύρεση του Q3 είναι σχεδόν η ίδια με την εύρεση του Q1, εκτός από το ότι εξετάζουμε τα σημεία σε αυτήν την περίπτωση πάνω από ο διάμεσος.
    • Συνεχίζοντας με το παραπάνω παράδειγμα, βλέπουμε ότι τα δύο μεσαία σημεία των έξι σημείων πάνω από τη διάμεση τιμή είναι 71 και 72. Ο μέσος όρος αυτών των δύο σημείων είναι ((71 + 72) / 2) =71,5. Έτσι, η τιμή μας για το Q3 είναι 71,5.
  6. Βρείτε το εύρος interquartile. Τώρα που έχουμε καθορίσει Q1 και Q3 πρέπει να υπολογίσουμε την απόσταση μεταξύ αυτών των δύο μεταβλητών. Μπορείτε να βρείτε την απόσταση μεταξύ Q1 και Q3, αφαιρώντας το Q1 από το Q3. Η τιμή που λαμβάνετε για το εύρος μεταξύ των τεταρτημορίων είναι καθοριστικής σημασίας για τον καθορισμό των ορίων για σημεία που δεν αποκλίνουν στο σύνολο δεδομένων σας.
    • Στο παράδειγμά μας, οι τιμές για Q1 και Q3 είναι 70 και 71,5, αντίστοιχα. Για να βρούμε το εύρος μεταξύ των τεταρτημορίων, υπολογίζουμε Q3 - Q1: 71,5 - 70 =1,5.
    • Αυτό λειτουργεί ακόμη και αν τα Q1, Q3 ή και οι δύο αριθμοί είναι αρνητικοί. Για παράδειγμα, εάν η τιμή μας για το Q1 ήταν -70, το εύρος μεταξύ τεμαχίων θα ήταν 71,5 - (-70) = 141,5, που είναι σωστό.
  7. Βρείτε τα "Εσωτερικά όρια" του συνόλου δεδομένων. Μπορείτε να αναγνωρίσετε ακραίες τιμές καθορίζοντας εάν εμπίπτουν σε αριθμό αριθμητικών ορίων. τα λεγόμενα "εσωτερικά όρια" και "εξωτερικά όρια". Ένα σημείο που βρίσκεται εκτός των εσωτερικών ορίων του συνόλου δεδομένων ταξινομείται ως ένα ήπια ακραία απόδοση, και ένα σημείο έξω από τα εξωτερικά όρια ταξινομείται ως ένα ακραίο ακραίο. Για να βρείτε τα εσωτερικά όρια του συνόλου δεδομένων σας, πολλαπλασιάστε πρώτα το εύρος μεταξύ των τεταρτημορίων με 1,5. Προσθέστε το αποτέλεσμα στο Q3 και αφαιρέστε το από το Q1. Τα δύο αποτελέσματα είναι τα εσωτερικά όρια του συνόλου δεδομένων σας.
    • Στο παράδειγμά μας, το εύρος μεταξύ των τεμαχίων είναι (71,5 - 70) ή 1,5. Πολλαπλασιάστε αυτό με 1,5 για να πάρετε 2,25. Προσθέτουμε αυτόν τον αριθμό στο Q3 και τον αφαιρούμε από το Q1 για να βρούμε τα εσωτερικά όρια ως εξής:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Έτσι, τα εσωτερικά σύνορα είναι 67.75 και 73.75.
    • Στο σύνολο δεδομένων μας, μόνο η θερμοκρασία του φούρνου - 300 βαθμοί Φαρενάιτ - βρίσκεται εκτός αυτής της περιοχής. Άρα αυτό μπορεί να είναι ένα ήπιο ακραίο. Ωστόσο, δεν έχουμε ακόμη αποφασίσει εάν αυτή η θερμοκρασία είναι εξαιρετικά ακραία, οπότε ας μην προχωρήσουμε ακόμη σε συμπεράσματα.
  8. Βρείτε τα "εξωτερικά όρια" του συνόλου δεδομένων. Το κάνετε με τον ίδιο τρόπο όπως και με τα εσωτερικά όρια, με τη μόνη διαφορά ότι πολλαπλασιάζετε την απόσταση μεταξύ των τεμαχίων με 3 αντί για 1,5. Στη συνέχεια, προσθέτετε το αποτέλεσμα στο Q3 και αφαιρέστε από το Q1 για να βρείτε τις εξωτερικές οριακές τιμές.
    • Στο παράδειγμά μας, πολλαπλασιάζουμε την απόσταση μεταξύ των τεμαχίων με 3 για να πάρουμε (1,5 * 3) ή 4,5. Μπορούμε τώρα να βρούμε τα εξωτερικά όρια με τον ίδιο τρόπο όπως τα εσωτερικά όρια:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Έτσι, τα εξωτερικά όρια είναι 65.5 και 76.
    • Τα σημεία δεδομένων που βρίσκονται εκτός των εξωτερικών ορίων θεωρούνται ακραία ακραία σημεία. Στο παράδειγμά μας, η θερμοκρασία του φούρνου, 300 βαθμοί Φαρενάιτ, είναι πολύ πέρα ​​από τα εξωτερικά όρια. Έτσι, η θερμοκρασία του φούρνου είναι σίγουρα ένα ακραίο ακραίο σημείο.
  9. Χρησιμοποιήστε μια ποιοτική αξιολόγηση για να προσδιορίσετε εάν πρέπει να "πετάξετε" τα ακραία σημεία. Με την παραπάνω μέθοδο μπορείτε να προσδιορίσετε αν ορισμένα σημεία είναι ήπια ακραία, ακραία ακραία σημεία ή καθόλου ακραία σημεία. Αλλά μην κάνετε λάθος - η αναγνώριση ενός σημείου ως εξωστρεφής το κάνει μόνο ένα υποψήφιος να αφαιρεθεί από το σύνολο δεδομένων και όχι αμέσως ένα σημείο που αφαιρείται πρέπει μεταμορφώνομαι. ο λόγος Γιατί ένας ακροδέκτης διαφέρει από τα υπόλοιπα σημεία του συνόλου είναι καθοριστικός για να καθοριστεί εάν πρέπει να αφαιρεθεί το ακραίο σημείο. Γενικά, τα ακραία σημεία που προκαλούνται από κάποιο σφάλμα - ένα σφάλμα στις μετρήσεις, στις εγγραφές ή στον πειραματικό σχεδιασμό, για παράδειγμα - καταργούνται. Αντίθετα, οι ακραίες τιμές που δεν προκαλούνται από σφάλματα και που αποκαλύπτουν νέες, απρόβλεπτες πληροφορίες ή τάσεις συνήθως γίνονται δεν διαγράφηκε.
    • Ένα άλλο κριτήριο που πρέπει να ληφθεί υπόψη είναι εάν οι ακραίες τιμές επηρεάζουν τη μέση τιμή ενός συνόλου δεδομένων με τρόπο που είναι λοξό ή παραπλανητικό. Αυτό είναι ιδιαίτερα σημαντικό αν σκοπεύετε να εξαγάγετε συμπεράσματα από τον μέσο όρο του συνόλου δεδομένων σας.
    • Ας κρίνουμε το παράδειγμά μας. Από το ύψιστος Είναι απίθανο ο κλίβανος να φτάσει σε θερμοκρασία 300 ° F λόγω κάποιας απρόβλεπτης δύναμης της φύσης, στο παράδειγμά μας μπορούμε να συμπεράνουμε με σχεδόν 100% βεβαιότητα ότι ο κλίβανος ενεργοποιήθηκε κατά λάθος, προκαλώντας ασυνήθιστα υψηλή ένδειξη θερμοκρασίας. Επιπλέον, εάν δεν καταργήσουμε το outlier, ο μέσος όρος του συνόλου δεδομένων μας εμφανίζεται σε (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, ενώ ο μέσος όρος χωρίς η έξοδος βγαίνει σε (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Δεδομένου ότι το outlier προκλήθηκε από ανθρώπινο σφάλμα και επειδή δεν είναι σωστό να πούμε ότι η μέση θερμοκρασία δωματίου ήταν κοντά στους 32 ° C, πρέπει να επιλέξουμε να χρησιμοποιήσουμε το εξωτερικό μας. αφαιρώ.
  10. Κατανοήστε τη σημασία της (μερικές φορές) διατήρησης ακραίων τιμών. Ενώ ορισμένα ακραία σημεία πρέπει να αφαιρεθούν από ένα σύνολο δεδομένων επειδή είναι αποτέλεσμα σφαλμάτων ή επειδή παρακάμπτουν τα αποτελέσματα με παραπλανητικό τρόπο, πρέπει να διατηρηθούν και άλλα ακραία σημεία. Για παράδειγμα, εάν έχει επιτευχθεί σωστά ένα outlier (και συνεπώς όχι το αποτέλεσμα ενός σφάλματος) ή / και εάν το outlier προσφέρει μια νέα εικόνα για το προς μέτρηση φαινόμενο, δεν θα πρέπει να αφαιρεθεί αμέσως. Τα επιστημονικά πειράματα είναι ιδιαίτερα ευαίσθητες καταστάσεις όσον αφορά την αντιμετώπιση των ακραίων τιμών - η λανθασμένη αφαίρεση ενός εξωφύλλου μπορεί να σημαίνει την απόρριψη σημαντικών πληροφοριών σχετικά με μια νέα τάση ή ανακάλυψη.
    • Για παράδειγμα, φανταστείτε ότι σχεδιάζουμε ένα νέο φάρμακο για να μεγαλώσουμε τα ψάρια σε μια ιχθυοκαλλιέργεια. Ας χρησιμοποιήσουμε το παλιό μας σύνολο δεδομένων ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), με τη διαφορά ότι κάθε σημείο αντιπροσωπεύει τώρα τη μάζα ενός ψαριού (σε γραμμάρια ) μετά από θεραπεία με άλλο πειραματικό φάρμακο από τη γέννηση. Με άλλα λόγια, το πρώτο φάρμακο έδωσε σε ένα ψάρι μια μάζα 71 γραμμαρίων, το δεύτερο έδωσε σε ένα άλλο ψάρι μια μάζα 70 γραμμαρίων, και ούτω καθεξής. Σε αυτήν την κατάσταση, 300 ακόμη ένα τεράστιο outlier, αλλά δεν πρέπει να το αφαιρέσουμε τώρα. Διότι, αν υποθέσουμε ότι το outlier δεν είναι αποτέλεσμα σφάλματος, αντιπροσωπεύει μεγάλη επιτυχία στο πείραμά μας. Το φάρμακο που παρήγαγε ένα ψάρι 300 γραμμαρίων λειτούργησε καλύτερα από οποιοδήποτε άλλο φάρμακο, οπότε αυτό είναι πλέον σημαντικό σημείο δεδομένων στο σύνολο μας, αντί για το ελάχιστα σημαντικό σημείο δεδομένων.

Συμβουλές

  • Εάν εντοπίσετε ακραία σημεία, προσπαθήστε να τα εξηγήσετε πριν τα αφαιρέσετε από το σύνολο δεδομένων. Μπορούν να υποδείξουν σφάλματα μέτρησης ή αποκλίσεις στη διανομή.

Απαιτήσεις

  • Αριθμομηχανή