Keskmise, mediaani ja režiimi leidmine Pythonis: põhjalik juhend andmete analüüsimiseks
Andmeanalüüs on andmekogumite mõistmise ja tõlgendamise oluline osa. Andmeanalüüsi üks põhiaspekt on andmete keskmise, mediaani ja režiimi arvutamine. Need kolm mõõdet esindavad keskseid tendentse ja on kasulikud andmete suundumuste ja mustrite tuvastamisel. Selles artiklis uurime keskmise, mediaani ja režiimi mõisteid ning nende arvutamist Pythoni abil. Samuti käsitleme erinevaid teeke ja funktsioone, mis on seotud sarnaste probleemide lahendamisega.
**Keskmine** on andmekogumi keskmine väärtus, mis arvutatakse väärtuste summa jagamisel andmekogumis olevate väärtuste arvuga. **Mediaan** on andmestiku keskmine väärtus, kui see on järjestatud kasvavas või kahanevas järjekorras. Kui andmekogumil on paaritu arv väärtusi, on mediaan väärtus, mis asub täpselt keskel, samas kui paarisarvu väärtuste korral on mediaan kahe keskmise väärtuse keskmine. **Mode** viitab väärtustele, mis esinevad andmekogumis kõige sagedamini.
Nende mõõtude arvutamiseks kirjutame Pythoni programmi, mis võtab sisendiks arvude loendi ja tagastab keskmise, mediaani ja režiimi. Selle lahenduse rakendamiseks järgime samm-sammult lähenemist.
# Step 1: Define a function to calculate the mean def calculate_mean(numbers): return sum(numbers) / len(numbers) # Step 2: Define a function to calculate the median def calculate_median(numbers): sorted_numbers = sorted(numbers) length = len(numbers) mid_index = length // 2 if length % 2 == 0: median = (sorted_numbers[mid_index - 1] + sorted_numbers[mid_index]) / 2 else: median = sorted_numbers[mid_index] return median # Step 3: Define a function to calculate the mode def calculate_mode(numbers): from collections import Counter count = Counter(numbers) mode = count.most_common(1)[0][0] return mode # Step 4: Implement the main function def main(): numbers = [int(x) for x in input("Enter numbers separated by spaces: ").split()] mean = calculate_mean(numbers) median = calculate_median(numbers) mode = calculate_mode(numbers) print("Mean:", mean) print("Median:", median) print("Mode:", mode) if __name__ == "__main__": main()
Ülaltoodud kood koosneb neljast etapist. Esiteks määratleme funktsiooni arvude loendi keskmise arvutamiseks. Teises etapis määratleme mediaani arvutamiseks teise funktsiooni. See funktsioon sorteerib sisendloendi ja leiab loendi pikkuse põhjal keskmise väärtuse. Kolmandas etapis loome funktsiooni režiimi arvutamiseks, kasutades kogude mooduli klassi Counter. Viimane samm koosneb põhifunktsiooni määratlemisest, mis võtab kasutaja sisendi, kutsub eelnevalt määratletud funktsioone ja väljastab sisendandmete keskmise, mediaani ja režiimi.
Pythoni raamatukogud statistika ja andmete analüüsi jaoks
Python pakub mitu raamatukogu mis aitavad statistilisel analüüsil ja andmetega manipuleerimisel. Mõned populaarsed raamatukogud hõlmavad järgmist:
- Nuhklik - Võimas raamatukogu arvarvutusteks, massiividega manipuleerimiseks ja lineaaralgebraks.
- Pandad – Paindlik teek, mis pakub DataFrame'i struktuure kasutades andmetega manipuleerimise ja analüüsi võimalusi.
- SciPy – raamatukogu, mis tegeleb teadusliku andmetöötlusega, sealhulgas optimeerimise, integreerimise, interpoleerimise ja palju muuga.
Numpy ja Panda kasutamine keskmise, mediaani ja režiimi arvutamiseks
Lisaks Pythoni põhirakendusele saame keskmise, mediaani ja režiimi tõhusaks arvutamiseks kasutada Numpy ja Pandase teeke.
Allpool on näide selle kohta, kuidas kasutada Numpy ja Pandasid andmestiku kesksete tendentside arvutamiseks.
import numpy as np import pandas as pd data = [4, 2, 7, 3, 9, 1, 6, 5, 8] # Using Numpy mean_numpy = np.mean(data) median_numpy = np.median(data) # Using Pandas data_series = pd.Series(data) mode_pandas = data_series.mode().tolist() print("Mean (Numpy):", mean_numpy) print("Median (Numpy):", median_numpy) print("Mode (Pandas):", mode_pandas)
Ülaltoodud näites kasutame keskmise ja mediaani arvutamiseks funktsioone Numpy "mean()" ja "mediaan()". Režiimi jaoks teisendame oma andmed Pandase seeriateks ja kasutame funktsiooni "mode()", mis tagastab režiimide loendi.
See artikkel annab põhjaliku ülevaate keskmise, mediaani ja režiimi mõistetest ning nende arvutamisest nii põhiliste Pythoni kui ka populaarsete Pythoni teekide abil. Neid lähenemisviise kasutades saavad andmeanalüütikud andmekogumeid tõhusalt analüüsida ja tõlgendada, et teha sisukaid järeldusi ja tuvastada andmete suundumusi.