Conseils utiles

Lignes de distribution

Pin
Send
Share
Send
Send


Le concept d'une série de variations. La première étape de la systématisation du matériel d'observation statistique consiste à compter le nombre d'unités portant l'un ou l'autre des signes. En organisant les unités dans l'ordre croissant ou décroissant de leur caractéristique quantitative et en comptant le nombre d'unités ayant une valeur d'attribut spécifique, nous obtenons une série variationnelle. La série variationnelle caractérise la distribution des unités d'une population statistique particulière par tout critère quantitatif.

La série de variantes comprend deux colonnes. Les valeurs de l'attribut variant sont indiquées dans la colonne de gauche. Elles sont désignées par les variantes et désignées par (x). La colonne de droite contient des nombres absolus indiquant le nombre de fois que chaque variante se produit. Les indicateurs de cette colonne sont appelés fréquences et sont indiqués par (f).

Schématiquement, les séries de variations peuvent être représentées sous la forme du tableau 5.1:

Type de variation série

Options (x)

Fréquences (f)

Total:

Dans la colonne de droite, des indicateurs relatifs caractérisant la fraction de la fréquence des variantes individuelles dans la somme totale des fréquences peuvent également être utilisés. Ces indicateurs relatifs sont appelés fréquences et sont classiquement désignés par, à savoir. . La somme de toutes les fréquences est égale à un. Les fréquences peuvent être exprimées en pourcentage, leur somme sera alors égale à 100%.

Les signes variables peuvent être de nature différente. Les variantes de certaines enseignes sont exprimées en nombres entiers, par exemple le nombre de pièces de l'appartement, le nombre de livres publiés, etc. Ces signes sont appelés discontinus ou discrets. Les variantes d'autres signes peuvent prendre n'importe quelle valeur dans certaines limites, telles que, par exemple, l'exécution de tâches planifiées, de salaires, etc. Ces signes sont appelés signes continus.

Série de variations discrètes. Si les variations de la série de variations sont exprimées sous forme de quantités discrètes, une telle série de variations est appelée discrète, son apparence est présentée dans un tableau. 5.2:

Répartition des étudiants par niveau d'examen

Évaluations (x)

Nombre d'étudiants (f)

En% du total ()

Total:

La nature de la distribution en rangées discrètes est représentée graphiquement sous la forme d'un polygone de distribution, Figure 5.1.

Fig. 5.1. Répartition des étudiants par notes obtenues à l'examen.

Série de variation d'intervalle. Pour les signes continus, les séries variationnelles sont des intervalles construits, c'est-à-dire les valeurs de l'attribut qu'elles contiennent sont exprimées sous la forme d'intervalles "de et vers". Dans ce cas, la valeur minimale de l'attribut dans un tel intervalle est appelée la limite inférieure de l'intervalle et la valeur maximale - la limite supérieure de l'intervalle.

Les séries variationnelles par intervalles sont construites à la fois pour les signes discontinus (discrets) et pour les variations dans une large plage. Les lignes d'intervalle peuvent être à intervalles égaux et inégaux. Dans la pratique économique, la plupart du temps, on utilise des intervalles inégaux, augmentant ou diminuant progressivement. Un tel besoin se pose surtout dans les cas où la variabilité du signe est réalisée de manière inégale et dans une large mesure.

Considérez la forme de la série d'intervalle avec des intervalles égaux, table. 5.3:

Répartition des travailleurs par production

Production, c'est-à-dire (x)

Nombre de travailleurs (f)

Fréquence cumulée (f´)

80–100

100–120

15 = 5+10

120–140

35 = 15+20

140–160

45 = 35+10

160–180

50 = 45+5

Total:

La série d'intervalles de la distribution est représentée graphiquement sous forme d'histogramme, Fig. 5.2.

Figure 5.2. Répartition des travailleurs par production

Fréquence accumulée (cumulative). En pratique, il est nécessaire de transformer les séries de distribution en lignes cumulées construit sur les fréquences accumulées. Ils peuvent être utilisés pour déterminer des moyennes structurelles facilitant l'analyse de données provenant de plusieurs distributions.

Les fréquences accumulées sont déterminées en ajoutant de manière séquentielle aux fréquences (ou fréquences) du premier groupe de ces indicateurs les groupes suivants de la série de distribution. Les cumuls et les ogives sont utilisés pour illustrer les séries de distribution. Pour leur construction, les valeurs d'une caractéristique discrète (ou des extrémités d'intervalles) sont marquées sur l'axe des abscisses et sur l'axe des ordonnées, les totaux cumulés des fréquences (cumulatif), Fig. 5.3.

Fig. 5.3. Répartition cumulative des travailleurs pour produire

Si les échelles de fréquences et les options sont interchangées, c.-à-d. sur l’axe des abscisses correspondent les fréquences accumulées, et sur l’axe des ordonnées - les valeurs des options, puis la courbe caractérisant l’évolution des fréquences d’un groupe à l’autre, sera appelée distribution ivea, Fig.5.4.

Fig. 5.4. Travailleurs de la distribution Ogiva

Les séries de variations à intervalles égaux constituent l'une des conditions les plus importantes pour les séries statistiques de distribution, garantissant leur comparabilité dans le temps et dans l'espace.

Densité de distribution. Cependant, les fréquences des intervalles individuels inégaux dans ces séries ne sont pas directement comparables. Dans de tels cas, pour assurer la comparabilité nécessaire, la densité de distribution est calculée, c'est-à-dire déterminer combien d'unités dans chaque groupe par unité de valeur de l'intervalle.

Lors de la construction d'un graphe de distribution d'une série de variations avec des intervalles inégaux, la hauteur des rectangles est déterminée proportionnellement non pas aux fréquences, mais à la densité de distribution des valeurs de l'attribut étudié dans les intervalles correspondants.

La compilation de la série de variations et sa représentation graphique constituent la première étape du traitement des données initiales et la première étape de l'analyse de la population étudiée. L'étape suivante de l'analyse des séries variationnelles consiste à déterminer les principaux indicateurs de généralisation, appelés caractéristiques de la série. Ces caractéristiques devraient donner une idée de la valeur moyenne de l'attribut dans les unités de la population.

Valeur moyenne. La valeur moyenne est une caractéristique généralisée du trait étudié dans la population étudiée, reflétant son niveau typique par unité de population dans des conditions spécifiques de temps et de lieu.

La valeur moyenne est toujours nommée et a la même dimension que l'attribut pour des unités individuelles de la population.

Avant de calculer les valeurs moyennes, il est nécessaire de regrouper les unités de la population étudiée en mettant en évidence des groupes qualitativement homogènes.

La moyenne, calculée par l'ensemble des données, s'appelle la moyenne générale, et pour chaque groupe, des moyennes.

Il existe deux types de valeurs moyennes: puissance (moyenne arithmétique, moyenne harmonique, moyenne géométrique, moyenne quadratique), structurelle (mode, médiane, quartiles, déciles).

Le choix de la moyenne pour le calcul dépend de l'objectif.

Types de moyens de puissance et méthodes de calcul. Dans la pratique du traitement statistique du matériel collecté, divers problèmes se posent, dont la solution nécessite des moyennes différentes.

La statistique mathématique déduit diverses moyennes de formules de loi de puissance:

où est la valeur moyenne, x sont des variantes individuelles (valeurs d'attributs), z est l'exposant (avec z = 1 - la moyenne arithmétique, z = 0 la moyenne géométrique, z = - 1 - la moyenne harmonique, z = 2 - le carré moyen).

Cependant, la question de savoir quel type de moyenne devrait être appliqué dans chaque cas individuel est résolue par une analyse spécifique de la population étudiée.

Le type de moyenne le plus courant en statistique est moyenne arithmétique. Il est calculé dans les cas où le volume d'un attribut moyenné est formé par la somme de ses valeurs pour des unités individuelles de la population statistique étudiée.

En fonction de la nature des données source, la moyenne arithmétique est déterminée de différentes manières:

Si les données ne sont pas groupées, le calcul est effectué selon la formule d'une moyenne simple

,

Si la valeur de l'attribut apparaît plusieurs fois, alors la valeur moyenne est trouvée par la formule des données groupées et la valeur moyenne sera appelée moyenne arithmétique pondérée.

Calcul de la moyenne arithmétique dans une série discrète se produit selon la formule 3.4.

Calcul de la moyenne arithmétique dans la ligne d'intervalle. Dans la série de variations d'intervalle, où le milieu de l'intervalle est généralement considéré comme la valeur de la caractéristique de chaque groupe, la moyenne arithmétique peut différer de la moyenne calculée à partir des données non groupées. En outre, plus l'intervalle dans les groupes est grand, plus les écarts possibles de la moyenne calculée à partir des données groupées par rapport à la moyenne calculée à partir des données non groupées sont importants.

Lors du calcul de la moyenne sur la série de variations d'intervalle, pour effectuer les calculs nécessaires, les intervalles atteignent leurs points médians. Puis calculez la valeur moyenne à l'aide de la formule de la moyenne arithmétique pondérée.

Propriétés arithmétiques moyennes. La moyenne arithmétique a certaines propriétés qui vous permettent de simplifier les calculs, considérez-les.

1. La moyenne arithmétique des nombres constants est égale à ce nombre constant.

Si x = a. Puis

2. Si les poids de toutes les options sont modifiés proportionnellement, c.-à-d. augmenter ou diminuer du même nombre de fois, la moyenne arithmétique de la nouvelle série ne changera pas.

Si tous les poids de f sont réduits d'un facteur k, alors.

3. La somme des écarts positifs et négatifs des options individuelles par rapport à la moyenne, multipliée par le poids, est égale à zéro, c'est-à-dire

Si, alors. À partir d'ici.

Si toutes les options sont réduites ou augmentées d’un nombre quelconque, la moyenne arithmétique de la nouvelle série diminuera ou augmentera du même montant.

Réduire toutes les options x sur un, c'est-à-dire x´ = xa.

Alors

La moyenne arithmétique de la série initiale peut être obtenue en ajoutant à la moyenne réduite le nombre précédemment soustrait aux options. un, c'est-à-dire .

5. Si toutes les options diminuent ou augmentent en k fois, la moyenne arithmétique de la nouvelle série diminuera ou augmentera du même montant, c.-à-d. dans k fois.

Laissez alors.

Par conséquent, c'est-à-dire Pour obtenir la série initiale moyenne, il faut augmenter la moyenne arithmétique de la nouvelle série (avec options réduites). k fois.

Moyenne harmonique. La moyenne harmonique est l'inverse de la moyenne arithmétique. Il est utilisé lorsque les informations statistiques ne contiennent pas de fréquences pour des variantes individuelles de la population, mais sont présentées comme leur produit (M = xf). La moyenne harmonique sera calculée par la formule 3.5

L'application pratique de la moyenne harmonique consiste à calculer certains indices, notamment l'indice des prix.

Moyenne géométrique. Lors de l'application de la moyenne géométrique, les valeurs individuelles de l'attribut sont, en règle générale, des valeurs de dynamique relative, construites sous la forme de valeurs en chaîne, en relation avec le niveau précédent de chaque niveau dans une série de dynamiques. La moyenne caractérise donc le taux de croissance moyen.

La moyenne géométrique est également utilisée pour déterminer des valeurs équidistantes à partir des valeurs maximale et minimale de l'attribut. Par exemple, une compagnie d’assurance entre dans des services d’assurance automobile. En fonction de l'événement assuré, le paiement de l'assurance peut aller de 10 000 à 100 000 dollars par an. Le montant moyen des paiements d’assurance est de

La moyenne géométrique est une quantité utilisée comme moyenne des relations ou dans la série de distribution représentée par une progression géométrique, lorsque z = 0. Cette moyenne est pratique à utiliser lorsque l’attention est accordée non pas à des différences absolues, mais aux relations de deux nombres.

Les formules pour calculer ce qui suit

- pour les valeurs non pondérées,

- pondéré,

où sont les variantes de la caractéristique moyennée, est le produit des variantes, f - options de fréquence.

La moyenne géométrique est utilisée dans le calcul du taux de croissance annuel moyen.

Quadratique moyenne. La formule de la moyenne quadratique est utilisée pour mesurer le degré de variation des valeurs individuelles de l'attribut autour de la moyenne arithmétique dans la série de distribution. Ainsi, lors du calcul des indicateurs de variation, la moyenne est calculée à partir des carrés des écarts des valeurs individuelles de l'attribut par rapport à la moyenne arithmétique.

La valeur quadratique moyenne est calculée par la formule

Dans les études économiques, le carré moyen modifié est largement utilisé dans le calcul des indicateurs de variation du trait, tels que la variance, l'écart type.

La règle de la majorité. La relation suivante existe entre les moyennes de puissance: plus l'exposant est grand, plus la valeur de la moyenne est grande, Tableau 5.4:

Le rapport entre les valeurs moyennes

Valeur Z

Le rapport entre les moyens

si la population est petite et la mode est distincte.

Toutes les formes considérées de la moyenne de puissance ont une propriété importante (par opposition aux moyennes structurelles) - la formule de détermination de la moyenne inclut toutes les valeurs de la série, à savoir: la taille moyenne est influencée par la valeur de chaque option.

D’une part, c’est une propriété très positive puisque dans ce cas, l'action de tous les facteurs affectant toutes les unités de la population étudiée est prise en compte. D'un autre côté, même une observation qui tombe accidentellement dans les données source peut fausser de manière significative l'idée du niveau de développement du trait étudié dans son ensemble (en particulier dans les séries courtes).

Quartiles et déciles. Par analogie avec la recherche de la médiane dans la série variationnelle, on peut trouver la valeur de l'attribut dans n'importe quelle unité de la série classée. Ainsi, vous pouvez notamment trouver la valeur de l'attribut en unités divisant la série en 4 parties égales, par 10, etc.

Quartiles. Les options qui divisent la ligne classée en quatre parties égales sont appelées quartiles.

On distingue: le premier (ou premier) quartile (Q1) est la valeur de l'attribut de l'unité de la série classée divisant la population dans le rapport ¼ à ¾ et le troisième (ou troisième) quartile (Q3) est la valeur de l'attribut correspondant à l'unité de la série classée divisant la population dans le rapport À ¼.

Le deuxième quartile est la médiane Q2 = Me. Les quartiles inférieur et supérieur de la ligne d'intervalle sont calculés selon la formule de la même manière que la médiane.

Pour le quartile inférieur.

Pour le quartile supérieur.

où est la limite inférieure de l'intervalle contenant les quartiles inférieur et supérieur, respectivement

- la fréquence cumulée de l'intervalle précédant l'intervalle contenant le quartile inférieur ou supérieur,

- fréquences d'intervalles de quartile (inférieur et supérieur)

Les intervalles dans lesquels Q1 et Q3 sont contenus sont déterminés par les fréquences accumulées (ou fréquences).

Déciles. En plus des quartiles, les déciles sont calculés - des options qui divisent la ligne classée en 10 parties égales.

Ils sont notés D, le premier décile D1 divise la série dans le rapport 1/10 et 9/10, le second D2 - 2/10 et 8/10, etc. Ils sont calculés selon le même schéma que la médiane et les quartiles.

premier décile.

deuxième décile, etc.

Et la médiane, les quartiles et les déciles appartiennent à la statistique dite ordinale, qui est comprise comme l'option occupant une certaine place ordinale dans la rangée classée.

Lignes de distribution

Après avoir déterminé la caractéristique de regroupement, le nombre de groupes et les intervalles de regroupement, les données du résumé et du regroupement sont présentées sous la forme de séries de distribution et sont publiées sous la forme de tableaux statistiques.

Un certain nombre de distributions est un type de regroupement.

Gamme de distribution - représente une distribution ordonnée des unités de la population étudiée en groupes selon un certain attribut variable.

Selon le signe sous-jacent à la formation d’un certain nombre de distributions, faites la distinction entre attributif et variationnel série de distribution:

  • Attributif - Appelez la série de distribution, construite sur des critères de qualité.
  • Les séries de distribution, construites en ordre croissant ou décroissant de la valeur d’un attribut quantitatif, sont appelées variationnelle.
La série de distribution variationnelle comprend deux colonnes:

La première colonne montre les valeurs quantitatives de la caractéristique variable, appelées options et sont désignés. Option discrète - exprimée sous forme d'entier. L'option intervalle est entre et. Selon le type d'options, vous pouvez créer une série de variations discrètes ou à intervalles.
La deuxième colonne contient nombre d'option spécifiqueexprimée en termes de fréquences ou de fréquences:

Des fréquences - ce sont des nombres absolus, montrant autant de fois dans l’agrégat qu’une valeur donnée d’un signe indique. La somme de toutes les fréquences doit être égale au nombre d'unités de la population totale.

Fréquence () Les fréquences sont-elles exprimées en pourcentage du total. La somme de toutes les fréquences exprimée en pourcentage doit être égale à 100% en fractions de un.

Représentation graphique des lignes de distribution

Visuellement, les séries de distribution sont représentées à l'aide d'images graphiques.

Les séries de distribution sont décrites comme suit:

  • Enfouissement
  • Diagrammes à barres
  • Cumulatif
  • Ogive

Lors de la construction d'un polygone sur l'axe horizontal (axe des abscisses), les valeurs de l'attribut variable sont mises de côté, et sur l'axe vertical (axe des ordonnées), les fréquences ou les fréquences.

Le polygone de la fig. 6.1 est construit selon le micro-consensus de la population de la Russie en 1994.

Ménages composés de:une personnedeux personnestrois personnes5 ou plustotal
Nombre de ménages en%19,226,222,620,5100,0

6.1. Répartition par taille des ménages

Condition: Les données sur la répartition des 25 employés de l’une des entreprises par catégories tarifaires sont présentées:
4, 2, 4, 6, 5, 6, 4, 1, 3, 1, 2, 5, 2, 6, 3, 1, 2, 3, 4, 5, 4, 6, 2, 3, 4
DéfiConstruisez une série variationnelle discrète et tracez-la graphiquement sous forme de polygone de distribution.
La solution:
Dans cet exemple, les options correspondent à la catégorie de paie de l’employé. Для определения частот необходимо рассчитать число работников, имеющих соответствующий тарифный разряд.

Тарифный
разряд Xi
Число
работников fi
13
25
34
46
53
64
Total:25

Полигон используется для дискретных вариационных рядов.

Pour construire un polygone de distribution (Fig. 1) le long de l’axe des abscisses (X), nous reportons les valeurs quantitatives des diverses options d’attributs et, en ordonnée, des fréquences ou des fréquences.

Si les valeurs d'attribut sont exprimées sous forme d'intervalles, une telle série est appelée intervalle.
Lignes d'intervalle les distributions sont affichées graphiquement sous forme d'histogrammes, cumulatifs ou ogives.

Tableau statistique

Condition: Données sur la taille des dépôts de 20 personnes dans une banque (milliers de roubles) 60, 25, 12, 10, 68, 35, 2, 17, 51, 9, 3, 130, 24, 85, 100, 152, 6 , 18, 7, 42.
Défi: Construire une série de variations d'intervalle avec des intervalles égaux.
La solution:

  1. La population initiale comprend 20 unités (N = 20).
  2. En utilisant la formule de Sturgess, nous déterminons le nombre requis de groupes utilisés: n = 1 + 3.322 * log20 = 5
  3. Nous calculons la valeur de l'intervalle égal: i = (152 - 2) / 5 = 30 mille roubles
  4. Nous divisons la population initiale en 5 groupes avec un intervalle de 30 000 roubles.
  5. Les résultats de regroupement sont présentés dans le tableau:
Taille du dépôt
mille roubles Xje
Nombre de dépôts
fje
Le nombre de dépôts en% du total
Wje
2 — 321155
32 — 62420
62 — 92210
92 — 12215
122 — 152210
Total:20100

Avec un tel enregistrement d'un signe continu, lorsque la même quantité apparaît deux fois (comme limite supérieure d'un intervalle et comme limite inférieure d'un autre intervalle), cette quantité appartient au groupe où cette quantité agit comme limite supérieure.

Graphique à barres

Pour construire un histogramme en abscisse, les valeurs des limites des intervalles sont indiquées et des rectangles sont construits sur leur base, dont la hauteur est proportionnelle aux fréquences (ou fréquences).

Sur la fig. 6.2. un histogramme de la répartition de la population russe en 1997 par groupes d'âge est présenté.

Toute la populationY compris l'âge
jusqu'à 1010-2020-3030-4040-5050-6060-7070 ans et plusTotal
Taille de la population12,115,713,616,115,310,19,87,3100,0

Fig. 6.2. La répartition de la population de la Russie par groupes d'âge

Condition: La répartition des 30 employés de l'entreprise par la taille du salaire mensuel est donnée

Le salaire
frotter par mois
Nombre d'employés
les gens
jusqu'à 50004
5000 — 700012
7000 — 100008
10000 — 150006
Total:30

Défi: Affiche graphiquement la série de variations d'intervalle sous forme d'histogramme et de valeurs cumulées.
La solution:

  1. La frontière inconnue du premier (premier) intervalle est déterminée par la valeur du second intervalle: 7000 - 5000 = 2000 roubles. Avec la même valeur, nous trouvons la limite inférieure du premier intervalle: 5000 - 2000 = 3000 roubles.
  2. Pour tracer un histogramme dans un système de coordonnées rectangulaire le long de l'axe des abscisses, nous reportons les segments dont les valeurs correspondent à des intervalles de la série de varicon.
    Ces segments servent de base inférieure et de la fréquence correspondante (fréquence) - la hauteur des rectangles formés.
  3. Construisons un histogramme:

Pour construire le cumulatif, il est nécessaire de calculer les fréquences accumulées (fréquences). Elles sont déterminées en sommant séquentiellement les fréquences (fréquences) des intervalles précédents et sont notées S. Les fréquences accumulées indiquent le nombre d'unités de la population ayant une valeur de l'attribut pas plus que celle considérée.

La distribution du trait dans la série variationnelle en fonction des fréquences accumulées (parties) est décrite à l'aide du cumul.

Cumuler ou la courbe cumulative, contrairement au polygone, est construite sur les fréquences accumulées. En même temps, les valeurs de l'attribut sont placées sur l'axe des abscisses, et les fréquences accumulées ou sur les fréquences accumulées, sur l'axe des ordonnées (Fig. 6.3).

Fig. 6.3. Distribution de taille cumulative des ménages

4. Calculez les fréquences accumulées:
La fréquence cumulée du premier intervalle est calculée comme suit: 0 + 4 = 4, pour le second: 4 + 12 = 16, pour le troisième: 4 + 12 + 8 = 24, etc.

Le salaire
frotter par mois Xje
Nombre d'employés
les gens fje
Fréquences accumulées
S
jusqu'à 500044
5000 — 70001216
7000 — 10000824
10000 — 15000630
Total:30-

Lors de la construction de la fréquence cumulée cumulée (fréquence) de l'intervalle correspondant, sa limite supérieure est attribuée:

Ogiva il est construit de manière similaire à un cumul avec la seule différence que les fréquences accumulées sont placées sur l'axe des abscisses et les valeurs des attributs sur l'axe des ordonnées.

Une variété de cumulats est une courbe de concentration ou un graphique de Lorentz. Pour construire une courbe de concentration, une échelle en pourcentage de 0 à 100 est tracée sur les deux axes d'un système de coordonnées rectangulaires, tandis que les fréquences accumulées sont indiquées sur l'axe des abscisses et les valeurs accumulées (en pourcentage) en volume de l'attribut sur l'axe des ordonnées.

La distribution uniforme de la caractéristique correspond à la diagonale du carré sur le graphique (Fig. 6.4). Avec une distribution inégale, le graphique est une courbe concave qui dépend du niveau de concentration du trait.

Regarde la vidéo: Suppression de lignes Hautes Tensions 20 000 Volts à Allauch (Octobre 2020).

Pin
Send
Share
Send
Send