Les statistiques sur la HP48SX

C.Ret · Message par **C.Ret** » 29 mars 2020 14:54

Mais avec le système proposé sur nos RPL, il y a un moyen plus élégant de faire avec ces coefficients de pondération.
Et ce moyen utilise bien les ressources mises à disposition du HP-28S, n'est pas limité aux pondérations entières, n'encombre inutilement pas la mémoire par la répétition de nombreuses données identiques, etc.
Et il permet d'avoir en une seule saisie, l'approche pondérée ou non pondérée d'un même jeu de données ce qui est pratique lorsque l'on veut affiner des régression car ce système permet également les approches multivariables (analyse à 2 ou plus variable, régression linéaire et donc autres,...) (

Ce moyen est celui décrit précédemment par Hobicat

Hobiecat a écrit : ↑25 mars 2020 15:49 Il n'y a pas de point bloquant : dans l'exemple de Bernouilli92 ci-dessus, il suffit d'entrer une matrice sur deux colonnes, à gauche les pondérations et à droite les valeurs :
[ w_i x_i y_i ] ∑+
puis de faire Sigma+.
On divise ensuite SigmaX*Y par SigmaX et on a le résultat attendu, la moyenne sur 6 valeurs.

En plus des avantages déjà suggérés, ce système permet de corriger un point important qui pourtant n'a pas encore été évoqué dans ce fil de discussion. Pourtant je considère ce point comme presque bloquant et gravissime.

En effet toutes les calculettes que nous connaissant et qui ont des fonction statistiques affichent très clairement sur leur clavier ou dans leur menu le moyen d'obtenir les sommes statistiques ∑x ∑x² ∑wx ∑xy ∑y ∑y² etc.

De la même façon que le HP-28S n'est pas une calculatrice qui indique clairement sur son clavier où son les fonctions trigonométriques SIN COS ou TAN, le HP-28S n'est pas une calculette pourvue de fonctions statistiques avancée puisqu'il n'y a pas non plus de touche ∑+ n xb sig ∑x ∑x² ...

Ce n'est pas grave, le HP-28S n'est pas une calculette.
Par contre je trouve cela fort déplorable pour ces menteuses d'HP-48* et HP-50g qui se font passer pour des calculettes avec leur trois belles touches directes SIN COS TAN et qui du point de vue utilisation statique ne valent rien de mieux qu'un ordinateur de poche pliable HP-28S (mais s'en l'être - hein - repliable je veux dire).

Je n'ai retrouvé mon carnet à spirale qui est au grenier depuis la fin des années 90', mais j'ai retrouvé un vieux fichier de sauvegarde Word 6.0 où j'avais recopié une partie des codes que j'utilisais pour mes statistiques et régressions multivariables. Ces codes sont fort compliqués car il faisaient partie d'un environnement de travail plus grand qui me permettait à l'époque d'utiliser mon HP-28S aux laboratoires comme au bureau. Une grande partie des codes avaient pour but de paramétrer les calculs statistiques et les régressions afin de comparer les résultats et tenter de trouver le protocole d'analyse le plus adapté aux résultats expérimentaux.

Pour exposer la méthode utilisée ici, je vais faire bien plus simple en ne considérant que l'analyse statistique à une ou deux variable, pondérée ou non et la régression linaire simple.

Mais résolvons d'abord le principal problème des Sommes Statistiques.

Et oui, comme on peut s'en rendre compte dans mon post précédant, comment obtenir les sommes statistique n'est pas clair surtout en cas de pondération.

Comment les développeurs du RPL ont-ils pu passer à coté de ce point crucial. Leur système a l'avantage de conserver l'intégralité des données (dans la matrice ∑DAT) c'est un avantage ENORME par rapport à la grande majorité des calculatrices qui se contentent d'accumuler les données saisies par l'utilisateur dans les registres mémorisant les sommes statistiques. Sur les calculatrice le détail des données est donc instantanément perdu alors que ∑DAT permet de retrouver (et éventuellement éditer directement) toutes les données. C'est très utile pour sauvegarder ou tracer des graphique ou exploiter dynamiquement le jeu de données en modifiant les coefficients pondérateurs par exemple ou en retirant certains points.

Donc ∑DAT permet aussi de calculer les sommes statistiques ! Comment ont-ils pu oublier de mettre les quelques fonctions simples pour les obtenir clairement.

C'est pourtant, comme l'a indiqué clairement Hobicat extrêmement simple. En effet il suffit simplement de calculer le produit matriciel (∑DAT)^T * ∑DAT et on obtient la matrice contenant toutes les sommes statistiques croisées !

Cette matrice contenant les sommes statistiques croisées est primordiale mais manquante dans l'arsenal initial du RPL.

Il faut s'empresser de corriger cela:

Code : Tout sélectionner

« ∑DAT TRN ∑DAT * » ∑SUM STO

Muni de cette indispensable matrice voyons ce que cela donne avec l'exemple précédent en entrant cette fois chaque donnée sous la forme d'un vecteur [ w_i x_i y_i] où je respecte l'ordre [ pondération, variable indépendante, variable dépendante ] il n'y aurait pas de variable explicative ou dépendante y_i.

Code : Tout sélectionner

 x(i)│ 14.1│ 14.2│ 14.3│ 14.4│ 14.5
─────┼─────┼─────┼─────┼─────┼───── 
 w(i)│  8  │ 19  │ 23  │ 15  │ 10

CL∑   [  8 14.1  ∑+     [ 19 14.2  ∑+      [ 23 14.3  ∑+     [ 15 14.4  ∑+    [ 10 14.5  ∑+
N∑ TOT ∑SUM
3:                    5     N∑   →         n∑          5 = éléments mémorisés
2:          [ 75 71.5 ]     TOT  →  [ ∑w   ∑x ]       75 = somme des pondération 71.5= somme des catégories    
1: [[ 1279 1072.5 ]         ∑SUM → [[ ∑w² ∑wx ]     1279 = somme des carrés des pondérations
    [ 1072.5 1022.55 ]]             [ ∑wx ∑x² ]]  1072.5 = somme produit catégories pondérées
                                                 1022.55 = somme des carrés des catégories

Comme signalé, cela fonctionne très bien, mais c'est loin d'être très explicite. c'est même comme souvent en RPL assez obscur !

Pour corriger cela il faut créer un certain nombre de fonctions qu'il sera plus facile d'utiliser dans un ou deux MENU dédiés:

Code : Tout sélectionner

« TOT 1 GET » '∑w' STO
« TOT 2 GET » '∑x' STO
« TOT 3 GET » '∑y' STO

« ∑SUM {1 2} GET » '∑wx' STO
« ∑SUM {2 3} GET » '∑xy' STO
« ∑SUM {2 2} GET » '∑x²' STO
« ∑SUM {3 3} GET » '∑y²' STO

{ ∑x ∑wx ∑xy ∑x² ∑y ∑y² } MENU

Voilà, pour les principales sommes. On peut compléter la liste selon les besoins. Mon but aujourd'hui est de surtout montrer le principe.

dprtl · Message par **dprtl** » 29 mars 2020 17:07

Il reste le calcul de la médiane, qui nécessite un peu de programmation sur de nombreuses calculettes (avec un tri de liste). Par exemple, sur l'énoncé à une variable donné ici par Yvan Monka : https://www.youtube.com/watch?v=g1OCTw--VYQ

La Casio fx-CP400 donne le résultat (heureusement !) : 2 pour la médiane, 66 pour l"effectif total et 2,3333333 pour la moyenne.

Forum

Les statistiques sur la HP48SX

Re: Les statistiques sur la HP48SX

Re: Les statistiques sur la HP48SX