25 de març del 2012

Quants corredors han participat a la cursa?

Un dels signes de que la primavera arriba a El Corte Inglés és la capacitat que té de fer córrer al personal pels carrers de Barcelona. I després diuen de l'astènia que provoca aquesta estació.

A les curses els i les participants van numerats ordenadament però no corren de forma ordenada. Intentarem veure com es pot fer una estimació de la quantitat de persones inscrites a partir de l’observació d’uns quants dorsals. Un problema semblant seria, com moltes vegades ha explicat en Pere Grima, el d’esbrinar la quantitat de taxis d’una ciutat a partir de l’observació d’uns quants números de calca.

Però abans, et convidem a fer una petita experimentació virtual amb aquest applet. El programa genera aleatòriament una certa quantitat de corredors i se't mostraran tants dorsals, aleatòriament, com demanis. A partir d'aquesta informació hauràs de fer una estimació de la quantitat de participants.


Mirem algun sistema de fer una bona aproximació?
Per trobar un mètode per a fer una estimació hem de suposar, inicialment, que els números han estat donats ordenadament, sense salts. Pot passar que, per exemple que s’hagin reservat els 2000 primers números per atletes federats i els no federats es numerin a partir d’aquest; si només s’inscriuen 500 federats tindrem un salt de 1500 números buits. Nosaltres suposarem que s'han donat tots els nombres. La segona suposició que hem de fer és que els dorsals els veiem aleatòriament, que estan "ben barrejats".

Descriurem el mètode a partir de l'exemple de la fotografia anterior que correspon a la Cursa del Corte Inglés del 2010. Observant-la intentarem esbrinar la participació total.

A la fotografia hem marcat 10 dorsals més o menys llegibles. En primer lloc, fem un llistat ordenat dels dorsals:

3857 - 6597 – 8311 – 8985 – 14346 – 22554 – 27319 – 28028 -  28029 – 51320

Es pot veure que tenim una distribució molt dispersa: saltem del 28000 al 51000 (una distància de 23000 números) però tenim dos dorsals seguits (segurament dues persones que es van inscriure i córrer juntes). Podem observar un gràfic de distribució (els nombres de l'escala s'han de multiplicar per 1000):




Però... per què no ens podem imaginar que tenim els dorsals amb una distribució igual, semblant a aquesta?



Quina és la separació entre dos punts? La podem calcular recordant que el dorsal més gran és el 51320 i que tenim 10 espais.


 

Si cada espai és de 5132 persones podem suposar que posteriorment al dorsal més gran, i fins al “final”, també hi ha un espai de 5132.


Una estimació de la participació serà la següent:

51320 + 5132 = 56452

Sabem que la inscripció va ser d’unes 54000 persones, per tant, l’estimació que hem pogut fer a partir d’aquesta fotografia només té un error de +4,5%.

Abans de continuar observem que el mètode descrit es pot reduir a observar una quantitat n de dorsals, i retenir a la memòria només el més alt, ja que després suposarem que la distribució és equitativa.

Podem resumir el mètode d'aproximació en els següents passos:
  1. Observem una quantitat n de dorsals.
  2. Retenim el més alt (g).
  3. Dividim aquest dorsal entre la quantitat d'observacions (g/n)
  4. Sumem aquest resultat al dorsal més alt observat (g+g/n)
A continuació teniu un applet en què s'aplica aquest mètode automàticament i podreu veure l'error relatiu comès.


Evidentment, el mètode depèn, en gran manera, de la quantitat d’observacions que fem. A la següent imatge tenim un exemple d'experimentació per a una mateixa cursa (simulada amb full de càlcul) i veiem com millora l'estimació entre 10 i 100 dorsals vistos.

Corredors 13316. Dorsal més alt observat 10 a 20 (13079), 30 (13136), 40 a 100 (13184)

Aquest exemple, però, té una progressió molt regular. Podem trobar que no ho són tant. 

Corredors 7354. Dorsal més alt observat 10 a 30 (6724), de 40 a 50 (6958), 60 a 100 (7349)

De què depèn el grau d'encert?

Si bé a priori la quantitat d'observacions hauria de ser un factor suficient de millora de l'estimació hem de tenir en compte que hi ha un factor aleatori de pes: el dorsal més alt vist. Mirem un exemple en què hem anotat el dorsal més alt trobat a cada franja d'observacions.


Mirem-ho per franges:
  • En aquest cas entre 10 i 70 el dorsal més al vist és 13912 a una distància de 953 del total real. Tenim un 6,41% de corredors per sobre d'aquest dorsal.  Amb 10 observacions sumem 1391 corredors (un 9,31% més), amb 20 afegim  696 (només un 4,68%)... i amb 70 observacions sumem 199 corredors (tan sols un 1.33%).
  • Amb 80 observacions el dorsal més alt (14021) és una mica més pròxim a la quantitat real de corredors. Ara hi ha 844 més: un 5,67%. Amb el càlcul que fem en estimar n'afegim 175, un 1,17%. Millorem, però encara estem a una distància considerable.
  • De 90 a 100 hem trobat un dorsal més alt que abans, el 14592. Ara només tenim per sobre 273 participants, un 1,83%. Amb 90 observacions augmentarem sobre el dorsal, comparat a la quantitat real, un 1,09% i amb 100 un 0,89%.
Per tant, la proximitat del dorsal més alt a la quantitat real de corredors influeix. Si la distància és relativament gran, hem vist que augmentant les observacions aquesta influència és negativa perquè, a mesura que augmentem les observacions, la quantitat de persones que afegim és menor. A continuació veiem un altre gràfic en què podem observar un fenomen semblant: l'empitjorament de l'estimació


El valor òptim d'estimació s'obté quan, també casualment: quan la quantitat de corredors a afegir segons el mètode coincideix més amb la que s'ha d'afegir al dorsal per arribar a la quantitat real.

Podeu fer simulacions en el full de càlcul que us enllacem. Millor que la descarregueu perquè fent F9 canviï automàticament l'experiment.

Enllaç al full de càlcul


Ho provem?

Ens atrevim a endevinar la participació del 2011 a partir d'aquest vídeo? Treu el so, perquè hi ha un moment que diuen quina ha estat la inscripció. Després podràs comprovar la teva estimació.


I a l'aula?
  • Es pot proposar a l'alumnat que facin conjectures a partir, per exemple, de la imatge proposada o d'un vídeo. I que les argumentin. La discussió es pot portar cap a la qüestió clau: quants participants més podríem dir que hi ha a partir del dorsal més alt observat. I, a partir d'aquí explicar el mètode o conduir, amb bones preguntes, cap a la descoberta del mètode.
  • És una oportunitat per a treballar conceptes com el d'error absolut i error relatiu. També per a fer un estudi com el que hem proposat relacionat amb la quantitat d'observacions, que unes vegades fa millorar els resultats i d'altres no.
  • És una bona situació per treballar-la amb full de càlcul o fent un petit programa de simulació.
  • També es pot proposar, donades aquestes discordances, com millorar el mètode. Per exemple, i si posem dos o més observadors en diferents llocs i/o diferents moments? Serà menor l'error si fem una mitjana de resultats? En aquest gràfic veiem que, en general, l'error relatiu disminueix si fem la mitjana dels dos experiments (línia blava).

Així i tot, no sempre serà garantia de "certesa". Al gràfic anterior podem veure que l'observació 2, la vermella, entre 40 i 60 observacions és millor que la mitjana. Els factors aleatoris tornen a jugar el seu paper. En aquest exemple observem que, amb 20 observacions, és millor l'observació 2 que la mitjana de les dues. I amb 100 és millor la segona observació.


Amb aquest applet, que fa l'experiment cinc vegades, partint de la quantitat de dorsals observats que se li demana, es pot veure que l'estimació mitjana no és sempre la millor. És molt freqüent que una o dues de les experimentacions intermèdies fetes tinguin un error relatiu menor.

Cap comentari:

Publica un comentari a l'entrada