24 d’octubre del 2016

L'atzar té patrons?

El proper 30 de novembre estem convidats per l'ICFO (Institu de Ciències Fotòniques) a participar en un experiment quàntic: el Big Bell Test. Per col·laborar només ens demanen que enviem una seqüència aleatòria de 100 bits d'uns i zeros i, a partir de les 30 000 seqüències que necessiten,es faran els experiments. Aquestes seqüències les podem escriure directament o introduir-les mitjançant un joc interactiu que ens va orientant sobre si hem estat "prou aleatoris" o no. Podeu obtenir més informació sobre l'experiment en aquest tres enllaços: The Big Bell Test (còmic explicatiu, joc, etc...), La cuántica te necesita (l'experiment explicat al web Cuentos cuánticos) o mirant aquests vídeos. També teniu aquest altre enllaç amb activitats per a centres de secundària.

En tot cas, anem a la part matemàtica: què significa "prou aleatori"? Imaginem per un moment que hem encarregat una feina a l'aula: tirar una moneda 20 vegades seguides i que ens anotin els resultats. Continuem imaginant i suposem que, entre d'altres, hem rebut aquestes quatre respostes:

Sèrie A
CCCCCCCCCCXXXXXXXXXX

Sèrie B
XCXCXCXCXCXCXCXCXCXC

Sèrie C
CCXCXCXCCXCXXCXCXCCXX

Sèrie D
CXCCCXCXXCCCCXCXCCXC

Hi ha dues sèries clarament sospitoses d'haver estat inventades: l'A i la B. Per què? Perquè tenen un patró que sembla poc atzarós. Totes dues tenen un 50% de cares i un 50% de creus, però que surtin primer totes les cares i després totes les creus o que facin una seqüència tan purament alternada sembla poc natural.


Les sèries C i D fan millor pinta. Tot i així, ja ho diem, la sèrie C és inventada. No només perquè quadri perfectament amb 10 cares i 10 creus. Una altra cosa que la fa sospitosa és que les ratxes siguin sempre tan curtes, que no hi hagi mai tres cares seguides o tres creus. Hi ha, aproximadament un 50% de probabilitats de que fent 20 tirades seguides obtinguem, com a mínim una vegada, tres cares o tres creus seguides. I una mica menys del 20% d'obtenir una ratxa de quatre tirades iguals.

Hi ha una paradoxa aparent. Cadascuna de les sèries concretes que hem dit té la mateixa probabilitat de sortir:


Però podem veure clarament que, entre aquest milió i escaig de combinacions, només tenim dues sèries de 10 signes seguits (una de 10 cares i 10 creus i una altra de 10 creus i 10 cares) i dues més de dos signes alternats (cara-creu-cara-creu... o bé creu-cara-creu-cara...). En canvi no és difícil pensar que, entre aquest milió, moltíssimes tindran alguna vegada tres cares o tres creus seguides.

És possible ponderar l'atzar? Podem distingir sèries "falses" de "certes"?
La resposta és: amb seguretat no. Però hi ha sèries més factibles que d'altres. El que hem de mirar són la quantitat de cares i creus i les ratxes de resultats repetits. No cal dir que, quant més llarga sigui la sèrie, amb més certesa podrem "mesurar la incertesa". Ho mirem?
  • Quantitat de cares i creus
Encara que no ho sembli no és la dada més fiable. En un experiment fet amb ordinador amb un milió de sèries de 100 tirades seguides de monedes, hem pogut comprovar que a més del 95% de les sèries la proporció entre cares i creus estava entre el 40 i el 60%. És evident que si la desproporció entre cares i creus és molt gran podem qualificar la sèrie com a "sospitosa", però necessitarem alguna dada més. En general, un inventor de sèries vigilarà fàcilment aquest aspecte.

Podeu experimentar vosaltres mateixos els percentatges de cares i creus en sèries de n tirades amb aquest petit programa fet amb Scratch.


  • Les ratxes llargues sempre hi són
A una entrada anterior en aquest mateix blog (Casualitats, creences, impressions...) ja havíem comentat que en el nostre "disseny mental" de l'atzar no acostumen a entrar ratxes llargues. Per tant, si ens inventem la sèrie, acostumem a canviar la tirada quan portem un petit grup de cares o creus seguides.

Mirem un cas que podem controlar amb relativa facilitat: sèries de 5 tirades. Els casos possibles són els següents:

CCCCC CCCCX CCCXC CCCXX CCXCC CCXCX CCXXC CCXXX
CXCCC CXCCX CXCXC CXCXX CXXCC CXXCX CXXXC CXXXX
XCCCC XCCCX XCCXC XCCXX XCXCC XCXCX XCXXC XCXXX
XXCCC XXCCX XXCXC XXCXX XXXCC XXXCX XXXXC XXXXX

Es pot observar fàcilment que a la meitat de les caselles hi ha combinacions amb un mínim de tres cares o tres creus. Això implica que, en una sèrie de 5 tirades, la meitat de vegades tindrem una ratxa de tres resultats seguits iguals. Podem comptar que les probabilitats per a cada ratxa, de 2 a 5 resultats iguals seguits, són:
  • Ratxes de 2 → 93,75% (30/32)
  • Ratxes de 3 → 50% (16/32)
  • Ratxes de 4 → 18.75% (6/32)
  • Ratxes de 5 → 6,25% (2/32)
No cal dir que a mesura que augmentem la quantitat de tirades de la sèries aquestes ratxes llargues apareixeran amb més facilitat.

Aquesta dada, la presència o no de ratxes llargues, està bé per fer una mirada de conjunt. Però, i si hem de valorar la verosimilitud d'una sola sèrie? Aquí  hem de modificar la mirada: ens hem de fixar en que la quantitat de sèries de dos, de tres, etc., estigui equilibrada. Necessitem saber quantes ratxes esperarem de cada tipus.

  • Quanta ratxes de cada classe podem esperar?

Comencem, com abans, amb un altre cas controlable: 4 tirades seguides d'una moneda. El primer que hem de mirar, per valorar la seva plausibilitat, és la quantitat de ratxes de 2, de 3,  i de 4 que hi apareixen. A l'hora de comptar hem de tenir en compte que una sèrie de 3, per exemple, conté dues sèries de 2. Mirem-ho amb un exemple: CXXX.
Ratxes de 2 CXXX CXXX 2
Ratxes de 3 CXXX 1

Què es el que cerquem mirant la taula de casos possibles? L'objectiu és esbrinar quantes ratxes d'n resultats iguals seguits podem esperar que apareguin. Observem tots els casos possibles per a ratxes de 2 en quatre tirades.


Podem observar que tenim 24 ratxes de dos en 16 casos. Això implica que, de mitjana, obtindrem 1,5 ratxes de dos quan tirem quatre monedes seguides (24/16). Si ho féssim per a ratxes de tres resultats iguals la mitjana seria de 0,5 (8/16).  Un pèl difícil observar "mitja ratxa". El cert és que aquest tipus d'estudi, per diferenciar sèries "plausibles" de sèries "dubtoses", demanen sèries més llargues. De fet, quan més llarga, més fàcil sera distingir-les. Justament perquè en sèries molt llargues també trobarem més ratxes i major longitud, aspecte que "l'inventor" de sèries no acostuma a tenir en compte.

Per calcular la quantitat de ratxes esperables d'una llargada determinada no podem fer una taula de casos complets cada vegada.  ja hem vist que per a 20 tirades hi ha 1 048 576 casos diferentes (220). Per a 50 tirades són més de 1125 bilions i per a 100 més d'un quintilió. Haurem de demanar ajuda al càlcul de probabilitats; concretament a les probabilitats condicionals.

Tornem a l'exemple de quatre tirades i calculem les ratxes esperables de dos resultats iguals:
  • La probabilitat d'obtenir cara és 1/2.
  • La d'obtenir de nou cara és també d'1/2
  • La probabilitat combinada de treure dues cares seguides és 1/2 · 1/2 = 1/4
  • La probabilitat de treure dues creus és també d'1/4
  • La probabilitat d'obtenir una ratxa de dues cares o dues creus és 1/4 + 1/4 = 1/2
Si volem analitzar una sèrie de 100 tirades seguides podem comptar que tindrem 99 parelles de dues tirades (1a i 2a tirada, 2a i 3a tirada.... 98a i 99a tirades, 99a i 100a tirada). Si la probabilitat d'un ratxa de dos resultats iguals seguits és d'1/2, la meitat d'aquestes 99 parelles haurien de ser cara-cara o creu-creu; unes 50 (99/2=49,5).

Podem fer un raonament semblant per preveure les ratxes de tres resultats seguits iguals, tenint en compte que, en 100 tirades, ara hi haurà 98 ternes a considerar.


Podem obtenir una fórmula general per a n tirades i estudiar ratxes de r resulats seguits:


La següent imatge mostra com els resultats obtinguts amb més de 25 000 sèries de cent tirades s'acosten molt a le previsions que hem fet per a ratxes de 2 i de 3. També aquestes quantitats de ratxes són molt properes a les que podríem calcular per a ratxes de 4, 5, 6 i 7. A més, es pot observar com l'aparició mínima d'una ratxa de 5 es produeix en un 97% de les sèries, la d'una ratxa de 6 en el 81% i que les ratxes de 7 apareixen una mica més de la meitat de les vegades.


Podeu experimentar amb l'applet seguint aquest enllaç
  • Diferenciem sèries "falses" de "certes"
Podem aprofitar tot el que hem vist fins ara per mirar si unes sèries donades són plausibles o sospitoses d'invenció. Mirem un primer exemple amb una sèrie de 100 tirades.


Si analitzem les dades veiem que la quantitat de cares i creus és raonable, així com la quantitat de ratxes de dos resultats iguals. A les ratxes de tres comença a haver-hi un desfasament: s'esperen al voltant de 24 i només en tenim 16. Aquest desfasament veiem que és progressiu. Només en tenim 3 ratxes de quatre resultats iguals, en comptes de les 12 esperades, i cap ratxa de 5, ni de 6, ni de 7. Aquesta sèrie fa tota la pinta de no ser real. (Ho confirmo: l'he recollida d'una persona a la que li vaig demanar que se la inventés).

Apliquem l'anàlisi d'aquesta altra sèrie.


Podem veure que tots els resultats s'ajusten, amb prou aproximació, als resultats esperats. Per tant la sèrie té tot l'aspecte de correspondre's amb una sèrie de 100 tirades real.

Podeu provar amb l'applet que mostràvem abans totes les sèries de 100 tirades que volgueu. I si no teniu aquest altre, fet amb Snap, que analitza seqüències de més de 25 tirades i intenta endevinar si són reals o inventades. Si bé no encerta del tot com a mínim us fa el recompte automàticament. El nivell d'encert millora quan més llarga sigui la seqüència.


I a l'aula?
  • Realitzar l'activitat més o menys amb el guió seguit aquí, començant pel joc de diferenciar sèries plausibles de dubtoses.
  • Es pot adaptar la part d'anàlisi a altres quantitats de tirades.
  • Si encara esteu a temps participar al Big Bell Test tot informant-se de l'experiment.

Cap comentari:

Publica un comentari a l'entrada