Znanost

Ali lahko statistični model natančno napove štetje olimpijskih medalj? | Znanost

Če bi vas kdo prosil, da predvidete število medalj, ki jih bo vsaka država osvojila na letošnjih olimpijskih igrah, bi verjetno poskušali prepoznati priljubljene športnike v vsakem dogodku, nato pa skupne pričakovane zmage vsake države dosegle rezultat.

Tim in Dan Graettinger, brata za podjetjem za podatkovno rudarjenje Discovery Corps, Inc. , imajo precej drugačen pristop. Športnike popolnoma ignorirajo.



Namesto tega njihov model za igre v Sočiju se na podlagi geografskega območja posamezne države, BDP na prebivalca, skupne vrednosti izvoza in zemljepisne širine določi, koliko medalj bo osvojila posamezna država. Če se sprašujete, napoveduje, da se bodo ZDA uvrstile na vrh s skupno 29 medaljami.



Graettingersovi niso prvi, ki uporabljajo takšen pristop k napovedovanju števila medalj, ki temelji na podatkih, od zgoraj navzdol. Daniel Johnson , profesor ekonomije na Colorado College, izdelali podobne modele za pet olimpijskih iger med letoma 2000 in 2008 - s skupno 94-odstotno natančnostjo pri napovedovanju števila medalj vsake države -, vendar za Soči ni ustvaril vzorca.

Dan in Tim sta novejša v igri. Dan, ki običajno dela na bolj običajnih projektih za podatkovno rudarjenje, na primer napoveduje potencialne stranke podjetja, se je za uporabo modelov za napovedovanje tekmovanj prvič začel zanimati pred štirimi leti med zimskimi olimpijskimi igrami v Vancouvru. 'Ves čas uporabljam podatke o preteklosti, da napovem prihodnost,' pravi. 'Vsako noč so na televiziji prikazovali število medalj in začel sem se spraševati, ali bi ga lahko napovedali.'



Čeprav se lahko nastopi posameznih športnikov razlikujejo nepredvidljivo, je menil, da obstaja splošna povezava med temeljnimi značilnostmi države (na primer velikostjo, podnebjem in bogastvom) in številom medalj, ki bi jih verjetno odnesla domov. Takšen pristop ne bi mogel povedati, kateri tekmovalec bi lahko zmagal na določenem dogodku, vendar bi z dovolj podatki lahko natančno napovedal skupno število medalj za vsako državo.

Sprva sta se z bratom lotila dela razvoj predhodnega modela za igre v Londonu 2012 . Za začetek so zbrali širok nabor različnih vrst podatkovnih nizov o vsem, od geografije države do njene zgodovine, religije, bogastva in politične strukture. Nato so uporabili regresijske analize in druge metode drobljenja podatkov, da bi ugotovili, katere spremenljivke imajo najtesnejšo povezavo z zgodovinskimi podatki o olimpijskih medaljah.

je Združeno kraljestvo enako angleškemu

Ugotovili so, da je za poletne igre model, ki vključuje bruto domači proizvod države, prebivalstvo, širino in splošno gospodarsko svobodo (merjeno z Kazalo Heritage Foundation ), ki je najbolj koreliral s številom medalj vsake države na prejšnjih dveh poletnih olimpijskih igrah (2004 in 2008). Toda takrat je njihov predhodni model lahko napovedal le, katere države bodo osvojile dve ali več medalj, ne pa tudi število medalj na državo.



Odločili so se, da jo bodo izboljšali za igre v Sočiju, vendar se niso mogli zanesti na svoj prejšnji model, ker se države, ki so pozimi uspešne, tako močno razlikujejo od poletja. Njihov novi model iz Sočija se problema napovedovanja števila medalj loteva v dveh korakih. Ker približno 90 odstotkov držav nikoli ni osvojilo niti ene medalje na zimskih olimpijskih igrah (noben športnik z Bližnjega vzhoda, Južne Amerike, Afrike ali Karibov ni nikoli osvojil), najprej loči deset odstotkov, ki bodo verjetno osvojile vsaj eno, nato pa napove, koliko vsak bo zmagal.

'Nekateri trendi so v veliki meri pričakovani - ko se prebivalstvo države poveča, obstaja večja verjetnost, da bo osvojila medaljo,' pravi Tim. 'Sčasoma pa potrebujete nekaj močnejših statističnih mehanizmov, ki lahko zmeljejo skozi veliko spremenljivk in jih uvrstijo glede na najbolj napovedne.'

Sčasoma so naleteli na nekaj spremenljivk, ki natančno ločujejo devetdeset odstotkov držav, ki niso prejele medalj, od desetih odstotkov, ki bodo verjetno zmagale: med njimi je bila migracijska stopnja, število zdravnikov na prebivalca, zemljepisna širina, bruto domači proizvod in ali je država imela osvojil medaljo na prejšnjih poletnih igrah (nobena država še nikoli ni osvojila zimske medalje, ne da bi jo osvojila prejšnje poletje, delno zato, ker je bazen poletnih zmagovalcev toliko večji od zimske). Z izvajanjem tega modela na zadnjih dveh zimskih olimpijskih igrah je ta model določil, kateri narodi so domov odnesli medaljo s 96,5-odstotno natančnostjo.

Z 90 odstotki izločenih držav so Graettingerjevi s podobnimi regresijskimi analizami ustvarili model, ki je za nazaj napovedal, koliko medalj je osvojila vsaka preostala država. Njihova analiza je pokazala, da nekoliko drugačen seznam spremenljivk najbolje ustreza zgodovinskim podatkom o medalji. Te spremenljivke skupaj z napovedmi za igre v Sočiju so spodaj:

Slika 4 - predvidena medalja Tabela 2 - z border.png

Napovedi modela za igre v Sočiju(Graf vljudnost Discovery Corps, Inc. )

Nekatere spremenljivke, za katere se je izkazalo, da so korelativne, niso velik šok - smiselno je, da se države z višjo širino bolje znajdejo na prireditvah med zimskimi igrami -, nekatere pa so bile bolj presenetljive.

'Mislili smo, da bi bilo pomembno prebivalstvo in ne kopno,' pravi Dan. Niso prepričani, zakaj geografsko območje na koncu natančneje prilagodi zgodovinske podatke, morda pa zato, ker nekaj držav z velikim številom prebivalstva, ki ne osvojijo zimskih medalj (na primer Indija in Brazilija), zavrže podatke. Z uporabo zemljišča namesto tega se model izogne ​​prevelikemu vplivu teh držav, vendar še vedno ohranja grobo povezavo s prebivalstvom, saj imajo države z večjimi območji na splošno večje prebivalstvo.

Seveda model ni popoln, tudi če se ujema z zgodovinskimi podatki. „Naš pristop je pristop 30.000 čevljev. Obstajajo spremenljivke, ki jih ne moremo upoštevati, «pravi Tim. Nekatere države so že večkrat presegle napovedi modela (vključno z Južno Korejo, ki je zmagala v nesorazmernem številu tekmovanj v hitrem drsanju na kratkih stezah), druge pa so vedno manj uspešne (na primer Združeno kraljestvo, ki se zdi, da se na poletnih prireditvah, ki bi jih pričakovali, znajde veliko bolje, morda zato, ker kljub svoji zemljepisni širini dobi veliko več dežja kot snega).

Poleg tega je dosledna izjema, ki so jo našli pri napovedih modela, ta, da država gostiteljica prinaša več medalj, kot bi sicer, samo na podlagi podatkov. Tako Italija (med igrami v Torinu leta 2006) kot tudi Kanada (med igrami v Vancouvru leta 2010) sta model premagali, Kanada pa je dosegla rekord vseh časov v osvojenih 14 zlatih.

Kljub temu so na podlagi svojega statistično natančnega pristopa Graettingerjevi prepričani, da bo njihov model na splošno napovedal končno štetje medalj z relativno visoko natančnostjo.

Kako se njihove napovedi primerjajo z napovedmi strokovnjaki, ki uporabljajo bolj običajne strategije ? Strokovnjaki se ne razlikujejo dramatično, imajo pa nekaj tradicionalno uspešnih držav (Norveška, Kanada, Rusija), ki so osvojile večje število medalj, ter nekaj drugih (Kitajska, Nizozemska, Avstralija), vsaka pa nekaj manj.

Do danes Graettingerji niso sklenili nobenih stav na svoje napovedi, načrtujejo pa primerjavo rezultatov svojega modela s stavami, tik pred začetkom iger. Če opazijo kakršna koli neskladja, ki bi jih radi izkoristili, bodo denar na koncu dali tam, kjer so njihova usta.



^