https://frosthead.com

Může statistický model přesně předpovídat olympijské medaile?

Pokud vás někdo požádal, abyste předpověděli počet medailí, které každá země vyhraje na letošních olympijských hrách, pravděpodobně byste se pokusili identifikovat oblíbené sportovce v každé události, pak celkem očekávaná vítězství každé země, abyste dosáhli výsledku.

Tim a Dan Graettinger, bratři za společností na vyhledávání dat Discovery Corps, Inc., mají poněkud odlišný přístup. Sportovce zcela ignorují.

Místo toho jejich model pro hry v Soči zkoumá geografickou oblast každé země, HDP na obyvatele, celkovou hodnotu vývozu a šířku, aby určil, kolik medailí každá země vyhraje. V případě, že vás zajímá, předpovídá, že USA vyjdou na vrcholu, celkem 29 medailí.

Graettingers nejsou prvními, kteří využívají tento druh přístupu založeného na údajích, shora dolů a předpovídají počty medailí. Daniel Johnson, profesor ekonomie Colorado College, postavil podobné modely pro pět olympijských her v letech 2000 až 2008 - dosáhl tak 94 procentní přesnosti při předpovídání počtu medailí v každé zemi -, ale nevytvořil model pro Soči.

Dan a Tim jsou ve hře novější. Dan - který obvykle pracuje na konvenčnějších projektech těžby dat, například předpovídání potenciálních zákazníků společnosti - se nejprve začal zajímat o použití modelů k předpovídání soutěží před čtyřmi lety, během zimních olympijských her ve Vancouveru. „Údaje o minulosti používám k předpovídání budoucnosti po celou dobu, “ říká. "Každou noc ukazovaly v medaili počet medailí a já jsem začal přemýšlet, jestli to dokážeme předvídat."

Přestože se výkony jednotlivých sportovců mohou nepředvídatelně lišit, zdůvodnil, mohl by existovat celkový vztah mezi základními charakteristikami země (například velikostí, podnebím a množstvím bohatství) a počtem medailí, které by si pravděpodobně vzal domů. Takový přístup by nedokázal říci, který konkurent by mohl vyhrát danou událost, ale s dostatkem údajů by mohl být schopen přesně předpovědět celkový počet medailí pro každou zemi.

Zpočátku se spolu se svým bratrem rozhodli pracovat na přípravě předběžného modelu londýnských her 2012. Nejprve shromáždili širokou škálu různých typů datových souborů, od všeho od geografie země po její historii, náboženství, bohatství a politickou strukturu. Poté použili regresní analýzy a další metody drcení dat, aby zjistili, které proměnné mají nejbližší vztah k historickým údajům o olympijských medailích.

Zjistili, že pro letní hry model, který zahrnoval hrubý domácí produkt země, populaci, zeměpisnou šířku a celkovou ekonomickou svobodu (měřeno podle indexu Foundation Heritage), nejlépe koreloval s počtem medailí každé země za předchozí dvě letní olympijské hry (2004) a 2008). V tu chvíli však jejich předběžný model dokázal předpovídat pouze to, které země vyhrají dvě nebo více medailí, nikoli počet medailí za zemi.

Rozhodli se ji vylepšit pro hry v Soči, ale nemohli se spolehnout na jejich předchozí model, protože země, které jsou v zimě úspěšné, se od léta tak výrazně liší. Jejich nový model Soči řeší problém předpovídání počtu medailí ve dvou krocích. Protože asi 90 procent zemí nikdy nevyhrálo jednu zimní olympijskou medaili (žádný atlet z Blízkého východu, Jižní Ameriky, Afriky nebo Karibiku nikdy nevyhrál), nejprve oddělí deset procent, které pravděpodobně vyhrají alespoň jedno, a pak předpovídá, kolik každý vyhraje.

"Některé trendy jsou skoro to, co byste očekávali - jak se populace v zemi zvětšuje, je větší pravděpodobnost, že vyhraje medaili, " říká Tim. "Nakonec však potřebujete nějaké silnější statistické aparáty, které dokážou brousit mnoho proměnných a uspořádat je podle toho, které jsou nejpředvídatelnější."

Nakonec přišli na několik proměnných, které přesně oddělily devadesát procent zemí, které nevyhrají medaile, od deseti procent, které pravděpodobně vyhrají: tyto zahrnovaly míru migrace, počet lékařů na obyvatele, zeměpisnou šířku, hrubý domácí produkt a to, zda země měla vyhrál medaili v předchozích letních hrách (žádná země nikdy nezískala zimní medaili, aniž by vyhrála jednu předchozí léto, částečně proto, že skupina letních vítězů je mnohem větší než zimní). Spuštěním tohoto modelu na posledních dvou zimních olympijských hrách tento model určil, které národy si odnesly medaili s přesností 96, 5 procenta.

S vyloučením 90 procent zemí použili Graettingers podobné regresní analýzy k vytvoření modelu, který zpětně předpověděl, kolik medailí vyhrála každá zbývající země. Jejich analýza zjistila, že historickým údajům o medailích nejlépe odpovídá mírně odlišný seznam proměnných. Tyto proměnné spolu s předpovědi pro hry v Soči jsou níže:

Obrázek 4 - Předpovídaná medaile Tabulka 2 - s ohraničením.png Předpovědi modelu pro hry v Soči (Graf se svolením Discovery Corps, Inc.)

Některé z proměnných, které se ukázaly jako korelační, nejsou velkým šokem - dává smysl, že země s vyšší šířkou dělají lépe při událostech hraných během zimních her - ale některé byly překvapivější.

„Mysleli jsme si, že obyvatelstvo, ne oblast pevniny, bude důležité, “ říká Dan. Nejsou si jistí, proč geografická oblast nakonec přesněji zapadá do historických dat, ale může to být proto, že několik zemí s vysokou populací, které nevyhrávají zimní medaile (jako je Indie a Brazílie), data vyhodí. Použitím rozlohy místo toho se model vyhýbá nadměrnému vlivu těchto zemí, ale stále si zachovává hrubé spojení s populací, protože celkově mají země s větší rozlohou větší populace.

Model samozřejmě není dokonalý, dokonce ani v odpovídajících historických datech. "Náš přístup je přístup 30 000 stop. Existují proměnné, které nemůžeme vysvětlit, " říká Tim. Některé země opakovaně překonaly předpovědi modelu (včetně Jižní Koreje, která vyhrává nepřiměřené množství krátkodobých rychlobruslařských akcí), zatímco jiné důsledně nedosahují přílišných výsledků (například Velká Británie, která se zdá být mnohem lepší na letních akcích, které by se očekávaly, snad proto, že - i přes svou šíři - dostane mnohem více deště než sníh).

Důslednou výjimkou, kterou zjistili podle předpovědí modelu, je navíc to, že hostitelská země rozdává více medailí, než by jinak na základě údajů. Itálie (během her Turin 2006) i Kanada (během her Vancouver 2010) předčily tento model, přičemž Kanada dosáhla rekordního rekordu ve 14 zlatých.

Stále, na základě jejich statisticky přísného přístupu, jsou Graettingers přesvědčeni, že jejich model bude celkově předpovídat konečný počet medailí s relativně vysokou mírou přesnosti.

Jak se jejich předpovědi porovnávají s předpovědi odborníků, kteří používají konvenčnější strategie? Experti se neliší dramaticky, ale mají několik tradičně úspěšných zemí (Norsko, Kanada, Rusko), které získávají vyšší počet medailí, a několik dalších (Čína, Nizozemsko, Austrálie), z nichž každá vyhrává o několik méně.

K dnešnímu dni Graettingers neodložili žádné sázky na své předpovědi, ale plánují srovnání výstupu svého modelu s sázkovými kurzy těsně před zahájením hry. Pokud by viděli nějaké nesrovnalosti, které by chtěli využít, mohli by nakonec umístit své peníze tam, kde jsou jejich ústa.

Může statistický model přesně předpovídat olympijské medaile?