https://frosthead.com

Může počítačový model předpovídat první kolo letošního březnového šílenství?

"Dejte si pozor na březnový Ides." Ano, je to konečně znovu v tom ročním období: když císaři vysokoškolských basketbalů musí pozorovat záda, nevyhazujte semena turnajové stávky s nízkým dnem.

Před 15. březnem vyplní miliony po celém světě své závorky March Madness. V roce 2017 společnost ESPN získala rekordních 18, 8 milionu závorek.

Prvním krokem k dokonalé závorce je správné výběr prvního kola. Bohužel většina z nás nemůže předpovídat budoucnost. V loňském roce bylo v prvním kole dokonalé pouze 164 přihlášených závorek - méně než 0, 001 procenta.

Bylo předloženo 18, 8 milionů závorek.

164 jsou perfektní po 1. kole.

Tady je to překračování. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ESPN Fantasy Sports (@ESPNFantasy) 18. března 2017

Mnoho závorek je zatčeno, když tým s nižším nasazením rozruší zvýhodněné vyšší semeno. Protože se pole v roce 1985 rozšířilo na 64 týmů, každý rok se v průměru vyskytne nejméně osm rozrušení. Pokud chcete vyhrát svůj závorkový fond, raději si vyberte alespoň několik rozruchů.

Jsme dva matematické Ph.D. kandidáti na Ohio State University, kteří mají vášeň pro vědu o údajích a basketbal. V letošním roce jsme se rozhodli, že by bylo zábavné vytvořit počítačový program, který používá matematický přístup k předpovídání rozruchů v prvním kole. Pokud máme pravdu, závorka vybraná pomocí našeho programu by měla mít v prvním kole lepší výkon než průměrná závorka.

Padlí lidé

Není snadné určit, které z her prvního kola povedou k rozrušení.

Řekněme, že musíte rozhodnout mezi semenem číslo 10 a číslem 7. Semeno č. 10 se v posledních třech turnajových vystoupeních rozpadlo, dokonce jednou udělalo Final Four. Semeno č. 7 je tým, který dostal málo až žádné národní pokrytí; příležitostný fanoušek o nich pravděpodobně nikdy neslyšel. Které byste si vybrali?

Pokud byste si v roce 2017 vybrali semeno č. 10, šli byste s Virginie Commonwealth University přes Kalifornskou Svatou Marii - a vy byste se mýlili. Díky klamnému rozhodování, které se nazývá předčasné zkreslení, mohou být lidé oklamáni, aby pomocí svého nejnovějšího pozorování učinili rozhodnutí.

Nedávná předpojatost je jen jeden druh předpojatosti, který může proniknout do něčího procesu sběru, ale existuje mnoho dalších. Možná jste zaujatí vůči domácímu týmu, nebo se možná ztotožňujete s hráčem a zoufale chcete, aby uspěl. To vše ovlivňuje vaši konzolu potenciálně negativním způsobem. Do těchto pasti spadají i ostřílení profesionálové.

Modelování rozrušení

Strojové učení se může bránit proti těmto nástrahám.

Ve strojovém učení statistici, matematici a počítačoví vědci trénují stroj tak, aby předpovídali tím, že ho nechali „učit se“ z minulých dat. Tento přístup byl použit v mnoha různých oborech, včetně marketingu, medicíny a sportu.

Techniky strojového učení lze přirovnat k černé skříňce. Nejprve vložíte algoritmus do minulosti, v podstatě nastavíte číselníky na černé skříňce. Jakmile jsou nastavení kalibrována, může algoritmus načíst nová data, porovnat je s minulými daty a poté vyprostit jeho předpovědi.

Pohled na černé pole algoritmů strojového učení. Pohled na černé pole algoritmů strojového učení. (Matthew Osborne, CC BY-SA)

Ve strojovém učení jsou k dispozici různé černé rámečky. Pro náš projekt March Madness jsou ty, které jsme chtěli, známé jako klasifikační algoritmy. Pomáhají nám určit, zda by hra měla být klasifikována jako rozrušení, a to buď poskytnutím pravděpodobnosti rozrušení, nebo explicitně klasifikováním hry jako jedné.

Náš program používá řadu populárních klasifikačních algoritmů, včetně logistické regrese, náhodných lesních modelů a k-nejbližších sousedů. Každá metoda je jako jiná „značka“ stejného stroje; pracují pod kapotou jako Fords a Toyotas, ale vykonávají stejnou klasifikační práci. Každý algoritmus nebo box má své vlastní předpovědi o pravděpodobnosti rozrušení.

K nastavení číselníků na našich černých skříních jsme použili statistiky všech týmů z prvního kola 2001 až 2017. Když jsme testovali jeden z našich algoritmů s údaji z prvního kola za rok 2017, dosáhli míry úspěšnosti přibližně 75 procent. To nám dává jistotu, že analýza minulých dat, spíše než jen důvěra našeho střeva, může vést k přesnějším předpovědím rozrušení, a tím i lepším celkovým závorkám.

Jaké výhody mají tyto krabice oproti lidské intuici? Jednak mohou stroje identifikovat vzory ve všech datech 2001–2017 během několika sekund. A co víc, protože stroje se spoléhají pouze na data, může být méně pravděpodobné, že upadnou do psychologického zkreslení.

To neznamená, že strojové učení nám poskytne perfektní závorky. Přestože krabička obchází lidské zaujatosti, není imunní vůči chybám. Výsledky závisí na minulých datech. Například, pokud by v prvním kole ztratilo semeno č. 1, náš model by to pravděpodobně nepředvídal, protože k tomu nikdy nedošlo.

Algoritmy strojového učení navíc fungují nejlépe s tisíci nebo dokonce miliony příkladů. Od roku 2001 se odehrálo pouze 544 her prvního kola Madness, takže naše algoritmy nebudou správně vyvolávat každé rozrušení. S ohledem na basketbalového odborníka Jalen Rose, náš výstup by měl být použit jako nástroj ve spojení s vašimi odbornými znalostmi - a štěstí! - vybrat správné hry.

Strojové šílenství?

Nejsme první lidé, kteří aplikovali strojové učení do března Madness a nebudeme poslední. Ve skutečnosti mohou být techniky strojového učení brzy nezbytné, aby byla vaše skupina konkurenceschopná.

Pro použití strojového učení nepotřebujete titul z matematiky - ačkoli nám to pomáhá. Strojové učení může být brzy dostupnější než kdy jindy. Zájemci se mohou podívat na naše modely online. Nebojte se prozkoumat naše algoritmy a dokonce přijďte s lepším přístupem k sobě.


Tento článek byl původně publikován v The Conversation. Konverzace

Matthew Osborne, Ph.D Kandidát z Matematiky, Ohio State University

Kevin Nowland, Ph.D Kandidát z Matematiky, Ohio State University

Může počítačový model předpovídat první kolo letošního březnového šílenství?