V roce 2008 společnost Google oznámila zajímavou novou službu s názvem Chřipkové trendy Google. Inženýři ve společnosti zjistili, že určité vyhledávací dotazy (jako jsou například slova „horečka“ nebo kašel) se zdály být v každé chřipkové sezóně. Jejich nápadem bylo použít četnost těchto vyhledávání k výpočtu celostátní chřipky rychleji, než by bylo možné provedeno s konvenčními daty (jejichž sběr a analýza obvykle trvá několik týdnů), aby lidé věděli, kdy podniknout další preventivní opatření, aby se vyhnuli viru.
Související obsah
- Jak mohou modely počasí a Google pomoci předpovědět chřipkovou sezónu
- Velká data nebo příliš mnoho informací?
Mediální média (včetně tohoto zpravodaje) se vrhla na to, aby společnosti Google poblahopřála k tak inteligentnímu, inovativnímu a rušivému použití velkých dat. Jediný problém? Chřipkové trendy Google nefungovaly moc dobře.
Služba ve srovnání s konvenčními údaji získanými následně CDC soustavně nadhodnocuje míru chřipky, přičemž odhaduje, že výskyt chřipky je vyšší než ve skutečnosti za 100 ze 108 týdnů od srpna 2011 do září 2013. V lednu 2013, kdy národní míra chřipky dosáhla vrcholu, ale odhady Chřipkových trendů Google byly dvakrát vyšší než reálná data, její nepřesnost nakonec začala sbírat tiskové pokrytí.
Nejběžnějším vysvětlením této nesrovnalosti bylo, že Google nezohlednil nárůst dotazů souvisejících s chřipkou, ke kterým dochází v důsledku hysterie chřipky vyvolané médii, ke které dochází každou zimu. Tento týden ve vědě však skupina sociálních vědců vedená Davidem Lazerem navrhuje alternativní vysvětlení: na vině je vlastní vylepšení algoritmu vyhledávání Google.
Je nesporně těžké pro cizince analyzovat Chřipkové trendy Google, protože společnost nezveřejňuje konkrétní vyhledávací termíny, které používá jako nezpracovaná data, nebo konkrétní algoritmus, který používá k převodu frekvence těchto výrazů na hodnocení chřipky. Vědci však udělali vše, co bylo v jejich silách, k odvození podmínek pomocí služby Google Correlate, která vám umožňuje v průběhu času sledovat sazby konkrétních vyhledávacích dotazů.
Když vědci v posledních několika letech provedli řadu dotazů souvisejících s chřipkou, zjistili, že pár klíčových vyhledávání (dotazování na chřipkovou léčbu a těch, kteří se ptají, jak chřipku odlišit od chladu) sledoval Google Chřipka blíže Odhady trendů než skutečné míry chřipky, zejména když Google přeceňoval výskyt onemocnění. Zdá se, že tato konkrétní vyhledávání by mohla být obrovskou součástí problému nepřesnosti.
Existuje další dobrý důvod k podezření, že by tomu tak mohlo být. V roce 2011, v rámci vylepšení jednoho ze svých pravidelných algoritmů vyhledávání, začala společnost Google doporučovat související vyhledávací dotazy pro mnoho dotazů (včetně výpisu vyhledávání léčby chřipky poté, co někdo Googled mnoho výrazů souvisejících s chřipkou) a v roce 2012 společnost začala poskytovat potenciální diagnózy v odezvě na symptomy ve vyhledávání (včetně výpisu jak chřipky, tak chřipky) po hledání, které zahrnovalo frázi „bolest v krku“, například, což může vést uživatele k hledání toho, jak rozlišovat mezi těmito dvěma). Tato vylepšení, tvrdí vědci, pravděpodobně uměla zvyšovat míru vyhledávání, která označili za odpovědná za nadhodnocení společnosti Google.
Samozřejmě, pokud by tato hypotéza byla pravdivá, neznamenalo by to, že by chřipkové trendy Google byly nevyhnutelně odsouzeny k nepřesnosti, jen že je třeba je aktualizovat, aby zohledňovaly neustálé změny vyhledávače. Lazer a další výzkumníci však tvrdí, že sledování chřipky z velkých dat je obzvláště obtížný problém.
Ukázalo se, že velká část hledaných výrazů, která koreluje s údaji CDC o míře chřipky, není způsobena lidmi, kteří by chřipku dostali, ale třetím faktorem, který ovlivňuje jak vyhledávací vzorce, tak přenos chřipky: zima. Ve skutečnosti vývojáři Chřipkových trendů Google hlásili, že se týkají konkrétních termínů - například těch, které se týkají basketbalu na střední škole - které korelovaly s mírou chřipky v průběhu času, ale zjevně neměly nic společného s virem.
V průběhu času inženýři Google ručně odstranili mnoho výrazů, které korelují s chřipkovým vyhledáváním, ale nemají nic společného s chřipkou, ale jejich model byl zjevně stále příliš závislý na trendech sezónního vyhledávání bez chřipky - část důvodu, proč Google Chřipkové trendy neodrážejí 2009 epidemie H1N1, ke které došlo v létě. Zejména ve svých dřívějších verzích byl Chřipkový trend Google „detektorem chřipky částečně, zimním detektorem“, autoři knihy Science Science .
Vědci však říkají, že toto všechno může být poučením pro použití velkých dat v projektech, jako je Google Chřipkové trendy, spíše než pouhým obviněním. Pokud bude řádně aktualizován tak, aby zohledňoval vylepšení vlastního algoritmu Google, a pokud bude důsledně analyzován, aby se odstranily čistě sezónní faktory, mohl by být užitečný při dokumentování celostátní chřipky - zejména v kombinaci s konvenčními daty.
Jako test vědci vytvořili model, který kombinoval data Google Flu Trends (která je v zásadě v reálném čase, ale potenciálně nepřesná) s daty o dvou týdnech starých CDC (což je datováno, protože shromažďování vyžaduje určitý čas, ale stále by mohlo být poněkud svědčí o současném výskytu chřipky). Jejich hybrid odpovídal skutečným a současným chřipkovým údajům mnohem těsněji než samotné chřipkové trendy Google a představil způsob, jak tyto informace získat mnohem rychleji, než čekat dva týdny na konvenční data.
„Naše analýza Google Flu ukazuje, že nejlepší výsledky pocházejí z kombinace informací a technik z obou zdrojů, “ uvedl v tiskovém prohlášení Ryan Kennedy, profesor a spoluautor univerzity v Houstonu. "Namísto mluvení o 'velké datové revoluci' bychom měli diskutovat o 'revoluci všech dat.'“