https://frosthead.com

Big Data se právě zvětšila, když Watson společnosti IBM setká encyklopedii života

Po 2 000 letech je konečná životní encyklopedie na vrcholu nové datové éry. Grant od National Science Foundation byl udělen Encyclopedia of Life (EOL), IBM a Georgia Institute of Technology. Grant umožní zpracování a vzájemné indexování velkého množství údajů způsobem, který umožní průkopnické vědy.

Související obsah

  • Navržený nový systém mořských rezervací nabízí růžový výhled pro humra i rybáře

V roce 77 nl začal Pliny starší psát světovou první encyklopedii Natural History. Zahrnovalo vše od astronomie po botaniku, zoologii, antropologii a další. Pliny se pokusil dát vše, co mohl osobně shromáždit o přírodním světě, do jediného písemného díla. Za posledních 2 000 let sledovala dlouhá řada vědců inspirovaných Pliny stejnou vizi.

Pliny zahrnoval 20 000 témat ve 36 svazcích, ale narazil na omezení toho, co může jediná osoba objevit, zaznamenat a zpracovat v lidském životě. Zemřel během erupce Vesuvu, než mohl dokončit finální editaci svého magnum opus. Ani ve své době nebylo možné, aby jeden člověk četl všechny knihy, učil se všechno a vysvětlil to světu.

Jak později vědci, editoři a knihovníci objevili ve světě, který s každým dalším rokem přidává více písemných znalostí, i když byste mohli všechny světové knihy a výzkum uložit v jedné budově, je výzvou zpřístupnit všechny relevantní informace vědci během omezení jejich krátkých lidských životů.

EOL by to mohl změnit tím, že bude používat nejmodernější výpočetní sílu k disparaci sbírek biologických dat. Projekt je bezplatná a otevřená digitální sbírka faktů, článků a multimédií o biologické rozmanitosti, jedna z největších na světě. EOL se sídlem v Smithsonian Institution a se svými 357 partnery a poskytovateli obsahu, včetně Harvardské univerzity a Nové knihovny v Alexandrii v Egyptě, vzrostla z 30 000 stránek, když byla spuštěna v roce 2008, na více než 2 miliony, s 1, 3 milionu stránek textu, map, video, audio a fotografie a podporuje 20 jazyků.

"Přišel jsem do Smithsonian v roce 2010 ze softwarového průmyslu, " říká ředitel EOL Bob Corrigan. "Jedním z objevů, které jsem sem přišel, je, že zatímco IT je všude, neproniklo do muzejního světa stejným způsobem, jako proniklo do komerčního světa." Zejména v biologii jsou nejdůležitější data pohřbena v učebnicích a tabulkách. “

Jak lze kombinovat a těžit biologická data v různých formách pro nové vhledy do života na Zemi? Co kdyby se údaje o biologické rozmanitosti motýlů v Africe za deset let kombinovaly s údaji o zemědělských postupech a srážkách? Mohlo by se něco nového naučit? To vyžaduje něco většího než lidský mozek. Něco jako IBM superpočítač Watson.

„IBM přispívá k úsilí a přístupu k verzi [Watson], která není veřejně dostupná, “ říká Jennifer Hammock, programová ředitelka EOL. "Budou mít také lidi, kteří na tom pracují." IBM to dělá jako věcný příspěvek. “

Watson je superpočítač, který nejen hromadí čísla ve velkých objemech. Používá umělou inteligenci, která uživatelům umožňuje klást otázky jednoduchým jazykem.

"Řekl bych z uživatelského hlediska, to znamená, že databáze je něco, k čemu se můžete vydat a položit otázku, jako byste chtěli člověka, " říká Hammock. "Můžete mi říct, jestli se tento fialový motýl vyskytuje v Africe?"

"Odpověď na jednoduchou otázku v jakémkoli jazyce předpokládá existenci mnoha znalostí v zákulisí, " říká Corrigan. "Dokonce i [slovo] fialové předpokládá, že víme, co je fialové. Nebo motýl, [počítač] musí pochopit rozdíl mezi motýlem a můrou. Kromě toho mají samotné datové sady různé způsoby přemýšlení o těchto různých termínech. Všechna tato data lze těžko získat bez Rosettovy terminologie. A to je součást magie toho, co EOL dělá. “

Jednou z vědeckých otázek, které partnerství EOL, IBM a Georgia Tech doufá vyřešit, je paradox planktonu.

Podle Hammocka se vědci pracující s počítačovými simulacemi „snaží modelovat, co se děje v oceánu, říkáním, že slunce svítí a řasy rostou. . . má to trochu drsné přiblížení, ale nemohou dosáhnout stability [počítačového modelu ekosystému]. Chodí na chvíli a pak se zhroutí. Protože jsou příliš jednoduché. Doufají, že pokud dokážou trochu více rozmanitosti ve své modelované biosféře, stanou se stabilnějšími. . . . paradoxní bytost: jak existuje biosféra oceánu? Proč to nehroutí? “

"Lidé sedí na datech, " říká Corrigan. "Na celé planetě jsou neuvěřitelné zásoby biologické rozmanitosti." Dostávám spoustu telefonních hovorů od lidí, kteří sedí na těchto datech a chtějí, abych je uvedl do širšího kontextu. Je důležité, protože jsme v závodě studovat tuto planetu a zjistit, jak náš vývoj zdůrazňuje naše velmi omezené zdroje. . . Smithsonian může hrát roli při zvyšování znalostí ze všech těchto zdrojů a být skutečnou mocí jej šířit. “

Čtvrtina grantu ve výši 1 milionu USD bude udělena Smithsonianovi za jeho podíl na práci, ale EOL zahrnuje mnoho dalších hráčů. Někteří vývojáři jsou v Egyptě; vzdělávací tým je založen z Harvardu; a jednotka španělského jazyka je v Mexico City.

Všechna data EOL budou i nadále veřejně přístupná nebo licencovaná společností Creative Commons. Výzkum a data mají být veřejně přístupné a neskrývat se za výplatou.

"Je to velmi starý sen, " říká Hammock. "Jeden člověk se to asi nemůže všechno naučit." Je těžké umístit vše na jedno místo, kde lze vědomě zkontrolovat proti sobě. Ale teď máme počítače. “

Pliny by byla buď velmi potěšena, nebo velmi žárlivá.

Big Data se právě zvětšila, když Watson společnosti IBM setká encyklopedii života