https://frosthead.com

Jak umělá inteligence mohla revoluci ve výzkumu archivního muzea

Když si vzpomenete na umělou inteligenci, pole botaniky ve vaší mysli pravděpodobně není nahoře. Při nastavení obrazu pro nejmodernější výpočetní výzkum nemusí být stará muzea století na seznamu. A přesto, právě publikovaný článek v Biodiversity Data Journal ukazuje, že některé z nejzajímavějších a nejznámějších inovací v strojovém učení se odehrávají u nikoho jiného než u Národního herbáře Národního muzea přírodní historie ve Washingtonu, DC.

Příspěvek, který ukazuje, že digitální neuronové sítě jsou schopny rozlišovat mezi dvěma podobnými rodinami rostlin s mírou přesnosti přes 90 procent, znamenají pro vědce a akademické pracovníky všechny možné možnosti zalévání úst. Studie se spoléhá na software založený na algoritmech „hlubokého učení“, které umožňují počítačovým programům shromažďovat zkušenosti téměř stejným způsobem, jak to činí lidští odborníci, a zvyšovat svou hru pokaždé, když běží. Tato technologie by brzy mohla umožnit srovnávací analýzy milionů odlišných vzorků ze všech koutů světa - což je výrok, který by dříve vyžadoval neudržitelné množství lidské práce.

„Tento směr výzkumu ukazuje velké sliby, “ říká Stanfordský profesor Mark Algee-Hewitt, prominentní hlas v hnutí digitálních humanitních věd a pomocný ředitel fakulty na univerzitním Centru pro prostorovou a textovou analýzu. „Tyto metody nám umožňují poskytovat obrovské množství informací o tom, co kolekce obsahují, “ říká a „tím zpřístupňují tato data.“

Tato nová zjištění vycházejí z let práce prováděné v Smithsonian Institution za účelem systematické digitalizace jejích sbírek pro akademický a veřejný přístup online a představují pozoruhodné interdisciplinární setkání myslí: botanici, odborníci na digitalizaci a vědci v oblasti dat měli svou roli při jejich uvádění výsledky na světlo.

Příběh začíná v říjnu 2015, kdy instalace kamerového a dopravníkového aparátu pod přírodovědným muzeem výrazně zjednodušila úsilí o digitalizaci Smithsonianovy botanické sbírky. Namísto toho, aby museli ručně skenovat každou lisovanou květinu a shluk trávy ve svém úložišti, mohli nyní dělníci fronty celé sady vzorků, nechat pás zpracovat magii a získat a znovu katalogizovat je na konci ocasu. Posádka tří osob dohlížela na pás od jeho debutu a každý rok projde kolem 750 000 vzorků. Zakrátko bude Smithsonianův herbářový inventář, pět milionů silných vzorků, zcela online.

Každý vzorek je označen důkladnou identifikační kartou, která poskytuje informace o jeho původu a základní statistické údaje. Obsah těchto karet byl přepsán a nahrán spolu s digitálními obrazy, což poskytuje ucelený pohled na každou položku ve sbírce pro ty, kteří mají sklon hledat.

V Smithsonianově digitalizovaném botanickém archivu jsou obrázky vzorků s vysokým rozlišením spárovány s přepisy užitečných ID značek, které jsou k nim připojeny. V Smithsonianově digitalizovaném botanickém archivu jsou obrázky vzorků s vysokým rozlišením spárovány s přepisy užitečných ID značek, které jsou k nim připojeny. (Národní přírodní muzeum)

„Díky naší sbírce je kdokoli, kdo má počítač a připojení k internetu, “ říká židle muzejní botaniky Laurence Dorr, „což je skvělé pro zodpovězení určitých otázek.“ Dorr však zjistil, že nedokáže otřást pocitem nevyužitého potenciálu. . Online komunita byla jistě k dispozici obrovskému množství údajů o vzorcích, ale jejich analýza v souhrnu zůstala fantastická. Vyhledávání konkrétních vzorků a malých kategorií vzorků bylo dostatečně snadné, ale Dorr přemýšlel, jestli existuje způsob, jak využít data k vyvození závěrů o tisících exemplářů. "Co s těmito údaji můžete udělat?" Vzpomíná a přemýšlel. Muž jménem Adam Metallo brzy poskytl přesvědčivou odpověď.

Metallo, důstojník Smithsonianova digitalizačního programového úřadu, se zúčastnil konference, na které představil technologický gigant NVIDIA - miláček počítačů PC všude - představení grafických procesorů příští generace nebo GPU. Metallo tam hledal způsoby, jak vylepšit Smithsonianovy 3D digitální renderovací schopnosti, ale byla to do značné míry nesouvisející nugeta informací, která upoutala jeho pozornost a přilepila se k němu. Kromě generování dynamických, vysoce věrných 3D vizuálů mu bylo řečeno, že GPU NVIDIA se dobře hodí pro analýzu velkých dat. Zejména posílené GPU byly právě to, co bylo potřeba pro intenzivní rozpoznávání digitálních vzorů; mnoho algoritmů strojového učení bylo optimalizováno pro platformu NVIDIA.

Metallo byl okamžitě zaujat. Tato technologie „hlubokého učení“, která je již nasazena ve specializovaných odvětvích, jako je vývoj autosedaček a lékařská radiologie, měla velký potenciál pro svět muzeí - což, jak upozorňuje Metallo, představuje „největší a nejstarší dataset, ke kterému nyní máme přístup na."

"Co to znamená pro velké soubory dat, které vytváříme v Smithsoniansku digitalizací?" Chtěl vědět Metallo. Jeho otázka dokonale odrážela otázku Laurence Dorrové a jakmile se oba spojili, začaly létat jiskry. "Kolekce botanik byla jednou z největších sbírek, na kterých jsme naposledy pracovali, " vzpomíná Metallo. Spolupráce navrhla sama sebe.

Zatímco mnoho forem strojového učení vyžaduje, aby vědci označili klíčové matematické markery v obrazech, které mají být analyzovány - pečlivý proces, který se rovná držení počítače za ruku - moderní algoritmy hlubokého učení se mohou naučit, které značky hledat v práci, což šetří čas a otevření dveří pro rozsáhlejší dotazy. Psaní hlubokého studijního programu specifického pro Smithsonian a jeho kalibrace pro diskrétní botanické výzkumné otázky však bylo obtížné - Dorr a Metallo potřebovali pomoc vědců s údaji, aby se jejich vize stala skutečností.

Vědci dat sestavují tréninkové vzorky pro neuronovou síť během toho, co si Paul Frandsen pamatuje Vědci údajů sestavují tréninkové vzorky pro neuronovou síť během toho, co si Paul Frandsen pamatuje jako „chladný lednový den“. (Národní přírodní muzeum)

Jedním ze specialistů, které přivedli na palubu, byl vědec z Smithsonianských výzkumných dat Paul Frandsen, který okamžitě rozpoznal potenciál při vytváření neuronové sítě poháněné NVIDIA GPU, která by se projevila ve sbírce botanik. Pro Frandsena tento projekt symbolizoval první klíčový krok nádhernou a neprozkoumanou cestou. Brzy říká: „Začneme hledat morfologické vzorce v celosvětovém měřítku a budeme schopni odpovědět na tyto opravdu velké otázky, které by tradičně trvalo tisíce nebo miliony hodin lidského času hledáním v literatuře a třídění věcí. Budeme moci používat algoritmy, které nám pomohou najít tyto vzorce a dozvědět se více o světě. “

Právě publikovaná zjištění jsou nápadným důkazem konceptu. Studie, kterou vytvořil tým devíti vedený výzkumným botanikem Ericem Schuettpelzem a vědci v oblasti dat Paul Frandsen a Rebecca Dikow, si klade za cíl odpovědět na dvě rozsáhlé otázky o strojovém učení a herbáři. První je, jak efektivní může být trénovaná neuronová síť při třídění vzorků rtuťem zbarvených od neoznačených. Druhým, vrcholem článku, je to, jak účinná může být taková síť pro rozlišování členů dvou povrchně podobných rodin rostlin - jmenovitě kapradinných rodin Lycopodiaceae a Selaginellaceae .

První pokus vyžadoval, aby tým předem prošel tisíce exemplářů, přičemž konečně zaznamenal, které z nich byly viditelně kontaminovány rtutí (pozůstatek zastaralých botanických konzervačních technik). Chtěli mít jistotu, že věděli, že mají stoprocentní jistotu, která byla obarvená a která nebyla - jinak by posouzení přesnosti programu nebylo možné. Tým vybral téměř 8 000 obrazů čistých vzorků a 8 000 dalších obarvených vzorků, pomocí kterých mohl trénovat a testovat počítač. Než dokončili vyladění parametrů neuronové sítě a stáhli veškerou lidskou pomoc, algoritmus kategorizoval vzorky, které nikdy předtím neviděl, s 90% přesností. Pokud byly nejednoznačnější vzorky - např. Ty, u kterých bylo zabarvení minimální a / nebo velmi slabé - vyhozeny, toto číslo vzrostlo na 94 procent.

Tento výsledek znamená, že software pro hluboké učení by mohl brzy pomoci botanikům a jiným vědcům vyhnout se plýtvání časem náročným třídícím úkolům. "Problém není v tom, že člověk nemůže určit, zda je vzorek znečištěn rtutí, " vysvětluje Metallo, ale spíše, že "je obtížné ručně třídit a zjistit, kde existuje kontaminace, " a není rozumné to z hlediska řízení času. Naštěstí by strojové učení mohlo přeměnit hlavní časovou potopení na nanejvýš několik dní rychlé automatizované analýzy.

Porézní vzorkování po jednom vyžaduje hodně energie a je obtížné vyvodit velké závěry. Analýza velkých dat nyní nabízí muzeím nové způsoby, jak přistupovat ke svým sbírkám. Porézní vzorkování po jednom vyžaduje hodně energie a je obtížné vyvodit velké závěry. Analýza velkých dat nyní nabízí muzeím nové způsoby, jak přistupovat ke svým sbírkám. (Arboretum Arnold)

Studie o diskriminaci druhů je ještě více vzrušující. Vědci školili a testovali neuronovou síť pomocí zhruba 9 300 Clubmoss a 9 100 vzorků spikemoss. Stejně jako v experimentu barvení bylo asi 70 procent těchto vzorků použito pro počáteční kalibraci, 20 procent bylo použito pro upřesnění a konečných 10 procent bylo použito pro formální posouzení přesnosti. Jakmile byl kód optimalizován, byla úspěšnost počítače při rozlišení mezi těmito dvěma rodinami 96 procent - a téměř dokonalých 99 procent, pokud byly vynechány nejsložitější vzorky.

Jednoho dne Frandsen spekuluje, že takové programy dokážou zvládnout předběžnou kategorizaci vzorků v muzeích po celém světě. „V žádném případě si nemyslím, že tyto algoritmy nebudou dělat nic, aby nahradily kurátory, “ poznamenává si rychle, „ale místo toho si myslím, že mohou pomoci kurátorům a lidem zapojeným do systematiky, aby byli produktivnější, takže mohou hodně vykonávat svou práci rychleji."

Úspěch neuronové sítě v této studii také připravuje cestu pro rychlé testování vědeckých hypotéz napříč rozsáhlými sbírkami. Dorr vidí ve zjištěních týmu možnost provádět rozsáhlé morfologické srovnání digitalizovaných vzorků - srovnání, která by mohla vést k významným vědeckým průlomům.

Tím nechceme říci, že hluboké učení bude ve výzkumu napříč celým výzkumem stříbrnou kulkou. Stanfordův Mark Algee-Hewitt poukazuje na to, že „je téměř nemožné rekonstruovat, proč a jak neuronová síť přijímá svá rozhodnutí“, jakmile je podmíněno; pokud mají být důvěryhodná, rozhodnutí ponechaná počítačovým programům by měla být vždy nekomplikovaná a ověřitelná.

„Je zřejmé, “ říká Dorr, autonomní počítačový program „nebude testovat genetické vztahy, podobné věci“ - alespoň v nejbližší době. "Můžeme se však začít učit o rozdělení charakteristik podle geografického regionu nebo podle taxonomické jednotky." A to bude opravdu mocné. “

Tento výzkum je více než cokoli jiného odrazovým můstkem. Nyní je jasné, že technologie hlubokého učení je velkým příslibem pro vědce a další akademiky z celého světa, stejně jako pro zvědavou veřejnost, pro kterou vytvářejí znalosti. Zbývá přísná následná práce.

„Je to malý krok, “ říká Frandsen, „ale je to krok, který nám opravdu říká, že tyto techniky mohou pracovat na digitalizovaných exemplářích muzeí. Jsme nadšeni z toho, že v příštích několika měsících připravíme několik dalších projektů a pokusíme se otestovat její limity o něco více. “

Jak umělá inteligence mohla revoluci ve výzkumu archivního muzea