https://frosthead.com

Jak Margaret Dayhoffová přinesla moderní výpočetní biologii

V roce 1984 spustila Národní nadace pro biomedicínský výzkum bezplatnou online databázi obsahující přes 283 000 proteinových sekvencí. Informační zdroj proteinů dnes umožňuje vědcům z celého světa vzít neznámý protein, porovnat jej s tisíci známých proteinů v databázi a určit způsoby, jak je podobný a odlišný. Z těchto dat mohou rychle a přesně odvodit evoluční historii proteinu a jeho vztah k různým formám života.

Skromný původ této masivní online databáze začíná dlouho před internetem. Všechno to začalo Atlasem proteinových sekvencí a struktur, tištěnou knihou z roku 1965 obsahující 65 tehdy známých proteinových sekvencí, sestavenou ženou jménem Margaret Dayhoff. Pro vytvoření svého Atlasu použila Dayhoff nejmodernější počítačové technologie k nalezení řešení biologických otázek, které nám pomáhají při zrození nového pole, které nyní nazýváme bioinformatika. Dayhoff, původně lékárník, využil nové a vyvíjející se technologie počítačové technologie po druhé světové válce k průkopnickým nástrojům, které by chemici, biologové i astronomové mohli použít v mezioborovém studiu původu života na Zemi.

Dayhoff (tehdy Margaret Oakley) se narodil ve Philadelphii 11. března 1925 Ruth Clarkové, učitelce středních škol a Kenneth Oakleyové, majiteli malých podniků. Ve věku deseti let se její rodina přestěhovala do New Yorku. Tam navštěvovala veřejné školy, v roce 1942 se nakonec stala Valedictorianem z Bayside High. Na stipendiu navštěvovala Washington Square College na New York University a promovala magna cum laude v matematice teprve o tři roky později v roce 1945.

Ve stejném roce vstoupila Dayhoff na Columbia University, aby získala doktorát z kvantové chemie pod vedením významného chemika a výzkumného pracovníka z druhé světové války George Kimball. Její přijetí bylo prozatím vzácností. Po druhé světové válce vstoupilo do věd více mužů a chemie se stala ještě více dominantní než muži v předchozím desetiletí, s pouhými pěti procenty doktorandů chemie směřujících k ženám, z osmi procent.

Během Dayhoffova času na univerzitě byla Columbia ohništěm výpočetní techniky. Může se pochlubit některými z prvních počítačových laboratoří v USA a v roce 1945 se stal domovem vědecké laboratoře IBM Watson vedené astronomem WJ Eckertem. Watsonova laboratoř nejprve sloužila jako spojovací centrum pro spojence v posledních měsících druhé světové války. Po válce se stal místem pro vývoj některých prvních super počítačů, včetně elektronického kalkulátoru selektivní sekvence (SSEC), který Eckert později použil pro výpočet měsíčních drah pro mise Apollo.

S touto technologií na dosah ruky spojila Dayhoff svůj zájem o chemii s výpočtem pomocí strojů s děrnými kartami - v podstatě časných digitálních počítačů. Stroje umožnily Dayhoff automatizovat její výpočty a ukládat algoritmus na jednu sadu karet a data na jinou. Pomocí stroje byla schopna zpracovávat výpočty mnohem rychleji a přesněji než ručně.

Dayhoffovým zvláštním předmětem zájmu byly polycyklické organické sloučeniny, což jsou molekuly, které se skládají ze tří nebo více atomů spojených v úzkém kruhu. Použila stroje s děrnými kartami k provedení velkého počtu výpočtů rezonančních energií molekul (rozdíl mezi potenciální energií molekuly určitého stavu a průměrným stavem) k určení pravděpodobnosti molekulární vazby a vazebných vzdáleností.

Dayhoff promovala s doktorským studiem kvantové chemie za pouhé tři roky. Výzkum, který absolvovala jako postgraduální student, byl publikován, spolu s Kimball jako spoluautorkou, v roce 1949 v Journal of Chemical Physics pod jednoduchým názvem Punched Card Výpočet Resonance Energies.

Také v roce 1948 se Dayhoff oženil s Edwardem Dayhoffem, studentkou experimentální fyziky, se kterou se setkala v Columbii. V roce 1952 se pár přestěhoval do Washingtonu, DC, kde se Edward ujal funkce v National Bureau of Standards a Dayhoff porodila její první ze dvou dcer, Ruth. Dayhoff brzy vypadl z výzkumu, aby se stal matkou pobytu doma Ruth a její mladší dceru Judith, až na dvouleté postdoktorandské místo na University of Maryland.

Když se v roce 1962 vrátila k výzkumu a začala žádat o granty na financování své práce, setkala se s šokem. Národní ústavy zdravotnictví zamítly žádost o grant, v níž byl Dayhoff uveden jako hlavní vyšetřovatel, s vysvětlením, že „[Dayhoff] byl po nějakou dobu mimo skutečný intimní kontakt… s touto komplikovanou a rychle se rozvíjející oblastí, “ jak píše historik Bruno Strasser jeho nadcházející kniha Sběratelské experimenty: Tvorba biologie velkých dat . Tento druh stoupání do kopce pro ženy, které si vzaly volno na výchovu dětí, je jen jedním ze způsobů, které vědecké instituce bránily - a nadále brání - ženskému postupu.

Přes nedostatek podpory NIH se Dayhoff chystal vstoupit do nejvýznamnější dekády své kariéry. V roce 1960 přijala osudové pozvání od Roberta Ledleyho, průkopnického biofyzika, se kterým se setkala se svým manželem, aby se k němu připojil v Národní biomedicínské výzkumné nadaci v Silver Spring v Marylandu. Ledley věděl, že Dayhoffovy počítačové dovednosti budou rozhodující pro cíl nadace spočívající v kombinaci oblastí výpočetní techniky, biologie a medicíny. 21 let bude působit jako jeho docent.

Jednou v Marylandu, Dayhoff měl volnou ruku k použití na mainframe IBM 7090 Georgetown University. Systém IBM byl navržen pro práci se složitými aplikacemi, s výpočetní rychlostí šestkrát rychlejší než předchozí modely. Této rychlosti bylo dosaženo nahrazením pomalejší, objemnější technologie vakuové trubice rychlejšími a účinnějšími tranzistory (komponenty, které produkují počítače 1s a 0s). Pomocí mainframu začali Dayhoff a Ledley hledat a porovnávat peptidové sekvence s programy FORTRAN, které sami napsali, aby se pokusili sestavit částečné sekvence do kompletního proteinu.

IBM 7090 Konzola operátora IBM 7090 ve výzkumném středisku NASA Ames Research Center v roce 1961 se dvěma bankami magnetických pásků IBM 729. (NASA)

Dayhoff a Ledleyův závazek používat počítačovou analýzu v biologii a chemii byl neobvyklý. „Kultura statistické analýzy, natož digitální technologie, byla pro většinu biochemiků zcela cizí, “ vysvětluje Strasser v rozhovoru pro Smithsonian.com . "Někteří se dokonce pyšnili tím, že nebyli" teoretici ", a tak chápali analýzu dat pomocí matematických modelů."

Jednou vědeckou disciplínou, ve které byl Dayhoffův počítač důvtipnější, byla více oceněna, však byla astronomie. Tento zájem o výpočetní techniku ​​byl částečně díky WJ Eckhartovi, který v roce 1940 používal stroje IBM na děrné karty k předpovídání planetárních drah. A v 60. letech byl americký zájem o průzkum vesmíru v plném proudu, což znamenalo financování NASA. Na University of Maryland se Dayhoff setkal se spektroskopem Ellisem Lippincottem, který ji přivedl do šestileté spolupráce s Carlem Saganem na Harvardu v roce 1961. Tři z nich vyvinuli termodynamické modely chemického složení hmoty a Dayhoff vymyslel počítačový program, který mohl vypočítat rovnovážné koncentrace plynů v planetárních atmosférách.

S Dayhoffovým programem si ona, Lippincott a Sagan dokázaly vybrat prvek, který budou analyzovat, což jim umožní zkoumat mnoho různých atmosférických kompozic. Nakonec vyvinuli atmosférické modely pro Venuši, Jupiter, Mars a dokonce i prvotní atmosféru Země.

Při zkoumání oblohy se Dayhoff také zabýval otázkou, kterou vědci zkoumali od 50. let 20. století: jaká je funkce proteinů? Sekvenování proteinů bylo prostředkem k získání odpovědi, ale sekvenování jednotlivých proteinů bylo vysoce neefektivní. Dayhoff a Ledley zvolili jiný přístup. Místo izolace proteinů porovnávali proteiny pocházející z různých rostlinných a živočišných druhů. "Porovnáním sekvencí stejného proteinu u různých druhů bylo možné pozorovat, které části sekvence byly vždy stejné u všech druhů, což je dobrá indikace, že tato část sekvence byla rozhodující pro dobro proteinu, " říká Strasser.

Dayhoff sondoval hlouběji, díval se na sdílenou historii proteinů. Analyzovala nejen části, které byly u různých druhů stejné, ale také jejich variace. "Tyto rozdíly vzali jako měřítko evolučních vzdáleností mezi druhy, což jim umožnilo rekonstruovat fylogenetické stromy, " vysvětluje Strasser.

Dayhoff, vždy připravený využít sílu nové technologie, vyvinul počítačové metody pro stanovení proteinových sekvencí. Prováděla počítačovou analýzu proteinů u celé řady druhů, od houby Candida po velrybu. Pak použila jejich rozdíly k určení svých předků. V roce 1966 s pomocí Richarda Ecka vytvořil Dayhoff první rekonstrukci fylogenetického stromu.

V článku z roku 1969 Scientific American, „Computer Analysis of Protein Evolution“, představila Dayhoff veřejnosti jeden z těchto stromů spolu s jejím výzkumem pomocí počítačů pro sekvenování proteinů. "Každá zavedená proteinová sekvence, každý evoluční mechanismus, který je osvětlen, každá hlavní inovace ve fylogenetické historii, která je odhalena, zlepší naše porozumění historii života, " napsala. Snažila se ukázat komunitě věd o živé přírodě potenciál počítačových modelů.

Jejím dalším cílem bylo shromáždit všechny známé proteiny na jednom místě, kde vědci mohli najít sekvence a porovnat je s ostatními. Na rozdíl od dneška, kdy je snadné vyvolat zdroje v elektronické databázi s pouhým klíčovým slovem, Dayhoff musel hledat fyzické časopisy, aby našel proteiny, které hledala. V mnoha případech to znamenalo kontrolu chyb spolupracovníka výzkumníka. I s pomocí počítače vyžadovala práce při sběru a katalogizaci sekvencí velké množství času a náročné vědecké oko.

Ne každý viděl hodnotu toho, co dělá. Jiným vědcům se Dayhoffova práce podobala spíše sbírkové a katalogizační práci přírodní historie 19. století než experimentální práci vědce 20. století. "Sběr, porovnávání a klasifikace přírodních věcí se zdálo, že mnoho experimentálních biologů bylo ve druhé polovině 20. století zastaralé, " říká Stasser. Na Dayhoffa odkazuje jako na „outsidera“. „Přispěla do oblasti, která neexistovala, a proto neměla profesionální uznání, “ říká.

V roce 1965 Dayhoff poprvé publikovala svou sbírku 65 známých proteinů v Atlasu proteinových sekvencí a struktur, tištěné verzi její databáze. Nakonec se data přesunula na magnetickou pásku a nyní žije online, kde vědci nadále používají její data k nalezení dalších tisíců bílkovin. Další biomedicínské databáze se zapojily do boje, včetně Protein Data Bank, kolaborativní kolekce proteinů a nukleových kyselin spuštěné v roce 1971 a GenBank, databáze genetických sekvencí spuštěné v roce 1982. Dayhoff zahájil vědeckou revoluci.

"Dnes každá jednotlivá publikace v experimentální biologii obsahuje kombinaci nových experimentálních dat a závěrů vycházejících ze srovnání s jinými daty zpřístupněnými ve veřejné databázi, což je přístup, který Dayhoff začal před půlstoletím, " říká Strasser.

Jak bioinformatika rostla, úkoly shromažďování a výpočtu do velké míry spadaly na ženy. Dayhoffovými spolupracovníky v Atlasu byly všechny ženy kromě Ledleyho. Stejně jako ženské počítače „NASA“ v šedesátých letech a ženy zabijáky druhé světové války byly tyto ženy brzy posunuty na okraj vědecké praxe. V souvislosti s „dívkami ENIAC“, které naprogramovaly první digitální, univerzální počítač, historička výpočetní techniky Jennifer Light píše, že „ženy byly zapojeny do bezprecedentní práce v mezích přesně tak nízkých profesních klasifikací.“

Lois T. Hunt, která s ní pracovala na Atlasu, ve své biografické skici Dayhoffa napsala, že Dayhoff věří, že její zkoumání prvotní atmosféry Země by jí mohlo poskytnout „sloučeniny nezbytné pro utváření života“. výpočetní technika, to, co spojuje nesourodé části Dayhoffova vědeckého výzkumu dohromady. Od maličkého proteinu po obrovskou atmosféru hledal Dayhoff tajemství vzniku života na této planetě. Přestože je všechny neodemkla, dala moderní vědě nástroje a metody pro pokračování v hledání.

Jak Margaret Dayhoffová přinesla moderní výpočetní biologii