https://frosthead.com

Mohou počítače oddělovat 5 000 let starý jazyk?

Civilizace Indus, která vzkvétala po většinu třetího tisíciletí před naším letopočtem, byla nejrozsáhlejší společností své doby. Na jeho vrcholu se rozkládala na ploše více než půl milionu čtverečních mil na dnešní hranici Indie-Pákistán. Zbytky Indu byly nalezeny až na sever jako Himaláje a až na jih jako Bombaj. Byla to první známá městská kultura na subkontinentu a pyšnila se dvěma velkými městy, jedním v Harappě a druhým v Mohenjo-daro. Přesto přes svou velikost a dlouhověkost a přes téměř století archeologických výzkumů zůstává mnoho o Indu zahaleno tajemstvím.

To málo, co víme, přišlo z archeologických vykopávek, které začaly ve 20. letech a pokračují dodnes. V průběhu desetiletí archeologové objevili mnoho artefaktů, včetně pečetí razítek, amuletů a malých tablet. Mnohé z těchto artefaktů nesou to, co se jeví jako ukázky psaní - ryté postavy připomínající mimo jiné okřídlené podkovy, paprsková kola a vzpřímené ryby. Co přesně však tyto symboly mohou znamenat, zůstává jedním z nejznámějších nevyřešených hádanek ve stipendiu starověkých civilizací.

V historii se objevily další tvrdé kódy. Stumped Egyptologists chytil štěstí s objevem slavného Rosetta kamene v 1799, který obsahoval text v egyptský a Řek. Studie mayských hieroglyfů zmizela, dokud ruský lingvista jménem Jurij Knorozov nevyužil v 50. letech chytrého moderního mluveného Maye. Neexistuje však žádný Rosettův kámen Indů a učenci nevědí, které jazyky, pokud vůbec, mohly pocházet z jazyků Indů.

Asi před 22 lety v indickém Hajdarábádu osmý student Rajesh Rao otočil stránku učebnice dějepisu a nejprve se dozvěděl o této fascinující civilizaci a jejím tajemném skriptu. V následujících letech ho Raova výuka a profese vzala jiným směrem - ukončil pronásledování počítačové vědy, kterou dnes vyučuje na University of Washington v Seattlu - ale pečlivě sledoval Indusovo stipendium a sledoval desítky neúspěšných pokusy o pochopení skriptu. I když studoval umělou inteligenci a robotiku, Rao na Indusově skriptu shromáždil malou knihovnu knih a monografií, asi 30 z nich. Na nedaleké polici vedl také cennou učebnici historie osmé třídy, která ho představila Indu.

"Bylo to úžasné vidět počet různých nápadů, které lidé navrhli, " říká. Někteří učenci prohlašovali, že psaní bylo jakousi Sumerian skript; jiní ji umístili do rodiny Dravidianů; ještě jiní si mysleli, že to souvisí s jazykem Velikonočního ostrova. Rao si uvědomil, že to byl „pravděpodobně jeden z nejnáročnějších problémů z hlediska dávné historie“.

Jak pokus po pokusu selhal při dešifrování skriptu, někteří experti začali ztrácet naději, že by to mohlo být dekódováno. V roce 2004 tři učenci argumentovali v kontroverzním článku, že symboly Indus neměli vůbec jazykový obsah. Místo toho symboly mohly být o něco více než piktogramy představující politické nebo náboženské postavy. Autoři zašli tak daleko, že naznačovali, že Indus vůbec nebyl gramotná civilizace. Pro některé v oboru se celá snaha o nalezení jazyka za těmi indusovými lepty začala podobat cvičení marnosti.

O několik let později vstoupil Rao do boje. Do té doby byli lidé studující scénář archeologové, historici, lingvisté nebo kryptologové. Rao se ale rozhodl vyvinout tajemství skriptu Indus pomocí nástroje, který znal nejlépe - počítačové vědy.

Rajesh Rao, fascinovaný indickou civilizací od osmé třídy, používá počítačovou vědu a koncept zvaný „podmíněná entropie“, aby pomohl dekódovat skript Indus. (S laskavým svolením Davida Zaxe) V průběhu desetiletí archeologové objevili mnoho artefaktů z civilizace Indus, včetně těsnění známek, amuletů a malých tablet. (Robert Harding / Robert Harding Světové snímky / Corbis) Rao a jeho spolupracovníci zveřejnili svá zjištění v časopise Science v květnu. Nerozšifrovali jazyk, ale jejich nálezy mu porozuměly. (Robert Harding / Robert Harding Světové snímky / Corbis) Rao a jeho kolegové se nyní dívají na delší řetězce znaků, než analyzovali v vědeckém článku. Nalezení vzorců by zase pomohlo určit, do kterých jazykových rodin může skript patřit. (S laskavým svolením Davida Zaxe)

V letní den v Seattlu mě Rao přivítal ve své kanceláři, aby mi ukázal, jak se on a jeho kolegové k problému přiblížili. Předložil sbírku replik jílů, které archeologové objevili z míst Indus. Jsou malé - podobně jako malé čtvercové čokolády - a většina z nich má obraz zvířete pod řadou indusových symbolů. Většina vzorků skriptu Indus jsou miniatury, jako jsou tyto, nesoucí jen několik znaků; nebyly objeveny žádné velké monolity. Učenci si nejsou jistí funkcí malých tuleňů, řekl mi Rao, ale jedna teorie je, že se mohli použít k osvědčení kvality obchodovaného zboží. Jiný naznačuje, že těsnění mohla být způsobem, jak zajistit, aby obchodníci platili daně při vstupu do města nebo při odjezdu z města - mezi ruinami vrátnic bylo nalezeno mnoho pečetí, která mohla fungovat jako starobylé mýtné stánky.

Rao a jeho kolegové se nesnažili dělat zázraky - věděli, že nemají dostatek informací, aby rozluštili starodávný skript -, ale předpokládali, že pomocí výpočetních metod mohli alespoň zjistit, jaký druh psaní Indu skript byl: kódovalo to jazyk, nebo ne? Udělali to pomocí konceptu zvaného „podmíněná entropie“.

Navzdory impozantnímu jménu je podmíněná entropie poměrně jednoduchým pojmem: je to míra množství náhodnosti v sekvenci. Zvažte naši abecedu. Pokud byste měli vzít Scrabble dlaždice a hodit je do vzduchu, možná byste našli nějaké staré písmeno, které se objeví za jiným. Ve skutečných anglických slovech se však určitá písmena vyskytují častěji za ostatními. Q v angličtině je téměř vždy následován u . Za t může následovat r nebo e, ale je méně pravděpodobné, že bude následovat n nebo b .

Rao a jeho spolupracovníci - mezinárodní skupina zahrnující počítačové vědce, astrofyziky a matematika - použili počítačový program k měření podmíněné entropie skriptu Indus. Poté změřili podmíněnou entropii jiných typů systémů - přirozených jazyků (Sumerian, Tamil, Sanskrit a English), umělého jazyka (počítačový programovací jazyk Fortran) a nelingvistických systémů (lidské DNA sekvence, bakteriální proteinové sekvence a dva umělé datové soubory představující vysoké a nízké extrémy podmíněné entropie). Když porovnali množství náhodnosti ve skriptu Indus s ostatními systémy, zjistili, že se nejvíce podobá mírám nalezeným v přirozených jazycích. Své poznatky zveřejnili v květnu v časopise Science .

Pokud to vypadá jako jazyk a chová se jako jazyk, pak to pravděpodobně je jazyk, jak navrhuje jejich článek. Zjištění samozřejmě nerozlišují scénář, ale vyostřují naše porozumění tomu a propůjčují jistotu těm archeologům, kteří pracovali za předpokladu, že skript Indus kóduje jazyk.

Po vydání příspěvku Rao překvapil. Otázka, do které jazykové rodiny skript patří, se ukazuje, je citlivá: vzhledem k věku a významu civilizace Indus by ji mnoho současných skupin v Indii chtělo prohlásit za přímého předka. Například tamilští indiáni na jihu by se raději dozvěděli, že skript Indus byl druh proto-Dravidiana, protože Tamil pochází z proto-Dravidiana. Hindští mluvčí na severu by raději šlo o starou formu Sanskritu, předka Hindů. Raův dokument nedospěje k závěru, do které jazykové rodiny skript patří, ačkoliv si všiml, že podmíněná entropie je podobná staré Tamilštině - způsobuje, že někteří kritici shrnují „obvinění z toho, že jsme dravidiánští nacionalisté“, říká Rao. "Divokost obvinění a útoků byla zcela neočekávaná."

Rao se někdy ulevuje návratu do méně divoce napadaného světa neurověd a robotiky. Volání skriptu Indus však zůstává svůdné a „to, co bývalo koníčkem, nyní monopolizuje více než třetinu mého času, “ říká. Rao a jeho kolegové se nyní dívají na delší řetězce znaků, než analyzovali v vědeckém článku. "Pokud existují vzory, " říká Rao, "mohli bychom přijít s gramatickými pravidly." To by zase omezilo, k jakým druhům jazykových rodin “může skript patřit.

Doufá, že jeho budoucí nálezy budou mluvit samy za sebe, což podnítí méně rancor od soupeřů zakořenění pro jeden region Indie versus jiný. Když Rao mluví o tom, co pro něj znamená skript Indus, má sklon mluvit o Indii jako o celku. "Dědictví Indie by bylo značně obohaceno, kdybychom byli schopni porozumět civilizaci Indů, " říká. Rao a jeho spolupracovníci na tom pracují, jeden řádek zdrojového kódu najednou.

Mohou počítače oddělovat 5 000 let starý jazyk?