Ve většině vysokoškolských kurzů literatury najdete studenty, kteří rozebírají malé části literární klasiky: Shakespearovy soliloquie, Joyceův proud vědomí a Hemingwayovy staccato věty. Není pochyb o tom, že toho spisovatele, jeho řemesla a význam příběhu lze tímto druhem podrobného čtení tolik poznat.
Ben Blatt však silně argumentuje pro jiný přístup. Tím, že se zaměřuje na určité věty a odstavce, uvádí ve své nové knize Nabokovovo oblíbené slovo Mauve, čtenáři zanedbávají všechna ostatní slova, což v průměrné délce představuje desítky tisíc datových bodů.
Novinář a statistik vytvořili databázi textu z roztříštěných klasiků a bestsellerů 20. století, aby kvantitativně zodpověděli řadu otázek, které nás zajímají. Jeho analýza odhalila některé nepředvídatelné vzorce, které by jinak mohly zůstat bez povšimnutí:
Podle čísel, nejlepší úvodní věty pro romány inklinují být krátký. Prominentní autor James Patterson má v průměru 160 klišé na 100 000 slov (což je o 115 více než uctívaná Jane Austen) a Vladimír Nabokov použil slovo fialové 44krát častěji než průměrný spisovatel za poslední dvě století.
Smithsonian.com hovořil s Blattem o jeho metodě, některých jeho klíčových zjištěních a proč jsou velká data důležitá pro studium literatury.
Statisticky jste přistupovali ke studiu všeho od místa, kde je Waldo po Seinfeld, kloubů rychlého občerstvení a popových písní. Můžete vysvětlit svou metodu a proč děláte to, co děláte?
Jsem datový novinář a dívám se na věci v popkultuře a umění. Opravdu se rád dívám na věci kvantitativně a nezaujaté, které mají spoustu informací, které lidé neprošli. Pokud byste se chtěli dozvědět o tom, jaká je typická osoba ze Spojených států, bylo by to užitečné, ale neměli byste jen mluvit s jednou osobou, vědět o nich všechno a pak předpokládat, že vše o lidech ve Spojených státech je stejný. Myslím, že jedna věc při psaní tohoto druhu se ztratí, je to, že se můžete soustředit na jednu větu autorem, zejména v hodinách kreativní tvorby, nebo na jednu pasáž, a ztratíte větší obrázek, abyste viděli tyto obecné vzorce a trendy, které autoři používají znovu a znovu, stovky a možná tisícekrát v jejich vlastním psaní.
Nabokovovo oblíbené slovo je mauve: Co odhalují čísla o klasice, bestsellerech a našem vlastním psaní
KoupitCo vás přimělo obrátit se na literaturu?
Mé pozadí je v matematice a informatice, ale vždy jsem miloval čtení a psaní. Jak jsem psal stále více a více, začal jsem se zajímat o to, jak různí spisovatelé a lidé dávají rady při psaní. Je jich hodně, což dávalo smysl, ale zdálo se, že nejsou podloženy informacemi, a spousta věcí, které se navzájem střetávaly. Jen jsem si myslel, že musí existovat způsob, jak vzít tato témata písemně, že lidé již dobře vědí a mluví o nich a testují je na velkých autorech a populárních autorech, aby zjistili, zda je tato rada skutečná, nebo pokud to není normativní rada, která Opravdu neznamená nic ve skutečných knihách a na skutečných stránkách.
Jakou první otázku jste chtěli položit na literární klasiku a bestsellery?
První kapitola v knize je o tom, zda byste měli používat příslovce. Toto je také první kapitola, kterou jsem napsal chronologicky. Většinou je na radě Stephena Kinga, aby se nepoužívaly přísné příslovce ve své knize On Writing, což je pro mnoho spisovatelů kniha o psaní. Ale spousta dalších spisovatelů - Toni Morrison, Chuck Palahniuk - a jakákoli třída kreativního psaní radí, aby nepoužívali příslovce, protože je to zbytečné slovo a znamení, že nejste struční. Místo toho, aby řekl: „Rychle utekl, “ můžete říct: „Vyprskl.“
Takže jsem chtěl vědět, je to vlastně pravda? Pokud je to dobrá rada, můžete očekávat, že skvělí autoři ji skutečně používají méně. Očekávali byste, že to amatérští spisovatelé používají více než publikovaní autoři. Opravdu jsem chtěl vědět, stylisticky, nejprve, když se Stephen King řídil jeho vlastní radou, a pak, pokud se to týká všech ostatních skvělých a ctěných autorů.
Co jste tedy našli?
Ve skutečnosti existuje trend, že autoři jako Hemingway, Morrison a Steinbeck, jejich nejlepší knihy, ty, které jsou drženy a na ně nyní nejvíce pozorují, jsou knihy s nejmenším množstvím příslovek. Pokud porovnáte psaní amatérské beletrie a psaní on-line, které se nesedělo s bestsellery a držiteli Pulitzerovy ceny v poslední době, existuje nesrovnalost, ve které publikovaní autoři používají méně příslovce. Nejsem tak jednostranný, že si myslím, že můžete jen odstranit tyhle příslovky z dobré knihy a stane se skvělou knihou. To samozřejmě není, jak to funguje. Skutečnost však spočívá v tom, že autoři, kteří píšou velmi přímým způsobem, vyrábějí knihy, které celkově žijí nejdéle.
Jak jste postupovali při vytváření databáze literárních děl?
Pro mnoho otázek jsem použil stejných 50 autorů, které jsem si vybral poněkud svévolně. V podstatě to bylo na základě autorů, kteří byli na vrcholu seznamu bestsellerů, autorů, kteří byli na vrcholu největších autorů všech dobových seznamů, a autorů, kteří právě takového druhu reprezentovali řadu různých žánrů a časů a čtenářů. Takto v celé knize můžete tyto autory porovnat a poznat je.
Bylo pro mě velmi důležité, že kdybych řekl něco jako: „Toni Morrison používá toto slovo tímto tempem, “ mluvil jsem o každém románu, který kdy napsala, a nejen o těch třech, které už mám. V mé knize je 50 až 100 autorů, na které se v celém textu odkazuje. Našel jsem jejich bibliografie a poté jsem našel všechny jejich romány, které do té doby napsali jako svůj úplný záznam. V některých ohledech je to trochu jako udržovat sportovní statistiky, kde je každá kniha něco jako sezóna a poté se všechna tato období nebo knihy spojí jako kariéra. Můžete vidět, jak se autoři v průběhu času mění a jak dělají věci celkově. Jakmile budete mít všechny knihy v souboru, pak odpověď na tyto otázky, které jsou v některých ohledech velmi skličující, je velmi jednoduché.
A jak jsi zpracoval celý ten text?
Existuje programovací jazyk s názvem Python, a uvnitř toho je sada nástrojů zvaná Natural Language Toolkit, často zkrácená NLTK. Nástroje, které se na nich podílejí, jsou volně dostupné každému. Balíček si můžete stáhnout online a použít v Pythonu nebo jiných jazycích. Zejména nemůžete získat mnoho písemných otázek, ale můžete říci, kolikrát se toto slovo v textu objevuje? Může procházet a identifikovat, kde končí věta a kde začínají věty a části řeči - přídavné jméno vs. příslovce vs. sloveso. Jakmile budete mít tyto nástroje, můžete data získat.
Jaké statistiky jste kompilovali ručně? Co bylo nejnáročnější?
Existuje jedna sekce, kde se podívám na otevírání vět. Elmore Leonard, který byl velmi úspěšným romanopiscem, řekl: „Nikdy neotevírejte knihu s počasím.“ Toto je také rada nalezená v mnoha průvodcích pro psaní. Prošel jsem tedy stovky autorů, abych viděl, jak často otevírají svou knihu o počasí. Například, Danielle Steel, věřím, že 45 procent jejích prvních vět v knihách je o počasí. Mnohokrát je to jen „Byl to nádherný den“ nebo „Byl jasný a slunečný“, takové věci. Z tohoto důvodu nebyl žádný způsob, jak to udělat automaticky, aniž by došlo k nějaké chybě, takže bych jen prošel všemi knihovými soubory a označil, zda došlo k počasí. Dá se říci, že to bylo únavné, protože to bylo hodně shromážděných údajů, ale bylo to zábavné projít si a přečíst stovky úvodních vět najednou. Existují i jiné vzorce, které se zjevně objevují od autorů v průběhu času.
Jak říkáte, pro některé nudné, pro ostatní zábava. Někteří si mohou myslet, že tento analytický přístup je nudný, ale argumentujete tím, že to může být „zábavné“ a „často naprosto zábavné“. Jaký byl váš nejzábavnější nález?
Název knihy, Nabokovovo oblíbené slovo je Mauve, je o tom, jak je podle čísel slovo, které používá v nejvyšší míře ve srovnání s angličtinou, fialové. To nakonec dává smysl, když se podíváte na jeho pozadí, protože měl synestezii. Ve své autobiografii hovořil o tom, jak když uslyšel různá písmena a zvuky, jeho mozek automaticky vykouzlil barvy.
Opakoval jsem tento experiment se 100 dalšími autory, abych viděl, jaké je jejich oblíbené slovo. Výsledkem je, že dostanete tři slova, která reprezentují jejich psaní, slovy, která používají nejčastěji. Civility, fantazie a obezřetnost. To je Jane Austen. Myslím, že kdybys viděl ta slova, Jane Austen by mohla být jedním z tvých prvních odhadů. A pak máte autora, jako je John Updike, který je trochu odvážnější a reálnější a má jinou dobu. Jeho oblíbená slova jsou lemovaná, pichlavá a v prdeli. Myslím, že vidět, jak osobnost prochází na základě těchto jednoduchých matematických otázek, je velmi zajímavé. Máte-li oblíbeného autora, prochází to určitým způsobem odhalením něčeho o jejich osobnosti, které jste si možná předtím nevšimli.
Ray Bradbury napsal, že jeho oblíbené slovo bylo skořice. Podle čísel to hodně používá. Jeho vysvětlení, proč měl rád skořici, bylo to, že mu to připomínalo spíž babičky. Prošel jsem tedy a našel další slova koření a pachová slova, která by mohla být spojena se spížem babičky, a Ray Bradbury většinu těchto slov používá velmi vysokou rychlostí. V jistém smyslu můžete získat tento podivný, Freudian pohled na něco o dětství autorů. Pokud to Ray Bradbury neřekl, možná byste to mohli ještě zjistit.
Srovnali jste americké a britské spisovatele a potvrdili jste stereotyp, že Američané jsou hluční. Můžeš to vysvětlit?
Tenhle byl původně založen na studii provedené postgraduálním studentem na Stanfordu. Identifikoval slova, která se používají k popisu dialogu v knihách, a popsal je jako hlasitý, neutrální nebo tichý. „Šeptal“ a „zamumlal“ by byl v klidu. Neutrální by bylo „řekl“ nebo „řekla“, a nahlas by byl „vykřikl“ nebo „křičel“. Prošel jsem 50 autorů, na které jsem se podíval, stejně jako velké ukázky fikce fanoušků a zjistil, že ne o šílený okraj, ale smysluplný okraj, že Američané mají vyšší poměr hlasitých slov k tichým slovům. Existuje několik vysvětlení. Mohlo by to být tak, jak Američané hovoří po celý svůj život, a tak je autoři popisují tak, že mluví často. Dalo by se to také vidět jako američtí spisovatelé, kteří upřednostňují více akční thrillerové příběhy s vysokým tempem ve srovnání s jemnějšími. Američané jsou podle čísel skutečně hlasitější.
Ben Blatt, autor Nabokovova oblíbeného slova je Mauve (Sierra Katow)Proč si myslíte, že použití matematiky na psaní je dobrý způsob, jak studovat literaturu?
Rozhodně se neobhajuji, že by to měl být první způsob studia literatury, pokud se snažíte zlepšit psaní. Ale i román střední délky je pravděpodobně 50 000 slov, což je 50 000 datových bodů. Jednoduše to nebudete moci namočit najednou a budou zde nějaké otázky, na které prostě nedokážete sami přečíst čtení. Je dobré vidět větší obrázek. Pokud si sednete a studujete jeden odstavec, mluvíte ve své třídě kreativního psaní se svým profesorem, pokud existuje nastavený způsob, jak se na to dívat, uvidíte to ve všem. Ale s daty vás tento druh osvobodí a vy můžete odpovědět na některé otázky bez těchto předpojatostí a opravdu získat nějaké nové informace.
Zmiňuješ se, že jsi pořád přemýšlel o Roaldovi Dahlovi „Velkém gramatiku“.
Existuje skvělý příběh Roalda Dahla, kde v podstatě inženýr vymyslí způsob, jak napsat příběh. V tomto scénáři doomsday může někdo dát stroji spiknutí a vyplivne poslední román. Je zde naznačeno, že produkují romány, které jsou tak formální a základní. Protagonista v tomto příběhu se rozhodne nevstoupit do provozu stroje a bojuje proti němu vytvořením vlastního psaní a umění.
Určitě si myslím, že tato kniha, pokud píšete, odpoví na vás na spoustu otázek a určitě změní způsob, jakým přemýšlíte o některých věcech, ale nakonec nenahradí myšlenky, které lidi přimějí myslet, a scény, které lidi nutí strach nebo se spojit s postavami. Tato kniha se dívá na psaní psaní, a ne nutně, jak vytvořit nezapomenutelný příběh. Tato kniha se nesnaží vytvořit dokonalý román a nemyslím si, že jsme k tomu tak blízko, jak se někteří lidé mohou bát.