https://frosthead.com

Jak Google udržuje spam ve vaší doručené poště

Za všemi informacemi společnosti Google, které se drhnou - od zjištění, které výsledky vyhledávání jsou nejdůležitější, až po čtení a uchovávání karet ve vašem e-mailu - existuje zajímavá matematika. A nedávno softwarový inženýr Javier Tordable provedl prezentaci a otevřel okno do podivínského světa Google jen bezva.

Začněme s Gmailem. Někdy dostanete nevyžádanou poštu, ale Gmail je docela dobrý na to, aby zjistil, že když se korespondent pokouší přimět vás, abyste investovali do nigerijského prince, pravděpodobně tento kus pošty ve své doručené poště nechcete. Jak to ví? Krok 1: zaškolte stroj. Krok dva: uveďte to do práce.

Říká se tomu strojové učení a Google toho dělá hodně. V prvním kroku musíte udělat to, co počítačoví vědci nazývají „charakterizovat instanci“. Matematicky to znamená:

Obecně lze charakteristiky instance považovat za prvky ve vektoru ndimenzionálního euklidovského prostoru pro velké n (100-1000 rozměrů je normální, 1M-10M není neslýcháno)

Ale tady je návod, jak o tom přemýšlet, pokud jste přestali matematiku po Calc 1. Gmail může vytáhnout několik klíčových informací z jakéhokoli konkrétního e-mailu. Jak je to dlouhé? Kolik velkých písmen existuje? Je to od někoho, koho jste dříve dostali e-mail? Nechcete, aby informace potřebné k tomu, aby bylo rozhodnutí příliš obtížné na to, aby bylo možné se s nimi vypořádat nebo s nimi vypořádat, protože to zpomalí a sníží přesnost vašeho stroje. Google tedy nakreslí čáru na základě toho, co ví o spamu. E-maily, které procházejí, padají na jedné straně linky a spamové na straně druhé.

Více matematiky:

Jednoduchý klasifikační model je hyperplán v prostoru charakteristik. Datové instance na jedné straně hyperplane jsou klasifikovány jako platné e-maily a instance na druhé straně jsou klasifikovány jako spam.

A co hlasové vyhledávání - nazývá se také automatické rozpoznávání řeči nebo ASR? Stejně jako strojové učení se ASR děje ve dvou částech: zpracování zvuku přicházejícího a vymýšlení toho, co říkáte. První část zahrnuje Fourierovy transformace, které izolují důležité bity, které může počítač překládat. Druhou částí je modelování řeči pomocí tzv. „Skrytého Markovova modelu“. Tordable vysvětluje:

V tomto modelu jsou stavy písmeny zprávy a sled událostí je zvukový signál. Algoritmus Viterbi lze použít k získání posloupnosti stavů maximální pravděpodobnosti.

Google by rád vylepšil a usnadnil rozpoznávání hlasu. V této případové studii píše skupina whizzes Google:

Cílem společnosti Google je zpřístupnit hlasový přístup všudypřítomně. Chtěli bychom nechat uživatele, aby si vybral - měli by být schopni to považovat za samozřejmé, že mluvená interakce je vždy možnost. Dosažení všudypřítomnosti vyžaduje dvě věci: dostupnost (tj. Vestavěné do každé možné interakce, kde řečový vstup nebo výstup může mít smysl), a výkon (tj. Funguje tak dobře, že modalita nepřidává žádnému tření interakci).

Další oblast, ve které Google používá matematiku, je v jejich mapách - v centru pozornosti nedávno poté, co Apple debutoval svůj mapovací systém značnou kritikou. Srdcem Map Google je základní teorie grafů - matematika, jak se dostat z jednoho místa na druhé při cestování na nejkratší vzdálenost. Ale samozřejmě je to složitější než to. Tordable píše: „Jediným problémem je, že grafy používané v Mapách Google obsahují miliony uzlů, ale algoritmy musejí běžet v milisekundách.“

Google nám neřekne, jak to dělají. Jinak Apple by se nedostal do jeho problému, ale základy zahrnují shucking Dijsktraův algoritmus (pravděpodobně nejčastěji používaný algoritmus grafového vyhledávání). Před několika lety počítačoví vědci z University of Karlsruhe popsali nový způsob, jak hodnotit dotazy na cesty, aby získali mnohem rychlejší výsledky. Oni psali:

Náš algoritmus předběžně zpracuje osmimístný počet uzlů potřebných pro mapy USA nebo západní Evropy za pár hodin pomocí lineárního prostoru. Nejkratší (tj. Nejrychlejší) dotazy na cesty pak trvá přibližně osm milisekund, aby se vytvořily přesné nejkratší cesty. To je asi 2 000krát rychlejší než použití Dijkstraova algoritmu.

Tordable prochází řadou dalších matematických nástrojů používaných společností Google, včetně těch, které se podílejí na službách Knihy Google, Vyhledávání obrázků, Analytics, YouTube, Překladač Google, Google Earth a Picasa. Zde si můžete prohlédnout celou sadu snímků.

Více z Smithsonian.com:

Smithsonian dostane Google Mapped
Sledujte trendy potravin pomocí knih Google

Jak Google udržuje spam ve vaší doručené poště