Počítače mohou pomoci společnosti, ale nevyřeší situace lidí

28/12/2021 Petr Kovanda 10 min read 279 Zobrazení počítař, technologie

Před masivní bílou tabulí plnou ručně načmáraných symbolů a rovnic sedí profesor Graham Cormode. Nedávno mu byla udělena Adamsova cena za matematiku. Jde o prestižní ocenění University of Cambridge, které se každý rok uděluje britskému matematikovi za vynikající výzkum v matematických vědách, píše web warwick.co.uk.

Již dříve to vyhrálo několik významných jmen. Například James Maxwell Clark, muž, který v roce 1800 formuloval klasickou teorii elektromagnetického záření, a profesor Steven Hawking, jako 25. v anketě BBC o 100 největších Britů. Letos to byl profesor Cormode, ale není to matematik, ale počítačový vědec.

„Na této poměrně trendově znějící věci „Big Data“ se v současnosti setkává několik různých oborů,“ pokračuje Cormode. „V mnoha oblastech matematiky, statistiky a informatiky je pravda, že existují určité základní otázky, kterým se lidé snaží porozumět, a my se na tyto otázky díváme z hlediska našeho vlastního disciplinárního pozadí s použitím nástrojů, které známe. . Ale ukazuje se, že podobné nástroje jsou vynalezeny v různých oblastech. Někdy se vám tedy metody sbíhají a lidé chtějí problém vymyslet pomocí stejných matematických reprezentací, i když je jazyk trochu odlišný.“

Je v pořádku přecházet proudy!

Profesor Cormode, vystudovaný počítačový vědec s doktorátem z Warwicku, má zkušenosti s prací v průmyslu a na akademické půdě. Říká: „Vždy jsem se viděl především jako počítačový vědec. Ale pokud jde o problémy, na které se dívám, jsou blízko hranice tří disciplín a komunikuji s matematiky a statistiky, máme dost společného porozumění.“

Toto „překročení proudů“ se neděje jen v rámci práce profesora Cormodea, ale také v kampusu na University of Warwick, kde pokračují práce na budovách katedry počítačových věd, statistiky a matematiky, které je fyzicky propojí novým rozšířením, určeným pro stát se interdisciplinárním centrem. Profesor Cormode je také univerzitním styčným ředitelem pro Warwick v Alan Turing Institute , britském národním institutu pro datovou vědu, který založil Warwick a čtyři další instituce a sídlí v Britské knihovně v Londýně.

Velká data jsou obrovská

Big Data jsou něco relativně nového. Jako společnost jsme to nikdy předtím neměli.

Profesor Cormode pokračuje: „Mám tendenci o tom uvažovat takto: Strávili jsme velkou část 20. století vývojem počítačů a výpočtů a nyní jsou výpočetní zařízení z velké části všude a v každé domácnosti. Notebooky, chytré telefony, dokonce i myčky nádobí mají v sobě počítač. Většina inovací v moderním autě zahrnuje výpočty a data. Věda o tom, jak je přimět k pohybu, je většinou vyřešena.

„Takže díky všudypřítomným výpočtům máte mnohem větší objem dat shromažďovaných senzory. Výzvou pro 21. století je říci: OK, máme zařízení, která mohou tato data shromažďovat a ukládat, ale co s těmi daty uděláme a jaké jsou výhody pochopení těchto dat, pomůže nám to lépe se orientovat ve společnosti? a pomoci nám zlepšit způsob, jakým žijeme? A existuje mnoho různých aspektů, jak to vyřešit.

„Lidé se dívají na to, jak stavíte lepší sítě a přesouváte data, někteří pracují na tom, jak postavit datové centrum, aby bylo možné analyzovat všechna tato měření, a jiní se zabývají tím, jak můžete zlepšit matematické nástroje a modely pro pochopení dat. Cílem je přejít od spousty bitů a bajtů k rozhodnutí, jako bychom měli změnit politiku, jak předepisujeme určitý lék? Jak by měla Národní síť vyvážit energii uloženou v bateriích nebo za přehradami vodních elektráren oproti zvýšení výkonu jaderných elektráren?

„Některé z těchto otázek jsou velmi aplikované a potřebujete porozumět detailům konkrétní situace, ale existují také průřezové otázky týkající se obecných technik, které vám umožňují reprezentovat data. Moje práce se zabývá tím, jak můžeme snížit množství dat na malou hodnotu. Při analýze je to všechno o snižování a já se dívám na to, jak rychle můžeme snížit objem dat, aniž by byla méně robustní.

„Pokud se podíváte na velké technologické společnosti, jako je Google a Facebook, vydávají se do vzdálených míst s levnými zdroji energie a chlazení a budují obrovské datové centrum připojené ke zdroji energie. Ty mají miliony různých počítačových zařízení pracujících paralelně. Spousta disků a spousta dat, které se pohybují. Ptám se, do jaké míry můžeme snížit objem dříve v procesu, abychom to nemuseli dělat. Do jaké míry můžeme vidět data živě tak, jak přicházejí, a dát je do nějaké matematické reprezentace nebo souhrnu?

Existují limity

Profesor Cormode pracuje na způsobech destilace dat, aby je bylo možné analyzovat a používat rychleji a lokálněji.

Vysvětluje: „Existují různé techniky, které můžeme použít. Někdy do toho přijde jednoduché vzorkování. Pokud dokážete ukázat, že způsob, jakým vzorkování neztrácí věrnost, nebo pokud věrnost ztratíte, je to na dostatečně nízké úrovni, abyste stále zachytili celkový obraz.

„Existují základní limity toho, co můžete dělat. Pokud bych chtěl přesně vědět, co jste tweetovali v úterý v dubnu loňského roku, musel bych mít původní a konkrétní data. Ale pokud bych chtěl vědět, jaká témata jsou důležitá pro vás nebo vaše kolegy, můžeme data destilovat, abychom tento druh informací získali kompaktněji. Takže namísto masivního souboru dat v datovém centru mohu svá data prozkoumat a analyzovat na něčem, co je více podobné běžnému notebooku.

„To umožňuje větší efektivitu v porozumění našemu světu a možnost to dělat na různých místech. V tuto chvíli musíme shromáždit všechna data a odstranit je z každého senzoru v síti, kousek po kousku na jedno místo, a to s velkými náklady. Můžete si položit otázku, kolik z toho bych mohl vytlačit, abych mohl provést analýzu na chytrém telefonu nebo vzdáleném zařízení a destilovat to na malý signál, který hledám, který je mnohem levnější a rychlejší.“

Podvádíme ale?

„V některých ohledech měníme otázku,“ říká Cormode. „Existují některé matematické otázky, kterým rozumíme dostatečně dobře, abychom věděli, že neexistují žádné zkratky k přesné odpovědi. Velká část mé práce říká, co když vám mohu dát odpověď, která je v rozmezí jednoho nebo dvou procent od správné odpovědi a která má kolem sebe matematickou záruku. To je statistická část této práce. Vycházíme z obrovského množství dat, aplikujeme algoritmus a používáme pravděpodobnost – a dostaneme odpověď, kde je 99,9% přesnost dostatečně dobrá.

„Tento přístup bychom však nutně nepoužívali v každé situaci. Kdybychom se ptali, jaké je nebezpečí, že se jaderná elektrárna dostane do kritického stavu, pravděpodobně bych chtěl, aby byl výpočet na něčem takovém 100% přesný! Ale pokud se ptáte, mohu porozumět své zákaznické základně a tématům, o která se zajímají, na základě toho, co tweetují, pak ano, zde může pomoci aproximace. V tomto druhu dat je již hodně šumu, takže pokud uděláte přesnou věc na zašuměných datech, stejně skončíte s přibližnou odpovědí. Navrhuji, abyste udělali přibližnou věc s hlučnými daty a získali něco, co je stále stejně dobré.“

Co s tím můžeme dělat?

„Používá se jinde pro sledování zhlédnutí v online obsahu, místa jako Netflix používají ke sledování špiček a vzorců využití ve své síti. Mnoho počátečních aplikací je o něco více ve světě spotřebitelského internetu, ale to je oblast, kde máme nejlepší vybavení. Web je především o zachycování informací, už to dělá.“

V blízké budoucnosti se bude připojovat stále více zařízení. Hodně medializovaný „internet věcí“ znamená, že domácí spotřebiče jako ledničky, myčky nádobí a pračky budou v síti. Inteligentní měřiče již fungují v mnoha domácnostech.

„Tyto pokroky generují větší množství dat,“ pokračuje Cormode. „Můžete to použít v nominální hodnotě. Můžete si vzít chytrý měřič, sečíst všechna čísla a na konci šesti měsíců máte účet. K tomu byl navržen. Ale jako datoví vědci tam vidíme mnohem větší potenciál dozvědět se mnohem více o vzorcích života. Můžeme jít nad rámec inteligentního měřiče a podívat se na jednotlivá zařízení, která sledují jejich vlastní spotřebu energie? Byl by můj notebook mnohem efektivnější, kdyby zjistil, kolik baterie je třeba nabít?“

Je těžké předvídat, kdy se začnou objevovat tyto druhy pokroků, ale určitě již ve světě probíhají práce na identifikaci toho, kde lze redukci a sumarizaci dat použít buď k zefektivnění věcí, nebo k otevření nových možností. Profesor Cormode sám zjišťuje, zda by potenciální využití dat generovaných moderními automobily mohlo vést k možnosti prediktivní údržby, mohlo by auto zjistit, zda dojde k poruše součásti, takže výrobce může naplánovat opravu dříve, než se porouchá strana silnice? Bude v budoucnu individuální vůz schopen komunikovat se svým majitelem a poskytnout mu přizpůsobený zážitek. Například vědět, jak teplá vám vyhovuje klimatizace v listopadové ráno?

group of people walking on pedestrian lane

Digitální věštění

Svatým grálem práce s daty je pochopení lidského chování za účelem zlepšení kvality života, což je otázka, kterou se zabývá mnoho kolegů profesora Cormodea ve Warwicku a v Turingově institutu.

„Mnoho lidí hledalo na sociálních sítích, jestli bychom to mohli použít na korouhvičce k pochopení názoru lidí – ale je to mnohem obtížnější, než byste si mysleli,“ říká Cormode. „Je to částečně proto, že objem nebo zuřivost online diskuzí nekoreluje s tím, jak se lidé rozhodují v reálném životě – například ve volební místnosti. Hlavní věc je, že nyní máme obrovské množství dat o všech aspektech života a vy je chcete použít k tomu, abyste se o něčem dozvěděli. Někdy vám data řeknou něco přímo a někdy vás informují mnohem nepřímo. Pro statistické modelování je velkou výzvou vzít signály o jednom předmětu a převést je do jiných oblastí.

„Data z Twitteru nám mohou říct nejoblíbenější stranu na Twitteru, ale nemohou nám říct, jak bude celá populace volit. Jasně existuje překrývání. Je třeba vyvodit závěry, ale není to přímočaré. Nejde ani o vědecký experiment za kontrolovaných podmínek v laboratoři. Twitter dostává titulky, protože aktivity na sociálních sítích jsou nyní součástí národního dialogu, a tak máte týmy sociálních médií pro organizace, které se snaží konverzaci ovlivnit. Můžete dokonce zaplatit za roboty, kteří budou věci automaticky tweetovat – nezpracovaná data o retweetech a trendových tématech nám neposkytují pravdivý obrázek.“

Dokážete tedy rozeznat signál od šumu? „Je to výzva,“ říká Cormode. „Dokonce ani tradičnější metody průzkumu, které se nesnaží odhadnout nebo rozeznat názor. Zazvoní lidem a zeptají se jich, koho budou volit, nevyvolají pravdivé odpovědi. Pro datovou vědu stále existuje obrovská výzva, aby poskytla přesnější interpretace sentimentu a lidského chování.

Jednotlivci na internetu

Ironie, sarkasmus, složité věty, pravopisné chyby a další lidské faktory činí z analýzy sentimentu obtížný problém. A nyní existují další zlověstnější aspekty lidského chování, které se objevují na stránkách pro živé vysílání, jako je Facebook Live. Může nám technologie Big Data pomoci hlídat online obsah?

Profesor Cormode uzavírá: „Při řešení nevhodného obsahu existují některé skutečné zásadní problémy, možná dokonce nemožné. Neexistuje žádný jednoduchý test, který by řekl, že toto je dobré a toto je špatné. Rozsah, s nímž máte co do činění, je obrovský, máte velmi hlučná data a nejlepší, v co byste doufali, by bylo vzít zaměstnance sociálních sítí, jejichž úkolem je sledovat a co nejlépe využít jejich pozornost, nasměrovat je do oblastí, které víš, že jsou problematické. Brzy se ale dostanete do subjektivních oblastí, s nutností posoudit, zda je něco svoboda slova nebo podněcování. Není to čistě technologická otázka. To jsou velmi lidské problémy. Způsob, jakým formulujeme zákony a nařízení, je hodně subjektivní, přičemž zlatým standardem při rozhodování o tom, co je správné, je porada soudců a porot.

„Za tím je letitý problém. Nejde o to, že více lidí říká sporné věci, jde o to, že je nyní pro ostatní snazší je slyšet. Považujeme to za technologický problém, protože je to technologie, která umožnila vysílání těchto myšlenek, ale je to lidská složka, která vytváří těžké otázky.

Zdroj: wawrick.ac.uk