Informace

Školení biologické neuronové sítě pro miminka

Školení biologické neuronové sítě pro miminka


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Znepokojuje mě skutečnost, že děti nemohou chodit, protože svaly na jejich končetinách nejsou vyvinuté a vyladěné tak, aby poskytovaly směrovou kontrolu, trvá roky, než děti získají pohyblivost a obratnost. Technicky tedy neuronové sítě v motorickém kortexu vyžadují roky tréninku, než je této schopnosti dosaženo.

Když se však miminka narodí, nepotřebují trénovat oční svaly pro směrovou kontrolu jejich očních bulv (což je poměrně výpočetně náročný problém vzhledem k vysokému stupni volnosti ve srovnání s pohybem pantů). Přichází biologická neuronová síť pro oční svaly předem trénovaná, zatímco neuronová síť pro svaly končetin je netrénovaná od narození?


Biologické neurony fungují velmi odlišným způsobem ve srovnání se zjednodušenými umělými neuronovými sítěmi strojového učení. Podívejte se například, jak fungují skutečné neurony a jak se vzájemně propojují. Samotné typy neuronů jsou velmi rozmanité: „…neurony mohou mít specializované formy, jako jsou unipolární, bipolární, multipolární, anaxonické, pseudounipolární, košíkové buňky, Purkyňovy buňky, Lugarovy buňky, vřetenové buňky a další.“.
Pokud jde o oči, světlo prochází velkou sítí neuronů, než dopadne na buňky tyčinek a čípků. U sítnice chobotnice je to naopak. Zvířecí miminka se dokážou naučit chodit mnohem rychleji než lidská miminka. Podívejte se také na videa, jak se nevidomé děti učí chodit.

Takže v podstatě se při vytváření a fungování lidského těla děje mnohem mnohem více než jen „trénink neuronové sítě“. Opravdu pěkný článek s názvem „fakta a anomálie“ poskytuje pohled na tuto složitost.

Nikdo plně nechápe, jak funguje systém buněk a rovnováha. Je extrémně komplexní a vícerozměrný. Když se podíváte na složitost uvnitř jediné buňky a elektronového transportního řetězce, všimnete si, že existuje sakra spousta věcí, které jsou již předem naprogramovány a navrženy tak, aby využívaly molekulárních vlastností přírody k vytváření struktur a motory využívající rovnováhu chemických vlastností. Když je vytvořena taková rovnováha, může dojít k evoluci a adaptaci, ale pouze velmi kontrolovaným způsobem. Takže nevěřím, že se neuronová síť dítěte trénuje, aby chodila nebo viděla. Je předem trénovaný miliony let evoluce. Důvod, proč může nějakou dobu trvat, než dozrává, je pravděpodobně ten, že odpovídající neurony v mozku nějakou dobu trvá, než se vytvoří, vyrostou a najdou si cestu v mozku, aby vytvořily správné synapse.


Některá miminka začnou chodit ve 12-15 měsících, takže to nejsou přesně roky, než to zvládnou. Dokážou od narození uchopit věci i rukama. Při prvním narození ještě nemají úplný oční ovládání a hlavně neumí zaostřit kromě silně kontrastních objektů. Pokud sledujete novorozence, jejich oči se často pohybují z místa na místo, i když je v dohledu obličej rodiče.

Pokud jde o to, proč nemají moc svalovou kontrolu, stačí se zamyslet nad jejich okolnostmi - předchozích 9 měsíců strávily ve velmi stísněné děloze, s téměř žádným prostorem pro pohyb a bez šance úplně natáhnout nohy, když jsou re ve třetím trimestru a poměrně rychle se zvětšuje. Není to tak, že by jejich svalové řídící neuronové sítě nebyly vůbec trénovány, jen ještě nejsou trénovány v plném rozsahu. Oči jsou o něco trénovanější, protože světlo může pronikat dovnitř dělohy, zvláště v poslední fázi těhotenství, kdy je břišní kůže matky napjatá, a mají spoustu příležitostí pohybovat očima, i když nemají co dělat. soustředit se na.


Chůze je více než jen mít silné nohy pohybující se kloubovým pohybem. Je to o koordinaci všech svalů nohou a svalů trupu. Miminka mají instinkty, které jim říkají, jak koordinovat všechny svalové pohyby pro sání, ale stále musí cvičit všechny svalové pohyby kvůli jídlu (a znovu se učí koordinovat všechny svaly trupu pro sezení). Pohyby očí jsou mnohem jednodušší.


Strojové učení předpovídá chování biologických obvodů

Biomedicínští inženýři z Duke University vymysleli přístup strojového učení k modelování interakcí mezi komplexními proměnnými v upravených bakteriích, které by jinak byly příliš těžkopádné na předpovídání. Jejich algoritmy jsou zobecnitelné na mnoho druhů biologických systémů.

V nové studii vědci trénovali neuronovou síť, aby předpovídali kruhové vzory, které by byly vytvořeny biologickým obvodem zabudovaným do bakteriální kultury. Systém pracoval 30 000krát rychleji než stávající výpočetní model.

Pro další zlepšení přesnosti tým vymyslel metodu, jak několikrát přetrénovat model strojového učení, aby porovnali své odpovědi. Pak to použili k vyřešení druhého biologického systému, který je výpočetně náročný jiným způsobem, což ukazuje, že algoritmus může fungovat pro různé výzvy.

Výsledky se objeví online 25. září v časopise Příroda komunikace.

"Tato práce byla inspirována Googlem, který ukázal, že neuronové sítě se mohou naučit porazit člověka v deskové hře Go," řekl Lingchong You, profesor biomedicínského inženýrství na Duke.

"I když má hra jednoduchá pravidla, existuje příliš mnoho možností, aby počítač deterministicky vypočítal nejlepší další možnost," řekl jste. "Zajímalo by mě, jestli by takový přístup mohl být užitečný při vyrovnávání se s určitými aspekty biologické složitosti, s nimiž jsme konfrontováni."

Výzvou, před kterou stojíte Vy a jeho postdoktorandský spolupracovník Shangying Wang, bylo určit, jaká sada parametrů by mohla vytvořit specifický vzor v kultuře bakterií po zkonstruovaném genovém okruhu.

V předchozí práci You's laboratoř naprogramovala bakterie tak, aby produkovaly proteiny, které v závislosti na specifikách růstu kultury na sebe vzájemně působí a vytvářejí prstence. Kontrolou proměnných, jako je velikost růstového prostředí a množství poskytovaných živin, vědci zjistili, že mohou ovládat tloušťku prstence, jak dlouho trvalo, než se objevil, a další vlastnosti.

Změnou libovolného počtu desítek potenciálních proměnných vědci zjistili, že mohou udělat více, například způsobit vytvoření dvou nebo dokonce tří prstenců. Ale protože jedna počítačová simulace trvala pět minut, stalo se nepraktické prohledávat jakýkoli velký designový prostor pro konkrétní výsledek.

Pro jejich studium se systém skládal z 13 bakteriálních proměnných, jako je rychlost růstu, difúze, degradace proteinů a buněčný pohyb. Jen vypočítat šest hodnot na parametr by jednomu počítači trvalo více než 600 let. Spuštění na paralelním počítačovém clusteru se stovkami uzlů může zkrátit dobu běhu na několik měsíců, ale strojové učení ji může zkrátit na hodiny.

"Model, který používáme, je pomalý, protože musí brát v úvahu mezikroky v čase dostatečně malou rychlostí, aby byl přesný," řekl You. "Ale ne vždy se zajímáme o mezikroky. Chceme jen konečné výsledky pro určité aplikace. A můžeme (vrátit se k) zjistit mezikroky, pokud shledáme konečné výsledky zajímavé."

Aby Wang přeskočil ke konečným výsledkům, obrátil se na model strojového učení nazývaný hluboká neuronová síť, který dokáže efektivně předpovídat řádově rychleji než původní model. Síť bere jako vstup proměnné modelu, zpočátku přiřazuje náhodné váhy a odchylky a chrlí předpověď, jaký vzor bakteriální kolonie vytvoří, přičemž zcela přeskakuje mezikroky vedoucí ke konečnému vzoru.

I když se počáteční výsledek ani zdaleka neblíží správné odpovědi, váhy a odchylky lze vyladit pokaždé, když jsou do sítě přiváděna nová tréninková data. Vzhledem k dostatečně velké „tréninkové“ sadě se neuronová síť nakonec naučí dělat přesné předpovědi téměř pokaždé.

Abychom zvládli těch pár případů, kdy se strojové učení pokazilo, vy a Wang přišli na způsob, jak rychle zkontrolovat svou práci. Pro každou neuronovou síť má proces učení prvek náhodnosti. Jinými slovy, nikdy se nebude učit stejným způsobem dvakrát, i když je trénováno na stejné sadě odpovědí.

Výzkumníci trénovali čtyři samostatné neuronové sítě a porovnávali své odpovědi pro každý případ. Zjistili, že když trénované neuronové sítě provádějí podobné předpovědi, byly tyto předpovědi blízko správné odpovědi.

"Zjistili jsme, že nemusíme ověřovat každou odpověď pomocí pomalejšího standardního výpočetního modelu," řekl You. "V podstatě jsme místo toho použili 'moudrost davu'."

S vycvičeným a potvrzeným modelem strojového učení se vědci rozhodli jej použít k novým objevům o jejich biologickém okruhu. V počátečních 100 000 simulacích dat používaných k trénování neuronové sítě pouze jedna vytvořila bakteriální kolonii se třemi prstenci. Ale s rychlostí neuronové sítě byli You a Wang nejen schopni najít mnohem více tripletů, ale také určit, které proměnné byly rozhodující pro jejich produkci.

"Neurální síť byla schopna najít vzorce a interakce mezi proměnnými, které by jinak nebylo možné odhalit," řekl Wang.

Na závěr své studie You a Wang vyzkoušeli svůj přístup na biologickém systému, který funguje náhodně. Řešení takových systémů vyžaduje, aby počítačový model opakoval stejné parametry mnohokrát, aby se našel nejpravděpodobnější výsledek. I když je to úplně jiný důvod pro dlouhé doby běhu výpočtů než u jejich původního modelu, výzkumníci zjistili, že jejich přístup stále funguje, což ukazuje, že je zobecnitelný na mnoho různých složitých biologických systémů.

Vědci se nyní snaží použít svůj nový přístup na složitější biologické systémy. Kromě toho, že to běží na počítačích s rychlejšími GPU, snaží se naprogramovat algoritmus tak, aby byl co nejúčinnější.

"Trénovali jsme neuronovou síť se 100 000 datovými sadami, ale to by mohlo být přehnané," řekl Wang. "Vyvíjíme algoritmus, kde může neuronová síť interagovat se simulacemi v reálném čase, aby pomohla věci urychlit."

"Naším prvním cílem byl relativně jednoduchý systém," řekl You. "Nyní chceme vylepšit tyto systémy neuronových sítí, abychom poskytli okno do základní dynamiky složitějších biologických obvodů."

Tato práce byla podporována Úřadem pro námořní výzkum (N00014-12-1-0631), Národním institutem zdraví (1R01-GM098642) a stipendiem Davida a Lucile Packardových.


Strojové učení versus statistika

Hranice mezi strojovým učením a statistikou je nejasná. Některé metody jsou společné pro obě domény a obě lze použít k predikci a odvození. Strojové učení a statistika však mají různá ohniska, predikci nebo inferenci [3]. Obecně platí, že klasické statistické metody spoléhají na předpoklady o systémech generujících data. Statistiky mohou poskytnout explicitní závěry pomocí přizpůsobení specifikovaného pravděpodobnostního modelu, když je shromážděno dostatek dat z dobře navržených studií. Strojové učení se zabývá otázkou vytváření a aplikace algoritmů, které se zlepšují se zkušenostmi. Mnoho metod strojového učení může odvodit modely pro rozpoznávání, klasifikaci a predikci vzorů z existujících dat a nespoléhá se na přísné předpoklady o systémech generujících data, což je činí efektivnějšími v některých komplikovaných aplikacích, jak je dále popsáno níže, ale méně efektivními. při vytváření explicitních modelů s biologickým významem, v některých případech [3].


Hluboké učení na buněčných signalizačních sítích zakládá AI pro biologii jedné buňky

Koncepční nástin znalostních neuronových sítí (KPNN). KPNN jsou umělé neuronové sítě, jejichž struktura je založena na biologických znalostech, což umožňuje interpretovatelné hluboké učení na biologických sítích. Kredit: Nikolaus Fortelny/CeMM

Počítačové systémy, které napodobují klíčové aspekty řešení lidských problémů, se běžně označují jako umělá inteligence (AI). Tato oblast zaznamenala v posledních letech obrovský pokrok. Nejpozoruhodnější je, že hluboké učení umožnilo převratný pokrok v oblastech, jako jsou samořídící auta, počítače porážející nejlepší lidské hráče ve strategických hrách (Go, šachy), počítačových hrách a pokeru a počáteční aplikace v diagnostické medicíně. Hluboké učení je založeno na umělých neuronových sítích – sítích matematických funkcí, které jsou iterativně reorganizovány, dokud přesně nezmapují data popisující daný problém k jeho řešení.

V biologii se hluboké učení etablovalo jako účinná metoda k předpovídání fenotypů (tj. pozorovatelných charakteristik buněk nebo jedinců) z genomových dat (například profily genové exprese). Hluboké učení je obvykle metoda „černé skříňky“: Neuronové sítě jsou velmi silné prediktory, pokud mají dostatek trénovacích dat. Například byly použity k predikci buněčného typu z profilů genové exprese a proteinových struktur z dat sekvence DNA. Standardní neuronové sítě ale nedokážou vysvětlit naučený vztah mezi vstupy a výstupy lidsky srozumitelným způsobem. Z tohoto důvodu hluboké učení dosud jen málo přispělo k pokroku našeho mechanického chápání molekulárních funkcí v buňkách.

Aby se vypořádali s tímto nedostatkem interpretovatelnosti, postdoktorand CeMM Nikolaus Fortelny a hlavní řešitel CeMM Christoph Bock sledovali myšlenku provádění hlubokého učení přímo na biologických sítích namísto obecných, plně propojených umělých neuronových sítí používaných v konvenčním hlubokém učení. Založili „neuronové sítě založené na znalostech“ (KPNN), které jsou založeny na signálních drahách a sítích regulace genů. V KPNN každý uzel odpovídá proteinu nebo genu a každý okraj má mechanickou biologickou interpretaci (např. protein A reguluje expresi genu B).

Detailní náčrt metody: Umělé neuronové sítě transformují vstupy (X) na výstupy (Y), například data genové exprese (X) na fenotypy (Y) s vysokou přesností predikce. KPNN začleňují znalosti biologických sítí do hlubokého učení, čímž umožňují interpretovatelnost v tom, co je jinak algoritmus černé skříňky. Kredit: Nikolaus Fortelny/CeMM

Výzkumníci CeMM ukazují ve své nové studii zveřejněné v Biologie genomu že hluboké učení na biologických sítích je technicky proveditelné a prakticky užitečné. Tím, že nutí algoritmus hlubokého učení, aby zůstal blízko procesům regulace genů, které jsou zakódovány v biologické síti, vytvářejí KPNN most mezi silou hlubokého učení a našimi rychle rostoucími znalostmi a porozuměním složitým biologickým systémům. Výsledkem je, že tento přístup poskytuje konkrétní pohled na zkoumané biologické systémy při zachování vysokého výkonu predikce. Tato výkonná nová metodika využívá optimalizovaný přístup pro hluboké učení, který stabilizuje váhy uzlů v přítomnosti redundance, zlepšuje kvantitativní interpretovatelnost vah uzlů a kontroluje nerovnoměrnou konektivitu, která je vlastní biologickým sítím.

Výzkumníci z CeMM demonstrovali svou novou metodu KPNN na velkých souborech jednobuněčných dat, včetně kompendia 483 084 jednobuněčných transkriptomů pro imunitní buňky zřízeného konsorciem Human Cell Atlas. V tomto souboru dat vědci objevili neočekávanou rozmanitost v regulačních sítích definujících buněčný typ mezi imunitními buňkami z kostní dřeně a pupečníkové krve.

Metoda KPNN kombinuje prediktivní sílu hlubokého učení a jeho schopnost odvodit úrovně aktivity napříč více skrytými vrstvami s funkční interpretovatelností biologických sítí. KPNN jsou zvláště užitečné pro jednobuněčná RNA-seq data, která jsou generována v masivním měřítku pomocí jednobuněčných sekvenačních testů. Kromě toho jsou KPNN široce použitelné v jiných oblastech biologie a biomedicíny, kde mohou být relevantní předchozí znalosti reprezentovány jako sítě.

Předpovědi a biologické poznatky získané pomocí KPNN budou užitečné pro rozbor buněčné signalizace a genové regulace ve zdraví a nemoci, pro identifikaci nových cílů léků a pro odvození testovatelných biologických hypotéz z dat sekvenování jednotlivých buněk. Obecněji řečeno, studie ilustruje budoucí dopad, který bude mít umělá inteligence a hluboké učení na mechanistickou biologii, protože vědecká komunita se učí, jak učinit výsledky umělé inteligence biologicky interpretovatelné.


Výzkum v oblasti zpracování senzorů (60. a 70. léta 27. století)

Dr. Hubel a Dr. Wiesel pracovali v oblasti Sensory Processing. Ve kterém vložili mikroelektrodu do primáru zraková kůra částečně anestetizované kočky, takže se nemohla hýbat, a ukázal kočce obrázky čáry v různých úhlech.

Prostřednictvím mikroelektrody zjistili, že některé neurony střílely velmi rychle tím, že sledovaly čáry pod určitými úhly, zatímco jiné neurony nejlépe reagovaly na čáry v různých úhlech. Některé z těchto neuronů reagovaly na světlé a tmavé vzory odlišně, zatímco jiné neurony reagovaly na detekci pohybu v určitém směru.

Tato práce je prvotřídní pro koncept CNN.

Kde se v lidském mozku nachází Visual Cortex?

Vizuální kůra je část mozkové kůry, která zpracovává vizuální informace. Zrakové nervy z očí vedou přímo do primární zrakové kůry. Na základě strukturálních a funkčních charakteristik je rozdělen do různých oblastí, jak je znázorněno na následujícím obrázku:

Visual Cortex: Funkce

Vizuální informace se přenáší z jedné kortikální oblasti do druhé a každá kortikální oblast je specializovanější než ta poslední. Neurony ve specifickém poli reagují pouze na konkrétní akce.

Některé z nich s jejich funkcemi jsou následující:

  1. Primární vizuální kůra nebo V1: Zachovává prostorové umístění vizuální informace, tj. orientaci hran a čar. Je to první, kdo přijímá signály z toho, co zachytily oči.
  2. Sekundární Visual Cortex nebo V2: Přijímá silná dopředná spojení z V1 a odesílá silná spojení do V3, V4 a V5. Také posílá silnou zpětnou vazbu do V1. Jeho funkcí je shromažďovat prostorovou frekvenci, velikost, barvu a tvar objektu.
  3. Třetí Visual Cortex nebo V3: Přijímá vstupy z V2. Pomáhá při zpracování globálního pohybu a poskytuje kompletní vizuální reprezentaci.
  4. V4: Také přijímá vstupy z V2. Rozpoznává jednoduché geometrické tvary a také tvoří rozpoznávání předmětu. Není vyladěn pro složité objekty jako Human Faces.
  5. Střední časová (MT) vizuální oblast nebo V5: Používá se k detekci rychlosti a směru pohybujícího se vizuálního objektu, tj. vnímání pohybu. Detekuje také pohyb komplexních vizuálních prvků. Přijímá přímé spojení z V1.
  6. Dorzomediální (DM) oblast nebo V6: používá se k detekci širokého pole a stimulace vlastním pohybem. Stejně jako V5 také přijímá přímé spojení z V1. Má extrémně ostrý výběr orientace vizuálních obrysů.

Mapování na CNN

Výše uvedená zraková kůra působí jako vrstvy CNN. Vezměme si scénáře jako Detekce hran, Detekce obličeje, Detekce odchylek (tj. Detekce otočeného obličeje, Detekce velkého nebo malého obličeje)

Detekce hrany : Pomocí operace konvoluce na obrázku pomocí Sobel Kernel můžeme detekovat hrany. Podívejte se na následující obrázek:

Max Pooling : Používá se k detekci, kde se objekty nacházejí na obrázku na základě výstupu každého shluku neuronů v předchozí vrstvě. Vzhledem k tomu, že obličej je detekován kdekoli, nezávisí na umístění obličeje na snímku.

ReLU (Upravená lineární jednotka) : Protože se lidský mozek nikdy nepřestane učit, vždy se učí z pozorování a zkušeností, tj. vstupů, které přijímá ze smyslových orgánů, jsou v tom či onom bodě využívány, ale učení se nikdy nestane „nulou“. Pro přidání této funkce do neuronových sítí se používá ReLU. Aktivační funkce je: f(x) = max(0,x). Pro jakoukoli aktivační funkci musíme být schopni vzít derivaci této funkce as ReLU to můžeme udělat. Ale derivace na nule není pro ReLU definována. Kvůli nule můžeme mít problém mrtvého aktivačního stavu. To znamená, že nedojde k žádné změně hmotnosti, tedy žádnému učení. Ale u lidí se to nestává často. K řešení tohoto problému se používá koncept Leaky ReLU.

Netěsné ReLU: Funkce je: f(x) = if (x > 0) pak x jinak 0,01*x. Tím se vyhýbáme problému mrtvých států. To znamená, že síť se může dál učit, ale může čelit problému mizejícího gradientu.

Rozšíření dat: My lidé dokážeme rozpoznat obličej, i když je převrácený, otočený, převrácený, odražený nebo zkosený. Pomocí techniky Data Augmentation můžeme převést jeden obrázek na různé typy obrázků a použít nově vytvořené obrázky pro trénování CNN. Poté bude CNN schopna detekovat data založená na odchylkách, jako jsou otočené tváře, velké a malé tváře, převrácené tváře atd. (tj. objekty budou rozpoznány, i když nebudou ve své původní poloze).

Výpadky : Spalují všechny neurony přítomné v našem mozku, aby se něco naučily? Odpověď je NE''. Není nutné, aby střílely lineárně nebo se zpětným šířením. Některé z neuronů mohou zůstat neaktivní v jedné fázi učení a mohou se aktivovat v jiné fázi učení nebo naopak. To dává neuronům schopnost nezávislého učení. Aby to bylo v sítích, je zaveden koncept výpadků. Po aplikaci dropoutu s pravděpodobností p jsou náhodně vybrané jednotlivé uzly/neurony vypuštěny z dané epochy pro proces učení a jsou také vynechány příslušné příchozí a odchozí hrany. Často se používá, aby se zabránilo přetížení v síti.

Zbytková síť (ResNet): Jak jsme viděli, V5 a V6 přijímají přímá spojení z V1 stejným způsobem, jako funguje zbytková síť. Přeskakuje připojení a/nebo přeskakuje přes vrstvy. Dělá se to, aby se předešlo problému mizejícího gradientu.


Hluboké učení pro biologii

Sarah Webb je spisovatelka na volné noze v Chattanooga, Tennessee.

Tohoto autora můžete také vyhledat ve službě PubMed Google Scholar

Mozková neuronová síť dlouho inspirovala výzkumníky umělé inteligence. Kredit: Alfred Pasieka/SPL/Getty

Před čtyřmi lety se vědci z Googlu objevili na prahu neurovědce Steva Finkbeinera. Výzkumníci pocházeli z Google Accelerated Science, výzkumné divize v Mountain View v Kalifornii, jejímž cílem je využít technologie Google k urychlení vědeckých objevů. Měli zájem o aplikaci přístupů „hlubokého učení“ na hory zobrazovacích dat generovaných Finkbeinerovým týmem v Gladstone Institute of Neurological Disease v San Franciscu, také v Kalifornii.

Algoritmy hlubokého učení berou nezpracované funkce z extrémně velké anotované datové sady, jako je sbírka obrázků nebo genomů, a používají je k vytvoření prediktivního nástroje založeného na vzorcích skrytých uvnitř. Jakmile jsou algoritmy natrénovány, mohou toto školení použít k analýze dalších dat, někdy z velmi odlišných zdrojů.

Techniku ​​lze použít k „řešení opravdu těžkých, obtížných a komplikovaných problémů a ke schopnosti vidět strukturu v datech – množství dat, která jsou prostě příliš velká a příliš složitá na to, aby je lidský mozek pochopil,“ říká Finkbeiner.

On a jeho tým vytvářejí hromady dat pomocí vysoce výkonné zobrazovací strategie známé jako robotická mikroskopie, kterou vyvinuli pro studium mozkových buněk. Tým však nedokázal analyzovat svá data rychlostí, kterou je získal, takže Finkbeiner uvítal příležitost ke spolupráci.

„V té době nemohu upřímně říci, že jsem měl jasnou představu o tom, jaké otázky lze řešit pomocí hlubokého učení, ale věděl jsem, že data generujeme dvakrát až třikrát rychleji, než jsme mohli analyzovat,“ říká. .

Dnes se tyto snahy začínají vyplácet. Finkbeinerův tým s vědci z Googlu vytrénoval hluboký algoritmus se dvěma sadami buněk, z nichž jedna byla uměle označena, aby zvýraznila prvky, které vědci normálně nevidí, a druhá neoznačená. Když později vystavili algoritmus obrázkům neoznačených buněk, které nikdy předtím neviděli, Finkbeiner říká, „bylo to úžasně dobré v předpovídání, jaké by měly být štítky pro tyto obrázky“. Publikace s podrobnostmi o této práci je nyní v tisku.

Úspěch Finkbeinera ukazuje, jak hluboké učení, jedno z nejslibnějších odvětví umělé inteligence (AI), proniká do biologie. Algoritmy již pronikají do moderního života v chytrých telefonech, chytrých reproduktorech a samořídících autech. V biologii se algoritmy hlubokého učení ponoří do dat způsobem, jakým to lidé nedokážou, odhalují funkce, které by jinak nebylo možné zachytit. Výzkumníci používají algoritmy ke klasifikaci buněčných obrazů, vytváření genomických spojení, pokroku při objevování léků a dokonce k nalezení odkazů napříč různými typy dat, od genomiky a zobrazování po elektronické lékařské záznamy.

Více než 440 článků na předtiskovém serveru bioRxiv pojednává o hlubokém učení PubMed uvádí více než 700 referencí v roce 2017. A nástroje jsou na pokraji toho, aby se staly široce dostupnými pro biology a klinické výzkumníky. Výzkumníci se však potýkají s problémy, jak pochopit, co tyto algoritmy dělají, a zajistit, aby uživatele nesvedly z cesty.

Školení chytrých algoritmů

Algoritmy hlubokého učení (viz „Hluboké myšlenky“) spoléhají na neuronové sítě, výpočtový model poprvé navržený ve 40. letech minulého století, ve kterém vrstvy uzlů podobných neuronům napodobují, jak lidský mozek analyzuje informace. Ještě před pěti lety se algoritmy strojového učení založené na neuronových sítích spoléhaly na výzkumníky, kteří zpracovali nezpracované informace do smysluplnější podoby, než je vloží do výpočetních modelů, říká Casey Greene, počítačový biolog z University of Pennsylvania ve Philadelphii. Ale exploze ve velikosti souborů dat – ze zdrojů, jako jsou snímky smartphonů nebo rozsáhlé genomické sekvenování – a algoritmické inovace nyní umožnily lidem udělat krok zpět. Tento pokrok ve strojovém učení – „hluboká“ část – nutí počítače, nikoli jejich lidské programátory, aby nalezly smysluplné vztahy vložené do pixelů a základen. A protože vrstvy v neuronové síti filtrují a třídí informace, komunikují také mezi sebou, což každé vrstvě umožňuje zpřesnit výstup z předchozí.

Zdroj: Jeremy Linsley/Drew Linsley/Steve Finkbeiner/Thomas Serre

Nakonec tento proces umožňuje trénovanému algoritmu analyzovat nový obrázek a správně jej identifikovat jako například Charles Darwin nebo nemocnou buňku. Ale jak se výzkumníci od algoritmů distancují, už nemohou řídit proces klasifikace nebo dokonce přesně vysvětlit, co software dělá. Ačkoli tyto sítě s hlubokým učením mohou být úžasně přesné při vytváření předpovědí, Finkbeiner říká: „Někdy je stále náročné zjistit, co síť vidí, co jí umožňuje dělat tak dobrou předpověď“.

Přesto mnoho podoborů biologie, včetně zobrazování, sklízí plody těchto předpovědí. Před deseti lety se software pro automatizovanou analýzu biologického obrazu zaměřil na měření jednotlivých parametrů v sadě snímků. Například v roce 2005 Anne Carpenter, počítačová bioložka z Broad Institute of MIT a Harvard v Cambridge, Massachusetts, vydala softwarový balíček s otevřeným zdrojovým kódem nazvaný CellProfiler, který má biologům pomoci kvantitativně měřit jednotlivé rysy: počet fluorescenčních buněk v například mikroskopické pole nebo délka zebřičky.

Ale hluboké učení umožňuje jejímu týmu jít dál. "Posouváme se k měření věcí, o kterých si biologové neuvědomují, že je chtějí měřit z obrázků," říká. Záznam a kombinování vizuálních prvků, jako je barvení DNA, textura organel a kvalita prázdných prostorů v buňce, může produkovat tisíce „funkcí“, z nichž každá může odhalit nové poznatky. Aktuální verze CellProfiler obsahuje některé prvky hlubokého učení a její tým očekává, že v příštím roce přidá sofistikovanější nástroje pro hluboké učení.

"Většina lidí má problém o tom přemýšlet," říká Carpenter, "ale v jediném obrázku buněk je stejně mnoho informací, ve skutečnosti možná více, jako v transkriptomické analýze buněčné populace."

Tento typ zpracování umožňuje Carpenterovu týmu zaujmout méně kontrolovaný přístup k převodu buněčných obrázků do fenotypů souvisejících s nemocí – a využít toho. Carpenter je vědeckým poradcem společnosti Recursion Pharmaceuticals v Salt Lake City v Utahu, která využívá své nástroje pro hluboké učení k zacílení na vzácné poruchy s jedním genem pro vývoj léků.

Pokud jde o hluboké učení, neposlouží jen tak ledajaká data. Metoda často vyžaduje masivní, dobře anotované soubory dat. Zobrazovací data poskytují přirozené přizpůsobení, ale také genomická data.

Jedna biotechnologická firma, která taková data používá, je Verily Life Sciences (dříve Google Life Sciences) v San Franciscu. Výzkumníci z Verily – dceřiné společnosti mateřské společnosti Google, Alphabet – a Google vyvinuli nástroj pro hluboké učení, který identifikuje běžný typ genetické variace, nazývaný jednonukleotidové polymorfismy, přesněji než konvenční nástroje. Software s názvem DeepVariant převádí genomické informace do obrazových reprezentací, které jsou pak analyzovány jako obrázky (viz „Nástroje pro hloubkové potápění“). Mark DePristo, který ve společnosti Google vede genomický výzkum založený na hlubokém učení, očekává, že DeepVariant bude zvláště užitečný pro výzkumníky studující organismy mimo hlavní proud – ty s nekvalitními referenčními genomy a vysokou chybovostí při identifikaci genetických variant. Při práci s DeepVariant v závodech jeho kolega Ryan Poplin dosáhl chybovosti blížící se 2 % než typičtějších 20 % jiných přístupů.

Nástroje pro hloubkové potápění

Nástroje pro hloubkové učení se rychle vyvíjejí a laboratoře budou potřebovat specializované výpočetní znalosti, spolupráci nebo obojí, aby je mohly využít.

Nejprve vezměte kolegu s hlubokými znalostmi na oběd a zeptejte se, zda by tato strategie mohla být užitečná, radí Steve Finkbeiner, neurolog z Gladstone Institutes v San Franciscu v Kalifornii. S některými datovými sadami, jako jsou obrazová data, může standardní program fungovat pro složitější projekty, zvažte spolupracovníka, říká. Workshopy a setkání mohou poskytnout příležitosti ke školení.

Přístup ke zdrojům cloud computingu znamená, že výzkumníci možná nebudou potřebovat místní počítačový cluster, aby mohli používat hluboké učení – mohou výpočet spustit jinde. TensorFlow společnosti Google, open source platforma pro vytváření algoritmů hlubokého učení, je k dispozici na webu pro sdílení softwaru GitHub, stejně jako open source verze DeepVariant, nástroje pro přesnou identifikaci genetických variací.

Google Accelerated Science, a Google research division based in Mountain View, California, collaborates with a range of scientists, including biologists, says Michelle Dimon, one of its research scientists. Projects require a compelling biological question, large amounts of high-quality, labelled data, and a challenge that will allow the company’s machine-learning experts to make unique computational contributions to the field, Dimon says.

Those wishing to get up to speed on deep learning should check out the ‘deep review’, a comprehensive, crowdsourced review led by computational biologist Casey Greene of the University of Pennsylvania in Philadelphia (T. Ching a kol. Preprint at bioRxiv http://doi.org/gbpvh5 2018).

Brendan Frey, chief executive of the Canadian company Deep Genomics in Toronto, also focuses on genomic data, but with the goal of predicting and treating disease. Frey’s academic team at the University of Toronto developed algorithms trained on genomic and transcriptomic data from healthy cells. Those algorithms built predictive models of RNA-processing events such as splicing, transcription and polyadenylation within those data. When applied to clinical data, the algorithms were able to identify mutations and flag them as pathogenic, Frey says, even though they’d never seen clinical data. At Deep Genomics, Frey’s team is using the same tools to identify and target the disease mechanisms that the software uncovered, to develop therapies derived from short nucleic-acid sequences.

Another discipline with massive data sets that are amenable to deep learning is drug discovery. Here, deep-learning algorithms are helping to solve categorization challenges, sifting through such molecular features as shape and hydrogen bonding to identify criteria on which to rank those potential drugs. For instance, Atomwise, a biotech company based in San Francisco, has developed algorithms that convert molecules into grids of 3D pixels, called voxels. This representation allows the company to account for the 3D structure of proteins and small molecules with atomic precision, modelling features such as the geometries of carbon atoms. Those features are then translated into mathematical vectors that the algorithm can use to predict which small molecules are likely to interact with a given protein, says Abraham Heifets, the company’s chief executive. “A lot of the work we do is for [protein] targets with no known binders,” he says.

Atomwise is using this strategy to power its new AI-driven molecular-screening programme, which scans a library of 10 million compounds to provide academic researchers with up to 72 potential small-molecule binders for their protein of interest.

Deep-learning tools could also help researchers to stratify disease types, understand disease subpopulations, find new treatments and match them with the appropriate patients for clinical testing and treatment. Finkbeiner, for instance, is part of a consortium called Answer ALS, an effort to combine a range of data — genomics, transcriptomics, epigenomics, proteomics, imaging and even pluripotent stem-cell biology — from 1,000 people with the neurodegenerative disease amyotrophic lateral sclerosis (also called motor neuron disease). “For the first time, we’ll have a data set where we can apply deep learning and look at whether deep learning can uncover a relationship between the things we can measure in a dish around a cell, and what’s happening to that patient,” he says.

Challenges and cautions

For all its promise, deep learning poses significant challenges, researchers warn. As with any computational-biology technique, the results that arise from algorithms are only as good as the data that go in. Overfitting a model to its training data is also a concern. In addition, for deep learning, the criteria for data quantity and quality are often more rigorous than some experimental biologists might expect.

Deep-learning algorithms have required extremely large data sets that are well annotated so that the algorithms can learn to distinguish features and categorize patterns. Larger, clearly labelled data sets — with millions of data points representing different experimental and physiological conditions — give researchers the most flexibility for training an algorithm. Finkbeiner notes that algorithm training in his work improves significantly after about 15,000 examples. Those high-quality ‘ground truth’ data can be exceptionally hard to come by, says Carpenter.

To circumvent this challenge, researchers have been working on ways to train more with less data. Advances in the underlying algorithms are allowing the neural networks to use data much more efficiently, Carpenter says, enabling training on just a handful of images for some applications. Scientists can also exploit transfer learning, the ability of neural networks to apply classification prowess acquired from one data type to another type. For example, Finkbeiner’s team has developed an algorithm that it initially taught to predict cell death on the basis of morphology changes. Although the researchers trained it to study images of rodent cells, it achieved 90% accuracy the first time it was exposed to images of human cells, improving to 99% as it gained experience.

For some of its biological image-recognition work, Google Accelerated Science uses algorithms that were initially trained on hundreds of millions of consumer images mined from the Internet. Researchers then refine that training, using as few as several hundred biological images similar to the ones they wish to study.

Another challenge with deep learning is that the computers are both unintelligent and lazy, notes Michelle Dimon, a research scientist at Google Accelerated Science. They lack the judgement to distinguish biologically relevant differences from normal variation. “The computer is shockingly good at finding batch variation,” she notes. As a result, obtaining data that will be fed into a deep-learning algorithm often means applying a high bar for experimental design and controls. Google Accelerated Science requires researchers to place controls randomly on cell-culture plates to account for subtle environmental factors such as incubator temperature, and to use twice as many controls as a biologist might otherwise run. “We make it hard to pipette,” Dimon quips.

This hazard underscores the importance of biologists and computer scientists working together to design experiments that incorporate deep learning, Dimon says. And that careful design has become even more important with one of Google’s latest projects: Contour, a strategy for clustering cellular-imaging data in ways that highlight trends (such as dose responses) instead of putting them into specific categories (such as alive or dead).

Although deep-learning algorithms can evaluate data without human preconceptions and filters, Greene cautions, that doesn’t mean they are unbiased. Training data can be skewed — as happens, for example, when genomic data only from northern Europeans are used. Deep-learning algorithms trained on such data will acquire embedded biases and reflect them in their predictions, which could in turn lead to unequal patient care. If humans help to validate these predictions, that provides a potential check on the problem. But such concerns are troubling if a computer alone is left to make key decisions. “Thinking of these methods as a way to augment humans is better than thinking of these methods as replacing humans,” Greene says.

And then there’s the challenge of understanding exactly how these algorithms are building the characteristics, or features, that they use to classify data in the first place. Computer scientists are attacking this question by changing or shuffling individual features in a model and then examining how those tweaks change the accuracy of predictions, says Polina Mamoshina, a research scientist at Insilico Medicine in Baltimore, Maryland, which uses deep learning to improve drug discovery. But different neural networks working on the same problem won’t approach it in the same way, Greene cautions. Researchers are increasingly focusing on algorithms that make both accurate and explainable predictions, he says, but for now the systems remain black boxes.

“I don’t think highly explainable deep-learning models are going to come on the scene in 2018, though I’d love to be wrong,” Greene says.

Příroda 554, 555-557 (2018)

Updates & Corrections

Correction 07 March 2018: An earlier version of this story affiliated Mark DePristo with Verily Life Sciences. It also omitted to mention that the DeepVariant tool was developed jointly by Verily and Google.


The main differences

  1. Velikost: our brain contains about 86 billion neurons and more than a 100 trillion (or according to some estimates 1000 trillion) synapses (connections). The number of “neurons” in artificial networks is much less than that (usually in the ballpark of 10–1000) but comparing their numbers this way is misleading. Perceptrons just take inputs on their “dendrites” and generate output on their “axon branches”. A single layer perceptron network consists of several perceptrons that are not interconnected: they all just perform this very same task at once. Deep Neural Networks usually consist of input neurons (as many as the number of features in the data), output neurons (as many as the number of classes if they are built to solve a classification problem) and neurons in the hidden layers, in-between. All the layers are usually (but not necessarily) fully connected to the next layer, meaning that artificial neurons usually have as many connections as there are artificial neurons in the preceding and following layers combined. Convolutional Neural Networks also use different techniques to extract features from the data that are more sophisticated than what a few interconnected neurons can do alone. Manual feature extraction (altering data in a way that it can be fed to machine learning algorithms) requires human brain power which is also not taken into account when summing up the number of “neurons” required for Deep Learning tasks. The limitation in size isn’t just computational: simply increasing the number of layers and artificial neurons does not always yield better results in machine learning tasks.
  2. Topology: all artificial layers compute one by one, instead of being part of a network that has nodes computing asynchronously. Feedforward networks compute the state of one layer of artificial neurons and their weights, then use the results to compute the following layer the same way. During backpropagation, the algorithm computes some change in the weights the opposing way, to reduce the difference of the feedforward computational results in the output layer from the expected values of the output layer. Layers aren’t connected to non-neighboring layers, but it’s possible to somewhat mimic loops with recurrent and LSTM networks. In biological networks, neurons can fire asynchronously in parallel, have small-world nature with a small portion of highly connected neurons (hubs) and a large amount of lesser connected ones (the degree distribution at least partly follows the power-law). Since artificial neuron layers are usually fully connected, this small-world nature of biological neurons can only be simulated by introducing weights that are 0 to mimic the lack of connections between two neurons.
  3. Rychlost: certain biological neurons can fire around 200 times a second on average. Signals travel at different speeds depending on the type of the nerve impulse, ranging from 0.61 m/s up to 119 m/s. Signal travel speeds also vary from person to person depending on their sex, age, height, temperature, medical condition, lack of sleep etc. Action potential frequency carries information for biological neuron networks: information is carried by the firing frequency or the firing mode (tonic or burst-firing) of the output neuron and by the amplitude of the incoming signal in the input neuron in biological systems. Information in artificial neurons is instead carried over by the continuous, floating point number values of synaptic weights. How quickly feedforward or backpropagation algorithms are calculated carries no information, other than making the execution and training of the model faster. There are no refractory periods for artificial neural networks (periods while it is impossible to send another action potential, due to the sodium channels being lock shut) and artificial neurons do not experience “fatigue”: they are functions that can be calculated as many times and as fast as the computer architecture would allow. Since artificial neural network models can be understood as just a bunch of matrix operations and finding derivatives, running such calculations can be highly optimized for vector processors (doing the very same calculations on large amounts of data points over and over again) and sped up by magnitudes using GPUs or dedicated hardware (like on AI chips in recent SmartPhones).
  4. Fault-tolerance: biological neuron networks due to their topology are also fault-tolerant. Information is stored redundantly so minor failures will not result in memory loss. They don’t have one “central” part. The brain can also recover and heal to an extent. Artificial neural networks are not modeled for fault tolerance or self regeneration (similarly to fatigue, these ideas are not applicable to matrix operations), though recovery is possible by saving the current state (weight values) of the model and continuing the training from that save state. Dropouts can turn on and off random neurons in a layer during training, mimicking unavailable paths for signals and forcing some redundancy (dropouts are actually used to reduce the chance of overfitting). Trained models can be exported and used on different devices that support the framework, meaning that the same artificial neural network model will yield the same outputs for the same input data on every device it runs on. Training artificial neural networks for longer periods of time will not affect the efficiency of the artificial neurons. Nicméně, the hardware used for training can wear out really fast if used regularly, and will need to be replaced. Another difference is, that all processes (states and values) can be closely monitored inside an artificial neural network.
  5. Spotřeba energie: the brain consumes about 20% of all the human body’s energy — despite it’s large cut, an adult brain operates on about 20 watts (barely enough to dimly light a bulb) being extremely efficient. Taking into account how humans can still operate for a while, when only given some c-vitamin rich lemon juice and beef tallow, this is quite remarkable. For benchmark: a single Nvidia GeForce Titan X GPU runs on 250 watts alone, and requires a power supply instead of beef tallow. Our machines are way less efficient than biological systems. Computers also generate a lot of heat when used, with consumer GPUs operating safely between 50–80 degrees Celsius instead of 36.5–37.5 °C.
  6. Signals: an action potential is either triggered or not — biological synapses either carry a signal or they don’t. Perceptrons work somewhat similarly, by accepting binary inputs, applying weights to them and generating binary outputs depending on whether the sum of these weighted inputs have reached a certain threshold (also called a step function). Artificial neurons accept continuous values as inputs and apply a simple non-linear, easily differentiable function (an activation function) on the sum of its weighted inputs to restrict the outputs’ range of values. The activation functions are nonlinear so multiple layers in theory could approximate any function. Formerly sigmoid and hyperbolic tangent functions were used as activation functions, but these networks suffered from the vanishing gradient problem, meaning that the more the layers in a network, the less the changes in the first layers will affect the output, due to these functions squashing their inputs into a very small output range. These problems were overcome by the introduction of different activation functions such as ReLU. The final outputs of these networks are usually also squashed between 0 — 1 (representing probabilities for classification tasks) instead of outputting binary signals. As mentioned earlier, neither the frequency/speed of the signals nor the firing rates carry any information for artificial neural networks (this information is carried over by the input weights instead). The timing of the signals is synchronous, where artificial neurons in the same layer receive their input signals and then send their output signals all at once. Loops and time deltas can only be partly simulated with Recurrent (RNN) layers (that suffer greatly from the aforementioned vanishing gradient problem) or with Long short-term memory (LSTM) layers that act more like state machines or latch circuits than neurons. These are all considerable differences between biological and artificial neurons.
  7. Learning: we still do not understand how brains learn, or how redundant connections store and recall information. Brain fibers grow and reach out to connect to other neurons, neuroplasticity allows new connections to be created or areas to move and change function, and synapses may strengthen or weaken based on their importance. Neurons that fire together, wire together (although this is a very simplified theory and should not taken too literally). By learning, we are building on information that is already stored in the brain. Our knowledge deepens by repetition and during sleep, and tasks that once required a focus can be executed automatically once mastered. Artificial neural networks in the other hand, have a predefined model, where no further neurons or connections can be added or removed. Only the weights of the connections (and biases representing thresholds) can change during training. The networks start with random weight values and will slowly try to reach a point where further changes in the weights would no longer improve performance. Just like there are many solutions for the same problems in real life, there is no guarantee that the weights of the network will be the best possible arrangement of weights to a problem — they will only represent one of the infinite approximations to infinite solutions. Learning can be understood as the process of finding optimal weights to minimize the differences between the network’s expected and generated output: changing weights one way would increase this error, changing them the other way would decrees it. Imagine a foggy mountain top, where all we could tell is that stepping towards a certain direction would take us downhill. By repeating this process, we would eventually reach a valley where taking any step further would only take us higher. Once this valley is found we can say that we have reached a local minima. Note that it’s possible that there are other, better valleys that are even lower from the mountain top (global minima) that we have missed, since we could not see them. Doing this in usually more than 3 dimensions is called gradient descent. To speed up this “learning process”, instead of going through each and every example every time, random samples (batches) are taken from the data set and used for training iterations. This will only give an approximation of how to adjust the weights to reach a local minima (finding which direction to take downhill without carefully looking at all directions all the time), but it’s still a pretty good approximation. We can also take larger steps when ascending the top and take smaller ones as we are reaching a valley where even small nudges could take us the wrong way. Walking like this downhill, going faster than carefully planning each and every step is called stochastic gradient descent. So the rate of how artificial neural networks learn can change over time (it decreases to ensure better performance), but there aren’t any periods similar to human sleep phases when the networks would learn better. There is no neural fatigue either, although GPUs overheating during training can reduce performance. Once trained, an artificial neural network’s weights can be exported and used to solve problem similar to the ones found in the training set. Training (backpropagation using an optimization method like stochastic gradient descent, over many layers and examples) is extremely expensive, but using a trained network (simply doing feedforward calculation) is ridiculously cheap. Unlike the brain, artificial neural networks don’t learn by recalling information — they only learn during training, but will always “recall” the same, learned answers afterwards, without making a mistake. The great thing about this is that “recalling” can be done on much weaker hardware as many times as we want to. It is also possible to use previously pretrained models (to save time and resources by not having to start from a totally random set of weights) and improve them by training with additional examples that have the same input features. This is somewhat similar to how it’s easier for the brain to learn certain things (like faces), by having dedicated areas for processing certain kinds of information.

So artificial and biological neurons do differ in more ways than the materials of their environment— biological neurons have only provided an inspiration to their artificial counterparts, but they are in no way direct copies with similar potential. If someone calls another human being smart or intelligent, we automatically assume that they are also capable of handling a large variety of problems, and are probably polite, kind and diligent as well. Calling a software intelligent only means that it is able to find an optimal solution to a set of problems.


Is artificial intelligence today where brain research was 100 years ago?

Babies are not born with randomly connected brains and turned on to learn. And yet, 100 years ago, neurobiologists were not so sure. In fact, most of them rather liked the idea, because they disliked the alternative: the development of intelligent brains without learning—as if embryo development could determine who you are. 100 years ago, neurobiologists had only recently discovered the existence of vast nerve fiber networks in the brain. But where could the information come from that rendered these networks ‘intelligent’? There could be but one answer: learning. It seemed much easier to envision the development of a randomly connected network that becomes smart through learning than a well-connected network that had grown smart during development. The underlying debate about the genetic basis of intelligence has lost none of its vigor to this day.

Curiously, today’s AI researchers are in agreement with those early pioneers of neurobiology: even the most advanced deep neural networks are based on the principle of an initially randomly connected network that is turned on to learn. Meanwhile, 100 years of research on the development and genetic encoding of biological neural networks have left a mark. Enormous (and enormously expensive) research efforts are underway to map ‘connectomes’ in brains to provide maps of genetically encoded connectivity. If connectomes were simply randomly connected, these efforts would be done in a day. But they are not. Neural circuits in biological brains are a fundamental basis to understand brain function, including the ability to learn.

The effort to map connectomes is reminiscent of similar efforts to map genomes 20 years ago. Back then, some people asked: Well, once we know the entire genome, aren’t we done? But as it became clear very quickly, we were at a beginning then, not the end. The genome does not contain information that describes neural networks, the genome only contains information to grow neural network. Scientists are grappling with this difference to this day.

Why is growth so important? Genes allow to grow brains, but we cannot read the connectome in the genome. In fact, there is much less information to read in the genome than there is in a connectome. It is easy to fully describe a genome compared to the attempt to fully describe a brain. Where is the missing information coming from? Growth is an energy- and time-dependent process. More energy and time during brain development allow for more information in brain wiring. The Monarch butterfly has a tiny brain, but it allows the butterfly to navigate in space and time by computing light, gravity, wind, landscapes and the electromagnetic field of the earth. Somehow, this enables the tiny brain to compute a journey of thousands of miles to a very small region in some far away mountains that the butterfly never knew, because its last ancestor to fly this route was its great-great-grandparent. One could say: the route is in the genes. But we can’t read it there. The genes can only guide the self-assembly of the butterfly’s brain. By the end of its development this brain knows how to fly and find those mountains, before learning anything. And the tiny brain achieves much more, of course: to recognize danger and adjust behavior accordingly, to find food and mate… and think like, well, a butterfly.

The history of AI is a history of trying to avoid biological detail in trying to create something that so far only exists in biology. For decades this history was characterized by trying to avoid neural networks. Today, neural networks have become synonymous with AI. But even the most advanced AI systems are still based on neural networks that are designed, not grown, with random connection weights prior to learning. The Monarch butterfly should be surprised that we consider a face-recognition AI as really smart, but a little butterfly as apparently rather stupid.

How brains self-assemble based on genes and learning is one of the most exciting riddles in natural sciences. After all, what comes out of it can think about the riddle of itself and try to build an artificial version of itself: our brain. The question AI researchers are facing since more than 70 years is this: what simplifying shortcuts can we take? For example, artificial neural networks get away with the shortcut to simulate synaptic connection strengths, without a simulation of the millions of molecules that create synaptic properties in biology. It works, but it has consequences. The complete omission of genes and growth should at least leave us wondering: what kind of intelligence would they have been needed for? Certainly not for the today’s AI applications. But how about the intelligence of a butterfly, or that of a teenager? Every shortcut has consequences for the intelligence we get. And for some things in life, there is just no shortcut.

Peter Robin Hiesinger is professor of neurobiology at the Institute for Biology, Freie Universität Berlin.


Self-organized criticality of molecular biology and thermodynamic analysis of life system based on optimized particle swarm algorithm

In order to improve the thermodynamic analysis and prediction ability of biological self-organized criticality and life system, a prediction model of biological self-organized criticality and thermodynamic characteristics of life system based on particle swarm optimization neural network is proposed. Fuzzy regression parameter fusion model is adopted to rearrange the statistical prior data of biological self-organized criticality and thermodynamic characteristics of life system, neural network training method is adopted to extract principal component characteristics of rearranged biological self-organized criticality and thermodynamic information flow of life system, and optimized particle swarm algorithm is adopted to carry out feature selection and self-organized supervised learning on extracted principal component characteristics, thus realizing accurate prediction of biological self-organized criticality and thermodynamic characteristics of life system. The simulation results show that the prediction accuracy of biological self-organization criticality and thermodynamic characteristics of life system using this model is high, the prior sample knowledge required is relatively small, and the reliability of biological self-organization criticality characteristics analysis is guaranteed.

Klíčová slova: Biological self-organization criticality Forecast. Life system Thermodynamics.


Diskuse

One of the goals for artificial intelligence in biology could be the creation of controllable predictive and generative models that can read and generate biology in its native language. Accordingly, research will be necessary into methods that can learn intrinsic biological properties directly from protein sequences, which can be transferred to prediction and generation.

We investigated deep learning across evolution at the scale of the largest protein sequence databases, training contextual language models across 86 billion amino acids from 250 million sequences. The space of representations learned from sequences by high-capacity networks reflects biological structure at multiple levels, including that of amino acids, proteins, and evolutionary homology. Information about secondary and tertiary structure is internalized and represented within the network. Knowledge of intrinsic biological properties emerges without supervision—no learning signal other than sequences is given during pretraining.

We find that networks that have been trained across evolutionary data generalize: information can be extracted from representations by linear projections, deep neural networks, or by adapting the model using supervision. Fine-tuning produces results that match state of the art on variant activity prediction. Predictions are made directly from the sequence, using features that have been automatically learned by the language model rather than selected by domain knowledge.

We find that pretraining discovers information that is not present in current state-of-the-art features. The learned features can be combined with features used by state-of-the-art structure prediction methods to improve results. Empirically, we find that features discovered by larger models perform better on downstream tasks. The Transformer outperforms LSTMs with similar capacity across benchmarks. Increasing diversity of the training data results in significant improvements to the representations.

While the protein language models we study are of comparable scale to those used in the text domain, our experiments have not yet reached the limit of scale. We observed that even the highest capacity models we trained (with ∼650 to 700 M parameters) under-fit the sequence datasets because of insufficient model capacity. The relationship we find between language modeling fidelity and the information about structure encoded into the representations suggests that higher capacity models will yield better representations. These findings imply potential for further model scale and data diversity, incorporating sequences from metagenomics.

Combining high-capacity generative models with gene synthesis and high throughput characterization can enable generative biology. The models we have trained can be used to generate new sequences (79). If neural networks can transfer knowledge learned from protein sequences to design functional proteins, this could be coupled with predictive models to jointly generate and optimize sequences for desired functions. The size of current sequence data and its projected growth point toward the possibility of a general purpose generative model that can condense the totality of sequence statistics, internalizing and integrating fundamental chemical and biological concepts including structure, function, activity, localization, binding, and dynamics, to generate new sequences that have not been seen before in nature but that are biologically active.



Komentáře:

  1. Fergus

    Docela správný! Líbí se mi váš nápad. Navrhuji napravit téma.

  2. Medal

    Jaká potřebná věta ... skvělý, vynikající nápad

  3. Rodney

    Bravo, seems remarkable idea to me is

  4. Faerr

    Někomu dám CGI postavu)))))



Napište zprávu