Informace

Jak lze počítačově ověřit počítačové předpovědi skládání proteinů?

Jak lze počítačově ověřit počítačové předpovědi skládání proteinů?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

V současné době probíhá mnoho výzkumů zaměřených na řešení vzorců skládání proteinů pomocí počítačů ([email protected], https://fold.it/portal/ atd.).

Otázka, kterou mám, zní: Jak poznáte, že to děláte správně? Existuje nějaký způsob ověření, in silico, že jste našli legitimní/správnou strukturu proteinu?


Přehled

Modelování nabralo v posledním desetiletí skoky a v mnoha případech fungovalo jako někdy životaschopná a levná náhrada za experimentální struktury.

Jak poznáte, že to máte správně?

Nakonec ještě jeden potřebuje experimentální důkazy na vědět kdy byl vytvořen model in silico má pravdu. Ale existují způsoby, jak ohodnotit model podle toho, jak pravděpodobně má to být správné.

Existuje nějaký způsob, jak in silico ověřit, že jste našli legitimní/správnou strukturu proteinu?

Existuje mnoho způsobů, jak ohodnotit a ověřit své modely. Každá metoda vám řekne něco mírně odlišného o přednostech nebo nedostatcích vašeho strukturálního modelu. Některé jsou navrženy tak, aby vyřadily zjevně hrozné modely a některé vám umožňují přesně zjistit, kde se váš model jeví jako přesný nebo nepřesný.

MODELLER Ověření výstupu modelování homologie za chodu.

Nejvíce znám modeláře pro homologní modelování. K dispozici jsou další software a každý z nich je od roku 1994 hodnocen každé dva roky CASP.

V homologním modelování existují 3 běžné skórovací systémy, které lze použít k posouzení biochemické životaschopnosti modelu. Tento e-mail popisuje, kdy je použít. Moje odpověď se trochu více rozšiřuje a vysvětluje.

molpdf je objektivní funkce Modeláře. GA341, zde diskutovaná je odvozena od Z-skóre (vypočteného pomocí statistické potenciální funkce), což je sekvenční identita cíl-šablona a měřítko strukturální kompaktnosti. DOPE je modernější metoda, poprvé publikovaná v roce 2006, a více odpovídá „biologické životaschopnosti“. Z publikace:

DOPE je založen na vylepšeném referenčním stavu, který odpovídá neinteragujícím atomům v homogenní kouli s poloměrem závislým na nativní struktuře vzorku; odpovídá tedy za konečný a sférický tvar nativních struktur.

Který použít, závisí na tom, co chcete s modelem dělat, ale z těchto tří skóre je DOPE nejspolehlivější v oddělení nativních modelů od „návnady“. DOPE je obvykle výchozím místem pro zjišťování, které modely by mohly být správné a které modely jsou jen obyčejný odpad.

Poznámka: Pokud používáte Rosettu, pak budou existovat ekvivalenty k těmto, nebo můžete své vygenerované modely spustit pomocí těchto technik. Pokud používáte SWISS MODEL, který je dodáván s vlastními technikami ověřování černé skříňky, ale stále můžete exportovat model pro další ověření.

Obecná modelová kontrola s experimentálními daty.

Další validace metod homologního modelování nebo jiných strukturálních modelů je ProSA. ProSA poskytuje skvělou vizuální reprezentaci toho, kde leží z-skóre mezi skutečnými krystalovými a NMR strukturami. Pravděpodobně existují další, kteří provádějí podobné funkce, ale toto je můj osobní cíl, abych získal představu o tom, kde mezi experimentálně shromážděnými strukturami leží moje struktura.

Citlivé reziduum ověřením reziduí.

Ačkoli výše uvedené metody zkoumají každý zbytek, obvykle poskytují celkové skóre. Skóre reziduí podle reziduí jsou také k dispozici a vyžadují hodně pečlivé interpretace. Pokud například analyzujete katalytickou aktivitu, oblast smyčkování povrchu, která má špatné skóre, nemusí být problémem, ale jádro katalyzátoru, které má špatné skóre, způsobí, že model bude nepoužitelný. To znamená, že to, že váš model má dobré (nižší) celkové skóre DOPE než jiný model, neznamená, že je nutně přesnějším modelem pro to, co vás zajímá.

Existuje spousta citlivých modelovacích skórovacích systémů. Některé z nich jsou XdVal, MTZdump, slavný, byť oldschoolový Plánování Ramachandranu metoda, pdbU, pdbSNAFU, PROCHECK, Ověřte 3D, a ERRAT abychom jmenovali alespoň některé. Každý má své místo při kontrole jak opravit tvůj model je.


V tuto chvíli je třeba to ověřit experimentálně.

V tomto složeném výzkumném dokumentu používají software a uživatelský vstup k návrhu v podstatě vylepšené verze přirozeně se vyskytujícího proteinu, ale poté fyzicky vyrobí svůj nový protein a experimentálně určí jeho strukturu pomocí rentgenové krystalografie. Celkově používají hodně pokusů a omylů http://homes.cs.washington.edu/~zoran/foldit-nbt-2012.pdf

Projekty, jako je tento, jsou svým způsobem zaměřeny na cíl být schopen určit strukturu proteinu z jeho aminokyselinové sekvence. in silico. Jakmile této schopnosti dosáhneme, bude to revoluční. Je to však velmi obtížné, protože přesné provádění takových předpovědí by vyžadovalo použití kvantové mechaniky způsobem, který je extrémně obtížné výpočtově modelovat. Tyto projekty používají zkratky k vyřešení tohoto problému, takže jejich výsledky nejsou příliš přesné, ale mohou být dostatečně přesné, aby byly užitečné, jak je uvedeno v tomto dokumentu.


Počítačový redesign dráhy skládání proteinů

Základním testem našeho současného chápání skládání proteinů je racionální přepracování cest skládání proteinů. Ke změně dráhy skládání proteinu G používáme počítačovou návrhovou strategii, která normálně zahrnuje vytvoření druhého, ale ne prvního, β-otočky v kroku omezujícím rychlost skládání. Byly identifikovány konformace páteře a aminokyselinové sekvence, které maximalizují hustotu interakcí v první β-vlásence, a dvě varianty obsahující 11 aminokyselinových náhrad byly o ~ 4 kcal mol −1 stabilnější než protein G divokého typu. Kinetické studie ukazují, že předělané proteiny se skládají ~ 100× rychleji než protein divokého typu a že první p-ohyb se vytvoří a druhý přeruší v kroku omezujícím rychlost při skládání.


Abstraktní

Predikce rychlosti skládání proteinů z aminokyselinových sekvencí je jednou z nejdůležitějších výzev v molekulární biologii. V této práci jsem dal do souvislosti rychlosti skládání proteinů s fyzikálně-chemickými, energetickými a konformačními vlastnostmi aminokyselinových zbytků. Zjistil jsem, že klasifikace proteinů do různých strukturních tříd ukazuje vynikající korelaci mezi vlastnostmi aminokyselin a rychlostí skládání dvou- a třístavových proteinů, což ukazuje na důležitost topologie nativního stavu při určování rychlosti skládání proteinů. Zformuloval jsem jednoduchý lineární regresní model pro predikci rychlosti skládání proteinů z aminokyselinových sekvencí spolu s informacemi o strukturní třídě a získal jsem vynikající shodu mezi predikovanými a experimentálně pozorovanými rychlostmi skládání proteinů, pro které jsou korelační koeficienty 0,99, 0,96 a 0,95. all-α, all-β a proteiny smíšené třídy. Toto je první dostupná metoda, která je schopna předpovídat rychlost skládání proteinu pouze z aminokyselinové sekvence pomocí obecných vlastností aminokyselin a informací o strukturní třídě.

Telefon korespondujícího autora: +81-3-3599-8046 fax: +81-3-3599-8081 e-mail: [email protected]


SKLÁDACÍ KÓD: JAKÁ ROVNOVÁHA SIL KÓDUJE NATIVNÍ STRUKTURY?

Anfinsen’ Termodynamická hypotéza

Velkým milníkem ve vědě o proteinech byla termodynamická hypotéza Christiana Anfinsena a kolegů (3, 92). Ze svých dnes již známých experimentů s ribonukleázou Anfinsen předpokládal, že přirozenou strukturou proteinu je termodynamicky stabilní struktura, která závisí pouze na sekvenci aminokyselin a na podmínkách roztoku, nikoli na kinetické cestě skládání. Stalo se široce uznávaným, že nativní struktura nezávisí na tom, zda byl protein syntetizován biologicky na ribozomu nebo s pomocí chaperonových molekul, nebo pokud byl protein jednoduše znovu složen jako izolovaná molekula ve zkumavce. [Existují však vzácné výjimky, jako je inzulín, α-lytická proteáza (203) a serpiny (227), ve kterých je biologicky aktivní forma kineticky zachycena.] Z Anfinsenovy práce vyplynuly dva silné závěry. Zaprvé to umožnilo velký výzkumný podnik in vitro skládání proteinů, který pochopil nativní struktury experimenty ve zkumavkách spíše než uvnitř buněk. Za druhé, Anfinsenův princip implikuje jakousi dělbu práce: Evoluce může změnit sekvenci aminokyselin, ale rovnováha skládání a kinetika dané sekvence jsou pak záležitostí fyzikální chemie.

Jedna dominantní hnací síla nebo mnoho malých?

Před polovinou 80. let byl kód skládání proteinů pozorován jako součet mnoha různých malých interakcí, jako jsou vodíkové vazby, iontové páry, van der Waalsovy přitažlivosti a hydrofobní interakce zprostředkované vodou. Klíčovou myšlenkou bylo, že primární sekvence kódovala sekundární struktury, které pak kódovaly terciární struktury (4). Prostřednictvím statistického mechanického modelování se však v 80. letech minulého století objevil jiný pohled, totiž že existuje dominantní složka skládacího kódu, že jde o hydrofobní interakci, že skládací kód je distribuován lokálně i nelokálně v sekvenci a že sekundární struktura proteinu je jak důsledkem terciární struktury, tak její příčinou (48, 49).

Protože nativní proteiny jsou pouze o 5� kcal/mol stabilnější než jejich denaturované stavy, je jasné, že žádný typ intermolekulární síly nelze při predikci skládání a struktury zanedbat (238). I když je stále náročné oddělit čistým a přísným způsobem některé typy interakcí od jiných, zde jsou některé z hlavních pozorování. Skládání pravděpodobně nebude dominovat elektrostatickými interakcemi mezi nabitými postranními řetězci, protože většina proteinů má relativně málo nabitých zbytků, které jsou koncentrovány v oblastech s vysokým dielektrikem na povrchu proteinu. Stability proteinů mají tendenci být nezávislé na pH (téměř neutrální) a koncentraci soli a nábojové mutace typicky vedou k malým účinkům na strukturu a stabilitu. Interakce vodíkových vazeb jsou důležité, protože v podstatě všechny možné interakce vodíkových vazeb jsou obecně splněny v nativních strukturách. Vodíkové vazby mezi amidovými a karbonylovými skupinami jsou klíčovými složkami všech sekundárních struktur a studie mutací v různých rozpouštědlech odhadují jejich sílu na přibližně 1𠄴 kcal/mol (21, 72) nebo silnější (5, 46). Podobně, těsné balení v proteinech znamená, že van der Waalsovy interakce jsou důležité (28).

Otázkou skládacího kódu však je, zda existuje dominantní faktor, který vysvětluje, proč kterékoli dva proteiny, například lysozym a ribonukleáza, mají různé nativní struktury. Tento kód musí být zapsán v postranních řetězcích, nikoli v páteřních vodíkových můstcích, protože právě prostřednictvím postranních řetězců se jeden protein od druhého liší. Existuje značný důkaz, že hydrofobní interakce musí hrát hlavní roli při skládání proteinů. (A) Proteiny mají hydrofobní jádra, což znamená, že nepolární aminokyseliny jsou řízeny tak, aby byly izolovány z vody. (b) Studie modelových sloučenin ukazují 1𠄲 kcal/mol pro přenos hydrofobního postranního řetězce z vody do média podobného oleji (234), a je jich mnoho. (C) Proteiny se snadno denaturují v nepolárních rozpouštědlech. (d) Sekvence, které jsou neuspořádané a zachovávají si pouze svůj správný hydrofobní a polární vzor, ​​se skládají do očekávaných nativních stavů (39, 98, 112, 118), bez snahy navrhnout balení, náboje nebo vodíkové vazby. Hydrofobní a polární vzorování se také zdá být klíčem ke kódování fibrilových struktur podobných amyloidu (236).

Co stabilizuje sekundární struktury? Než byla známa jakákoli struktura proteinu, Linus Pauling a kolegové (180, 181) odvodili z modelů vodíkových vazeb, že proteiny mohou mít α-helixy. Sekundární struktury jsou však v roztoku zřídkakdy stabilní samy o sobě. Ačkoli různé aminokyseliny mají různé energetické sklony k tomu, aby byly v sekundárních strukturách (6, 41, 55, 100), existuje také mnoho sekvencí “hameleon” v přírodních proteinech, což jsou peptidové segmenty, které mohou nabývat buď šroubovicové nebo β konformace v závislosti na jejich terciárním kontextu (158, 162). Studie mřížkových modelů (25, 29, 51) a trubkových modelů (11, 12, 159) ukázaly, že sekundární struktury v proteinech jsou v podstatě stabilizovány kompaktností řetězce, což je nepřímý důsledek hydrofobní síly ke kolapsu (obrázek 1). Stejně jako letištní bezpečnostní linky jsou spirálové a plechové konfigurace jedinými běžnými způsoby, jak zabalit lineární řetězec (lidí nebo monomerů) do těsného prostoru.

(A) Binární kód. Experimenty ukazují, že primárně binární hydrofobně-polární kód je dostatečný ke sbalení proteinů helix-bundle (112). Přetištěno z Reference 112 se svolením od AAAS.

(b) Kompaktnost stabilizuje sekundární strukturu v proteinech z mřížkových modelů. (C) Panel na podporu experimentů b, což ukazuje, že kompaktnost koreluje s obsahem sekundární struktury v nepřirozených stavech mnoha různých proteinů (218). Přetištěno z Reference 218 se svolením.

Navrhování nových proteinů a nebiologických Foldamerů

Přestože naše znalosti o silách skládání zůstávají neúplné, nezabránilo to vzniku úspěšného praktického designu proteinů. Nové proteiny jsou nyní navrženy jako varianty existujících proteinů (43, 94, 99, 145, 173, 243) nebo z rozšířených abeced nepřirozených aminokyselin (226) nebo de novo (129) (obrázek 2). Kromě toho se skládací kódy používají k navrhování nových polymerních materiálů nazývaných foldamery (76, 86, 120). Svazky skládané šroubovice byly nyní navrženy s použitím nebiologických páteří (134). Foldamery nacházejí uplatnění v biomedicíně jako antimikrobiální látky (179, 185), náhražky plicního surfaktantu (235), inhibitory cytomegaloviru (62) a činidla dodávající siRNA (217). Proto otázky hlubokého principu již nejsou překážkou při navrhování skládacích polymerů pro praktické aplikace a nových materiálů.

(A) Nový proteinový záhyb, nazvaný Top7, navržený Kuhlmanem et al. (129). Navržená molekula (modrý) a následně určená experimentální struktura (Červené). Z reference 129 přetištěno se svolením od AAAS. (b) Folamery se svazkem tří šroubovic byly vyrobeny s použitím nebiologických páteřních řetězců (peptoidů, tj. N-substituovaných glycinů).

(C) Jejich denaturace alkoholy naznačuje, že mají hydrofobní jádra charakteristická pro složenou molekulu (134).


Ne, DeepMind nevyřešil skládání proteinů

Tento týden společnost DeepMind oznámila, že pomocí umělé inteligence (AI) vyřešila 50 let starý problém „skládání proteinů“. Oznámení bylo učiněno, když byly zveřejněny výsledky 14. a nejnovější soutěže o kritické hodnocení technik pro predikci struktury proteinů (CASP14). Soutěž staví proti sobě týmy počítačových vědců, aby zjistili, čí metoda je nejlepší v předpovídání struktur proteinových molekul – a řešení DeepMind, ‘AlphaFold 2’, se ukázalo jako jasný vítěz.

Nevěřte všemu, co čtete v médiích

V médiích následovalo mnoho bez dechu zpráv o tom, že AI lze nyní použít k přesné předpovědi struktur proteinů – molekulárního aparátu každého živého tvora. Dříve byla pracná experimentální práce při řešení proteinových struktur doménou proteinových krystalografů, NMR spektroskopů a kryo-elektronových mikroskopů, kteří pracovali měsíce a někdy i roky, aby vypracovali každou novou strukturu.

Měli by nyní všichni experimentátoři opustit laboratoř a přenechat pole Deep Mind?

Ne, neměli by, a to z několika důvodů.

Za prvé, není pochyb o tom, že DeepMind udělali velký krok vpřed. Ze všech týmů, které mezi sebou soutěží, jsou tak daleko před týmem, že ostatní počítačoví modeláři možná uvažují o tom, že to vzdají. Ale ještě nejsme v bodě, kdy bychom mohli říci, že skládání proteinů je ‚vyřešeno‘. Za prvé, pouze dvě třetiny roztoků DeepMind byly srovnatelné s experimentálně stanovenou strukturou proteinu. To je působivé, ale musíte mít na paměti, že nevěděli přesně, které dvě třetiny jejich předpovědí byly nejblíže správné, dokud nebylo provedeno srovnání s experimentálními řešeními.* Koupili byste si navigaci, která by byla pouze 67% přesná?

Je tedy potřeba dávka realismu. I přes působivý výkon DeepMind’ je nyní těžké vidět, že to okamžitě změní biologii.

Působivé předpovědi –, ale jak víte, že’jsou správné?

Alphafold 2 jistě pomůže záloha biologie. Například, jak již bylo uvedeno, může generovat předpovědi složené struktury, které pak lze použít k řešení experimentálních struktur pomocí krystalografie (a pravděpodobně i jiných technik). Takže to pomůže vědě o určování struktury jít v některých případech o něco rychleji.

Navzdory některým tvrzením však nejsme v bodě, kdy lze tento nástroj umělé inteligence použít k objevování drog. Pro předpovědi struktury DeepMind’s (celkem 111) je průměrný nebo střední kvadratický rozdíl (RMSD) v atomových pozicích mezi předpovědí a skutečnou strukturou 1,6 Á (0,16 nm). To je přibližně velikost délky vazby.

To zní docela dobře, ale z oznámení DeepMind není jasné, jak se toto číslo vypočítává. To mohl lze vypočítat pouze porovnáním poloh alfa-uhlíkových atomů v proteinovém skeletu – rozumný způsob, jak odhadnout přesnost celkového složení proteinu. Nebo by se to dalo vypočítat přes všechny atomové pozice, což je mnohem přísnější test. Pokud je to druhé, pak RMSD 1,6 Å je ještě působivější výsledek.

Ale stále to není zdaleka dost dobré pro poskytování spolehlivých poznatků o chemii proteinů nebo designu léků. Abychom toho dosáhli, chceme si být jisti atomovými pozicemi v rozmezí přibližně 0,3 Å. Nejlepší předpověď AlphaFold 2’ má RMSD pro všechny atomy 0,9 Å. Mnohé z předpovědí přispívajících k jejich průměru 1,6 Å budou mít odchylky v atomových pozicích ještě větší. Takže navzdory tvrzením ještě nejsme připraveni použít Alphafold 2 k vytvoření nových léků.

Existují další důvody, proč nevěřit, že problém se skládáním proteinů je „vyřešen“ #8217. Metody umělé inteligence se spoléhají na učení pravidel skládání proteinů z existujících proteinových struktur. To znamená, že může být obtížnější predikovat struktury proteinů se záhyby, které nejsou dobře zastoupeny v databázi řešených struktur.

Také, jak je uvedeno v Nature, metoda zatím nemůže spolehlivě řešit předpovědi proteinů, které jsou součástí multiproteinových komplexů. Ty patří mezi nejzajímavější biologické entity v živých věcech (např. ribozomy, iontové kanály, polymerázy). Takže zbývá poměrně velké území, kam nás AlphaFold 2 nemůže vzít. Experimentalisté, kteří byli úspěšní při mapování struktur komplexů rostoucí složitosti, mají před sebou ještě mnoho cenné práce.

I když vše výše uvedené má znít jako varovný tón, který má čelit některým hyperboličtějším tvrzením, která v posledních dnech zazněla v médiích, přesto chci zdůraznit svůj obdiv k úspěchům týmu AlphaFold. Jednoznačně udělali velmi významný pokrok.

Tento pokrok bude mnohem jasnější, jakmile bude publikován jejich recenzovaný článek (neměli bychom soudit vědu podle tiskových zpráv) a jakmile bude nástroj otevřeně dostupný akademické komunitě – nebo vlastně komukoli, kdo chce studovat strukturu proteinů.

Aktualizace (2. prosince, 18:43): Tento příspěvek byl aktualizován, aby poskytl jasnější vysvětlení měření RMSD používaných k porovnání předpokládaných a experimentálně určených proteinových struktur. Jsem velmi vděčný prof. Leonidu Sazanovovi, který na Twitteru upozornil na některé nezbytné opravy a doplnění.

*Aktualizace (12. prosince, 15:35): To je přesně pravda, ale uniká důležitější bod, že skóre dané každé predikci struktury (GDT_TS) široce koreluje s blízkostí její shody s experimentální strukturou. V důsledku toho jsem smazal svůj crack SatNav.

Pro hluboce informované a velmi odměřené hodnocení toho, čeho DeepMind skutečně dosáhl v CASP14, si přečtěte tento blogpost od prof. Mohammeda AlQuraishiho, který zná toto území mnohem lépe než já. Jeho příspěvek je docela dlouhý, ale technické kousky vysvětlující, jak AlphaFold 2 funguje, můžete přeskočit. Podává velmi dobrý přehled o povaze pokroku DeepMind's z pohledu AlQuraishi, AlphaFold 2 představuje řešení problému predikce struktury proteinů, i když je opatrný, aby definoval, co tím řešením míní. Rovněž uznává, že v programu je stále třeba provést některá významná zlepšení, ale považuje je spíše za technickou než vědeckou výzvu. Souhlasí s tím, že AlphaFold 2 nebude v brzké době použit pro práci na designu léků. AlQuraishi také poskytuje vynikající přehled o důsledcích této práce pro proteinové složky, strukturální biology a biotechnology obecně a nabízí některé velmi zajímavé myšlenky o rozdílech mezi přístupem DeepMind’ k výzkumu a tradičními akademickými skupinami.


Villin čelenka

Je známo, že jeden z nejlépe prostudovaných příkladů rychle se skládajících proteinů, divoký typ villinové hlavice, se složí za 4-5 mikrosekund, navíc existuje rychle se skládající mutant, který se složí pod mikrosekundu. Vilínová čelenka byla cílem široké škály experimentálních a výpočetních snah charakterizovat její skládání, avšak v současné době žádné předpovědi v atomovém měřítku týkající se mechanismu skládání klbkové hlavice nepřežily experimentální zkoumání, a tudíž podrobnosti o skládání. tento zdánlivě jednoduchý modelový systém zůstává neznámý. Část výzev při výpočetním studiu skládání villin je nepochybně otázkou zdrojů i pro tento poměrně malý systém, až donedávna nebyly získány žádné trajektorie skládání v plné délce.

Provedli jsme řadu MD simulací skládání hlavičky klka v explicitním rozpouštědle, abychom mohli studovat mechanismus skládání klků a porozumět tomu, jak se urychluje skládání u rychle se skládajícího mutanta. Ve třech samostatných trajektoriích (filmy: 1, 2, 3) bylo zjištěno, že se villin divokého typu složí po 5–8 mikrosekundách, tyto trajektorie představují první celoatomové, explicitní solventní MD simulace skládání klků v realistických časových měřítcích. Raná stádia skládání se mezi trajektoriemi velmi lišila a v každém případě zkoumala řadu různých nepůvodních konformací. Téměř na konci však všechny trajektorie přijdou na společnou cestu: všechny prvky sekundární struktury proteinu se vytvoří, ale dosáhnou konformace, kde je jeden ze šroubovic převrácený vzhledem ke zbytku proteinu (klíčové kroky v přechodu jsou uvedeny níže). Ke skládání může dojít až poté, co se šroubovice od sebe úplně oddělí a poté se opět spojí ve správné (tj. složené) orientaci. Výsledky příkladu trajektorie zobrazené vpravo ilustrují skládání do přirozeného stavu za 5,5 mikrosekundy. Konzistentní dráha skládání následovaná trajektoriemi klků v pozdním skládání souhlasí s experimentálními zjištěními, že skládání proteinu dominuje jediný přechod omezující rychlost, a poskytuje informace o povaze tohoto přechodu, které není možné získat jinými prostředky. Na základě simulací jsme byli schopni identifikovat sadu mutací na převrácené šroubovici, které by destabilizovaly zachycený intermediát skládání, a proto se očekává, že urychlí skládání.

Klíčové kroky při přechodu z převrácené struktury na složenou v simulaci skládání klků WT. Kliknutím zobrazíte obrázek v plné velikosti.

Rychle se skládající padouchový mutant


Umělá inteligence přináší ohromující průlom ve skládání proteinů —, ale ne všichni výzkumníci jsou přesvědčeni

V každém biologickém těle jsou tisíce proteinů, z nichž každý je zkroucený a složený do jedinečného tvaru. Vznik těchto tvarů je pro jejich funkci zásadní a výzkumníci se po desetiletí snažili předpovědět, jak přesně toto skládání proběhne.

Nyní se zdá, že AlphaFold (stejná AI, která zvládla hry šachy a Go) tento problém vyřešila a v podstatě připravila cestu pro novou revoluci v biologii. Ale ne každý si to kupuje.

Předpověď AlphaFold proti skutečné věci.

O co jde

Proteiny jsou nezbytné pro život, podporují prakticky všechny jeho funkce, píše se v příspěvku na blogu DeepMind. Laboratoř britského výzkumu umělé inteligence (AI) vlastněná společností Google se v posledních letech proslavila tím, že se jejich algoritmus stal nejlepším šachistou na planetě a dokonce předčil lidi v Go —, což byl výkon, který se kdysi považoval za nemožný. Po hraní s několika dalšími hrami se tým DeepMind zaměřil na skutečný úkol: skládání proteinů.

V roce 2018 tým oznámil, že AlphaFold 2 (druhá verze algoritmu skládání proteinů) se stal docela dobrým v předpovídání 3D tvarů proteinů a překonal všechny ostatní algoritmy. Nyní, o dva roky později, se zdá, že algoritmus byl ještě dokonalejší.

V celosvětové soutěži nazvané Critical Assessment of protein Structure Prediction neboli CASP dostávají AlphaFold 2 a další systémy aminokyselinové řetězce pro proteiny a jsou požádány, aby předpověděly jejich tvar. Organizátoři soutěže již znají skutečný tvar proteinu, ale samozřejmě jej tají. Poté se předpověď porovná s výsledky v reálném světě. Generální ředitel DeepMind Demis Hassabis to ve videu nazývá „olympiáda skládání bílkovin“.

AlphaFold to zvládl. Ne všechny jeho předpovědi byly na místě, ale všechny byly velmi blízko — bylo to nejblíže k dokonalosti, jaké kdy bylo od začátku CASP vidět.

„Překvapivě přesné modely AlphaFold nám umožnily vyřešit proteinovou strukturu, na které jsme byli téměř deset let,“ řekl Andrei Lupas, ředitel Institutu Maxe Plancka pro vývojovou biologii a hodnotitel CASP, na blogu DeepMind.

CASP používá metriku „Global Distance Test (GDT)“, která posuzuje přesnost od 0 do 100. AlphaFold 2 dosáhl středního skóre 92,4 napříč všemi cíli, což se promítá do průměrné chyby přibližně 1,6 angstromů nebo přibližně šířky atomu .

Zlepšení byla v soutěži o skládání proteinů pomalá. Obrazové kredity: DeepMind.

Není to dokonalé. Dokonce i jeden Angstrom může být velkou chybou a učinit protein nepoužitelným, nebo dokonce ještě horším. Ale skutečnost, že je to tak blízko, naznačuje, že řešení je v nedohlednu. Problém se tak dlouho zdál neřešitelný, že výzkumníci byli pochopitelně nadšeni.

“U tohoto jediného problému – jak se skládají bílkoviny – jsme uvízli téměř 50 let. Vidět, jak DeepMind vyrábí řešení tohoto problému, protože na tomto problému tak dlouho osobně pracoval a po tolika zastávkách a rozjezdech a přemýšlel, jestli se tam někdy dostaneme, je velmi zvláštní okamžik.”

Proč je skládání proteinů tak důležité

Může trvat roky, než výzkumný tým identifikuje tvar jednotlivých proteinů — a tyto tvary jsou klíčové pro biologický výzkum a vývoj léků.

Tvar proteinu je úzce spojen se způsobem, jakým funguje. Pokud rozumíte jeho tvaru, máte také docela dobrou představu o tom, jak funguje.

Mít metodu, jak to předvídat rychle a bez tvrdé a rozsáhlé práce, by mohlo znamenat revoluci v biologii. Nejde jen o vývoj nových léků a léčebných postupů, i když to by byla dostatečná motivace. Vývoj enzymů, které by mohly rozkládat plasty, výroba biopaliv, dokonce i vývoj vakcín, to vše by mohly být dramaticky urychleny algoritmy pro predikci skládání proteinů.

Skládání proteinů se v podstatě stalo překážkou biologického výzkumu a je to přesně ten druh oblasti, kde umělá inteligence může přinést velký rozdíl a odemknout nové možnosti, které se ještě před několika lety zdály nemožné.

Na základní úrovni nás zvládnutí skládání proteinů může dokonce přiblížit k pochopení biologických stavebních kamenů, které tvoří svět. Profesor Andrei Lupas, ředitel Institutu Maxe Plancka pro vývojovou biologii a posuzovatel CASP, uvedl, že:

"Překvapivě přesné modely AlphaFold nám umožnily vyřešit proteinovou strukturu, na které jsme byli uvízli téměř deset let, a znovu zahájili naši snahu pochopit, jak se signály přenášejí přes buněčné membrány."

Proč ne každý je přesvědčen

Upřímně řečeno, humbuk neslouží nikomu. DeepMind nyní nikdy nemůže dostát slibu, který byl učiněn, a během tohoto procesu vláčel experimentátory bahnem. Dokud DeepMind nesdílí svůj kód, nikoho to v terénu nezajímá a jen je poplácá po zádech

&mdash Mike Thompson (@mctucsf) 1. prosince 2020

Oznámení úspěchů DeepMind’ vyvolalo vlnu ve vědeckém světě, ale ne všichni byli nadšeni. Hrstka výzkumníků poukázala na to, že to, že to funguje v nastavení CASP, ve skutečnosti neznamená, že to bude fungovat v reálném životě, kde jsou možnosti mnohem rozmanitější.

Max Little, docent a docent informatiky na University of Birmingham, v rozhovoru pro Business Insider vyjádřil skepticismus ohledně aplikací v reálném světě. Profesor Michael Thompson, odborník na strukturální biologii z Kalifornské univerzity, na Twitteru vyjádřil to, co považuje za neoprávněný humbuk (viz výše), přičemž zdůraznil, že tým z DeepMind svůj kód nesdílel a nesdílel. #8217t dokonce zveřejnil vědeckou práci s výsledky. Thompson řekl: „Pokrok v předpovědi je působivý.” Dodal: “Udělat velký krok vpřed však není totéž jako ‘vyřešit’ desetiletí starý problém v biologii a chemické fyzice.&# 8221

Lior Pachter, profesor výpočetní biologie na California Institute of Technology, tyto pocity zopakoval. Je to důležitý krok, tvrdil, ale skládání proteinů není vyřešeno žádnými prostředky.

Kamarád (který nepracuje ve vědě) se mě dnes zeptal, zda je pravda, že "skládání proteinů bylo vyřešeno". Moje stručná odpověď:

Metoda AlphaFold přinesla na CASP14 velmi působivé výsledky. Skládání proteinů není vyřešený problém. pic.twitter.com/ZMc4grC5iP

&mdash Lior Pachter (@lpachter) 1. prosince 2020

Jak velký tento úspěch je, se teprve uvidí, ale je to důležitý, bez ohledu na to, jak se na něj díváte. Zda je to odrazový můstek nebo skutečný průlom, není v tuto chvíli zcela jasné, ale výzkumníci to jistě pomohou co nejrychleji objasnit.

Mezitím, pokud se chcete hlouběji podívat na to, jak se AlphaFold zrodil a vyvinul, zde je video, ve kterém se budete cítit dobře:


Počítačová simulace vysvětluje skládání v buněčném proteinu

Athens, Ga. – Most parts of living organisms come packaged with ribbons. The ribbons are proteins-chains of amino acids that must fold into three-dimensional structures to work properly. But when for any reason the ribbons fold incorrectly, bad things can happen, and in humans misfolded-protein disorders include Alzheimer’s and Parkinson’s diseases.

Scientists have for the past three decades tried to understand what makes proteins fold into functional units and why it happens, and several breakthroughs have occurred through computer modeling-a field that dramatically increases analytical speed.

Now, scientists at the University of Georgia have created a two-step computer simulation (using an important process called the Wang-Landau algorithm) that sheds light on how a crucial protein-glycophorin A-becomes an active part of living cells. The new use of Wang-Landau could lead to a better understanding of the controlling mechanisms behind protein folding.

“Our goal is to present the methodology in a clear, self-consistent way, accessible to any scientist with knowledge of Monte Carlo simulations,” said David Landau, distinguished research professor of physics at the University of Georgia and director of the Center for Simulational Physics.

The research was just published in Journal of Chemical Physics. Authors of the paper are Clare Gervais and Thomas Wüst, formerly of UGA and now employed in Switzerland Landau, and Ying Xu, Regents-Georgia Research Alliance Eminent Scholar and professor of bioinformatics and computational biology, also at UGA. The research was supported by grants from the National Institutes of Health and the National Science Foundation. Landau and Xu are in UGA’s Franklin College of Arts and Sciences.

“This work demonstrates the power and potential of combining expertise from computational physics and computational biology in solving challenging biological problems,” said Xu.

Monte Carlo simulations-the use of algorithms with repeated random samplings to produce reliable predictions-have been around for some decades but have been steadily refined. These simulations are useful for extremely complex problems with multiple variables, and though they often require considerable computer “brain power,” they are able to give scientists startlingly accurate predictions of how biological processes work.

In the current paper, the research team developed a two-step Monte Carlo procedure to investigate, for glycophorin A (GpA), an important biochemical process called dimerization. (A dimer in biology or chemistry consists of two structurally similar units that are held together by intra- or intermolecular forces.)

“One particularly promising approach is to investigate the thermodynamics of protein folding through examining the energy landscape,” Landau explained. “By doing this, we can learn about the characteristics of proteins including possible folding pathways and folding intermediates. Thus, it allows us to bridge the gap between statistical and experimental results.”

Unfortunately, so much is happening physically and biochemically as proteins fold into their functional shapes (called the native state) that the problems must be broken down one by one and studied. That led the team to a question: Could they use a Monte Carlo Simulation along with the Wang-Landau algorithm to discover an efficient simulation method capable of sampling the energy density states that allow such folding?

Perhaps remarkably, they did. The first step in studying the dimerization process was to estimate those states in GpA using Wang-Landau. The second step was to sample various energy and structural “observables” of the system to provide insights into the thermodynamics of the entire system.

The results could be broadly applied to many fields of protein-folding studies that are important to understanding-and treating-certain diseases. (Wang-Landau, named for David Landau and Fugao Wang, is a Monte Carlo algorithm that has proved to be useful in studying a variety of physical systems. Wang was a doctoral student at UGA and now works for the Intel Corp.)

GpA is a 131-amino acid protein that spans the human red-blood cell membrane and is crucial in cell procedures. Because it has been studied in depth for many years, it also serves as an important model system for how similar systems work. That’s why the new simulation may open doors in many other areas of inquiry.

“The main advantage of this two-step approach lies in its flexibility as well as its generality,” said Landau. “This method is widely applicable to any study of biological systems, such as the folding process of soluble proteins, polymers, DNA or protein complexes. Therefore, it is an excellent alternative to other simulation methods used traditionally in the field of protein-folding thermodynamics.”

In the current study, the team discovered something generally important about membrane proteins in general, too. They found that unlike some proteins for which folding is mainly governed by their attraction to or repulsion by water, the process in GpA is driven by a subtle interplay between multiple types of interactions.


Part B: How to (almost) Fold (almost) Anything

In this part you will be folding protein sequences into 3D structures. The goal is to get an understanding on how computational protein modeling works as well as to see first hand the great computing power needed for molecular simulations in biology.

For questions 1 and 2 you will be using the Python version of the Rosetta protein structure prediction software, while for question 3 (extra credit) you can use any of the available software listed in the resources.

The files for this exercise are available to clone or download from the followign GitHub repository: https://github.com/thrakar9/protein_folding_workshop.

Otázky

Folding a small (30 aa) peptide. Follow the "Setting up PyRosetta" instructions below and make sure you have a working PyRosetta installation.

A. Open the "Protein Folding with Pyrosetta" Jupyter notebook. Execute interactively the code in the notebook and answer the questions therein. When you are done, save the notebook (with the answers and all outputs) to an HTML file, and link it to your class page.

b. Pick the lowest energy model and structurally (visually) compare it to the native. How close is it to the native? If its different, what parts did the computer program get wrong? Poznámka: To compare the structures you have first to align them to the native. You can do that very easily in PyMOL. Here is a short video tutorial on aligning structures with PyMOL

C. Pick the lowest RMSD model and structurally compare it to the native. How close is it to the native? If its different than the lowest energy model, how is it different? Remember that in a blind case, we will not have the benefit of an RMSD column.

Fold your own sequence! In question 1 we used the sequence from a human protein as input to the folding algorithm. Yet, in principle, you can give any arbitrary sequence of amino acids as an input.

A. Use any process to create a sequence of 30-50 amino acids, and predict it's 3D structure using the notebook from Q1. You can try to run the script with multiple parameter combinations and compare the results. Log the parameters that had the best outcome.

b. Compare the resulting structures of 2(a) with those from question 1. Do the structures in both cases look protein-like ? If not, can you think of an explanation?

C. Try folding multiple sequences to come up with the most protein-looking structure!

Folding protein homologs (extra credit) For this exercise you will be running multiple protein folding simulations. If you don't have access to a powerful machine, use any of the folding servers listed in the resources.

A. Take the protein sequence from question 1 and randomly change 5 letters to any other amino acid. Predict the protein structure of the unedited (probably done already in Q.1) and edited protein and compare the results. Did the changes you introduced changed the structure significantly?

b. Take again the original sequence from Q.1 and now change 5 letters to favorable alternatives according to the BLOSUM matice. Predict the protein structure for the new sequence and compare with the results of 3(a). Did the new changes have the same effect to the structure?

C. Pomocí BLOSUM matrix as a guide, try to introduce as many changes as possible to the protein sequence, without significantly changing it's structure.


How can computer predictions of protein folding be verified computationally? - Biologie

Interplay between accurate protein structure prediction and successful de novo protein design.

Reviews current state-of-the-art structural protein prediction methods and challenges.

Reviews features of successful de novo protein designs.

Biotechnology applications in therapeutics, biocatalysts, and nanomaterials are summarized.

In the postgenomic era, the medical/biological fields are advancing faster than ever. However, before the power of full-genome sequencing can be fully realized, the connection between amino acid sequence and protein structure, known as the protein folding problem, needs to be elucidated. The protein folding problem remains elusive, with significant difficulties still arising when modeling amino acid sequences lacking an identifiable template. Understanding protein folding will allow for unforeseen advances in protein design often referred to as the inverse protein folding problem. Despite challenges in protein folding, de novo protein design has recently demonstrated significant success via computational techniques. We review advances and challenges in protein structure prediction and de novo protein design, and highlight their interplay in successful biotechnological applications.


Podívejte se na video: BIC 07: Nukleové kyseliny (Prosinec 2022).