Informace

Jak interpretovat matici procent identity vytvořenou Clustal Omega?

Jak interpretovat matici procent identity vytvořenou Clustal Omega?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Provedl jsem vícenásobné zarovnání sekvencí pomocí Clustal omega. ověřena podobnost pro 3 proteinové sekvence: aspartylaminopeptidáza [Homo sapiens], aminopeptidáza P (APP) [Plasmodium falciparum 3D7], kvasinková aminopeptidáza (S000001586)APE1. Mám Procentní matici identity jako

Procentní identitní matice - vytvořil Clustal2.1

1: PF3D7_1454400 100,00 16,18 20,35 2: gi|5902181|gb|AAD01211,2| 16,18 100,00 29,66 3: S000001586 20,35 29,66 100,00

Moje pochybnosti:

  1. Chtěl bych vědět, jak interpretovat tento výsledek matice
  2. Když se vrátím k výsledkům zarovnání sekvence, když kliknu na „Zobrazit barvy“, shrnutí zarovnání je vybarveno ve 4 barvách - červené, zelené, modré a růžové. Může mi někdo pomoci s dekódováním barevné reference souhrnu zarovnání?

dík


Gen-1 Gen-2 Gen-3 Gen-1 100,00 16,18 20,35 Gen-2 16,18 100,00 29,66 Gen-3 20,35 29,66 100,00

Gene-1 a Gene-1 mají 100% podobnost (a všechny ostatní diagonální prvky). Gene-1 a Gene-2 ​​mají 16,15% podobnost atd. Matice je proto symetrickáM (i, j) = M (j, i).

Můžete také zobrazit pouze horní trojúhelníkovou část této matice a to by stačilo.

Gen-1 Gen-2 Gen-3 Gen-1 100,00 16,18 20,35 Gen-2 100,00 29,66 Gen-3 100,00

Barvy v zásadě označují typ (molekulární povahu) zbytku. Podívejte se na toto a toto.


Úvod

Clustal Omega je nejnovějším přírůstkem do rodiny Clustal. Nabízí výrazné zvýšení škálovatelnosti oproti předchozím verzím, což umožňuje zarovnání stovek tisíc sekvencí během několika hodin. Bude také využívat více procesorů, pokud jsou k dispozici. Kromě toho je kvalita zarovnání lepší než předchozí verze, měřeno řadou oblíbených benchmarků.

Vezměte prosím na vědomí, že Clustal Omega je v současné době nástroj pouze pro příkazový řádek.


Webové rozhraní pro Clustal Omega je dostupné na: https://www.ebi.ac.uk/Tools/msa/clustalo/

Jak nástroj používat

Spuštění nástroje z webového formuláře je jednoduchý proces s několika kroky, který začíná v horní části stránky a postupuje podle pokynů až do spodní části.

Každý nástroj má alespoň 2 kroky, ale většina z nich má více:

  • První kroky jsou obvykle tam, kde uživatel nastaví vstup nástroje (např. sekvence, databáze. )
  • V následujících krocích má uživatel možnost změnit výchozí parametry nástroje
  • A konečně, posledním krokem je vždy krok odeslání nástroje, kde uživatel může určit název, který má být spojen s výsledky, a e -mailovou adresu pro e -mailové oznámení. Pomocí tlačítka Odeslat efektivně odešlete informace uvedené dříve ve formuláři pro spuštění nástroje na serveru

Upozorňujeme, že parametry jsou ověřovány před spuštěním nástroje na serveru a v případě chybějící nebo nesprávné kombinace parametrů bude uživatel upozorněn přímo ve formuláři.

Krok 1 - Sekvence

Okno pro zadávání sekvencí

Přímo do tohoto pole lze zadat tři nebo více sekvencí, které mají být zarovnány. Sekvence mohou být ve formátu GCG, FASTA, EMBL (pouze nukleotidy), GenBank, PIR/NBRF, PHYLIP nebo UniProtKB/Swiss-Prot (pouze proteiny). (Viz příklady vstupních formátů). Částečně formátované sekvence nejsou akceptovány. Přidání návratu na konec sekvence může pomoci určitým aplikacím porozumět vstupu. Přímé používání dat z textových procesorů může přinést nepředvídatelné výsledky, protože mohou být přítomny skryté/řídicí znaky.

Nahrání sekvenčního souboru

Soubor obsahující tři nebo více platných sekvencí v libovolném formátu (GCG, FASTA, EMBL (pouze Nucleotide), GenBank, PIR, NBRF, PHYLIP nebo UniProtKB/Swiss-Prot (pouze protein)) lze nahrát a použít jako vstup pro více zarovnání sekvence. (Viz příklady vstupních formátů). Soubory textového procesoru mohou přinést nepředvídatelné výsledky, protože v souborech mohou být skryté/řídicí znaky. Nejlepší je ukládat soubory s možností formátu Unix, abyste se vyhnuli skrytým znakům Windows.

Typ sekvence

Definuje typ sekvencí, které mají být zarovnány

Krok 2 - Nastavte své parametry

Dealignovat vstupní sekvence

Odstraňte veškeré existující zarovnání (mezery) ze vstupních sekvencí.

Výchozí hodnota je: no [false]

Formát výstupního zarovnání

Formát pro generované vícenásobné zarovnání. (Viz příklady výstupních formátů).

Clustální formát zarovnání s číslováním bází/zbytků

Výchozí hodnota je: ClustalW s počtem znaků [clustal_num]

Strom stromů klastrování podobný mBed

Tato možnost používá vzorek vstupních sekvencí a poté představuje všechny sekvence jako vektory těchto sekvencí, což umožňuje mnohem rychlejší generování vodicího stromu, zvláště když je počet sekvencí velký.

Výchozí hodnota je: ano [true]

Iterace shlukování podobná mBed

Během následných iterací použijte klastrování podobné mBed.

Výchozí hodnota je: ano [true]

Počet kombinovaných iterací

Počet iterací (kombinovaný vodicí strom/HMM). Hodnoty 0-5.

Výchozí hodnota je: default(0) [0]

Maximální počet iterací stromu průvodce

Po nastavení počtu kombinovaných iterací lze tento parametr změnit, aby se omezil počet iterací vodicích stromů v rámci kombinovaných iterací. Hodnoty - 1 (vypnuto) nebo 1-5.

Výchozí hodnota je: výchozí [-1]

Max Iterace HMM

Po nastavení počtu kombinovaných iterací lze tento parametr změnit, aby se omezil počet iterací HMM v rámci kombinovaných iterací. Hodnoty - 1 (vypnuto) nebo 1-5.

Výchozí hodnota je: výchozí [-1]

Objednat

Pořadí, ve kterém se sekvence objeví v konečném zarovnání

ObjednatPopisZkratka
zarovnanýUrčeno zarovnánímzarovnaný
vstupPořadí zadávání je zachovánovstup

Krok 3 - Podání

Pracovní pozice

Výsledek nástroje je možné identifikovat zadáním názvu. Tento název bude spojen s výsledky a může se objevit v některých grafických znázorněních výsledků.

Email upozornění

Spuštění nástroje je obvykle interaktivní proces, výsledky jsou dodávány přímo do prohlížeče, jakmile jsou k dispozici. V závislosti na nástroji a jeho vstupních parametrech to může trvat poměrně dlouho. Je možné být informováni e-mailem, když je úloha dokončena, jednoduše zaškrtnutím políčka „Být upozorněno e-mailem“. E -mail s odkazem na výsledky bude odeslán na e -mailovou adresu uvedenou v odpovídajícím textovém poli. E -mailová oznámení vyžadují platné e -mailové adresy.

Emailová adresa

Je-li požadováno upozornění e-mailem, musí být uvedena platná internetová e-mailová adresa ve tvaru [email protected] To není vyžadováno při interaktivním spouštění nástroje (výsledky budou doručeny do okna prohlížeče, jakmile budou připraveny).


Výsledek

Přesnost zarovnání

Standardní metodou měření přesnosti více algoritmů zarovnání je použití srovnávacích testovacích sad referenčních zarovnání generovaných odkazem na trojrozměrné struktury. Zde uvádíme výsledky z řady balíčků testovaných na třech benchmarcích: BAliBASE (Thompson a kol(2005), Prefab (Edgar, 2004) a rozšířená verze HomFam (Blackshields a kol, 2010). Pro tyto testy pouze hlásíme výsledky s použitím výchozího nastavení pro všechny programy, ale se dvěma výjimkami, které byly potřeba k tomu, aby umožnily MUSCLE (Edgar, 2004) a MAFFT sladit největší testovací případy v HomFam. Pro testovací případy se sekvencemi & gt3000 spouštíme MUSCLE s parametrem –maxiter nastaveným na 2, abychom zarovnání dokončili v rozumných časech. Za druhé, spustili jsme několik různých programů z balíčku MAFFT. MAFFT (Katoh a kol, 2002) se skládá ze série programů, které lze spustit samostatně nebo je lze automaticky volat ze skriptu s -auto sada vlajek. Tento příznak volí spuštění pomalého programu založeného na konzistenci (L-INS-i), když je počet a délka sekvencí malá. Když čísla překročí vestavěné prahy, použije se konvenční progresivní zarovnávač (FFT-NS-2). Ten je také programem, který je ve výchozím nastavení spuštěn, pokud je MAFFT volán bez nastavených příznaků. U velmi velkých datových sad je --parttree příznak musí být nastaven na příkazovém řádku a následně je použit velmi rychlý výpočet vodícího stromu.

Výsledky srovnávacích testů BaliBASE jsou uvedeny v tabulce I. BALIBASE je rozdělena do šesti „referencí.“ Pro každou referenci jsou uvedena průměrná skóre spolu s celkovým počtem běhů a průměrným celkovým skóre ve sloupci (TC), které udávají podíl celkem zarovnané sloupce, které jsou obnoveny. Skóre 1,0 znamená perfektní shodu s benchmarkem. Balíček MAFFT obsahuje dva řádky: MAFFT (auto) a MAFFT default. Ve většině (203 z 218) testovacích případů BAliBASE je počet sekvencí malý a skript spouští L-INS-i, což je pomalu přesný program, který používá heuristiku konzistence (Notredame a kol, 2000), který také používá MSAprobs (Liu a kol, 2010), Probalign, Probcons (Do a kol(2005) a T-Coffee. Všechny tyto programy jsou omezeny na malý počet sekvencí, ale mají tendenci poskytovat přesné zarovnání. To se jasně odráží v časech a průměrných skóre v tabulce I. Časy se pohybují od 25 minut do 22 hodin pro tyto balíčky a přesnosti se pohybují od 55 do 61% správných sloupců. Clustal Omega trvá pouze 9 minut na stejné běhy, ale má úroveň přesnosti, která je podobná jako u Probcons a T-Coffee.

Aligner Av skóre (218 rodin) BB11 (38 rodin) BB12 (44 rodin) BB2 (41 rodin) BB3 (30 rodin) BB4 (49 rodin) BB5 (16 rodin) Celkový čas (s) Konzistence
MSAprobs 0.607 0.441 0.865 0.464 0.607 0.622 0.608 12 382.00 Ano
Probalign 0.589 0.453 0.862 0.439 0.566 0.603 0.549 10 095.20 Ano
MAFFT (automaticky) 0.588 0.439 0.831 0.450 0.581 0.605 0.591 1475.40 Většinou (203/218)
Probcons 0.558 0.417 0.855 0.406 0.544 0.532 0.573 13 086.30 Ano
Clustal Ω 0.554 0.358 0.789 0.450 0.575 0.579 0.533 539.91 Ne
T-káva 0.551 0.410 0.848 0.402 0.491 0.545 0.587 81 041.50 Ano
Kalign 0.501 0.365 0.790 0.360 0.476 0.504 0.435 21.88 Ne
SVAL 0.475 0.318 0.804 0.350 0.409 0.450 0.460 789.57 Ne
MAFFT (výchozí) 0.458 0.258 0.749 0.316 0.425 0.480 0.496 68.24 Ne
FSA 0.419 0.270 0.818 0.187 0.259 0.474 0.398 53 648.10 Ne
Dialign 0.415 0.265 0.696 0.292 0.312 0.441 0.425 3977.44 Ne
ŽERT 0.376 0.223 0.680 0.257 0.321 0.360 0.356 128 355.00 Ne
ClustalW 0.374 0.227 0.712 0.220 0.272 0.396 0.308 766.47 Ne
  • Čísla jsou celková skóre sloupců vytvořená pomocí skóre bali pouze na základních sloupcích. Průměrné skóre ze všech rodin je uvedeno ve druhém sloupci. Výsledky pro podskupiny BAliBASE jsou ve sloupcích 3–8. Celková doba běhu pro všech 218 rodin je uvedena ve druhém posledním sloupci. Poslední sloupec označuje, zda je metoda založená na konzistenci.

Zbytek tabulky zabírají hlavně programy, které používají progresivní zarovnání. Některé z nich jsou velmi rychlé, ale této rychlosti odpovídá značný pokles přesnosti ve srovnání s programy založenými na konzistenci a Clustal Omega. Nejslabším programem je Clustal W (Larkin a kol(2007) a poté PRANK (Löytynoja a Goldman, 2008). PRANK není určen k zarovnání vzdáleně souvisejících sekvencí, ale poskytuje dobré zarovnání pro fylogenetickou práci se zvláštním důrazem na mezery. Tyto pozice mezer nejsou v těchto testech zahrnuty, protože obvykle nejsou strukturálně konzervovány. Dialign ( Morgenstern a kol, 1998) nepoužívá konzistenci ani progresivní zarovnání, ale je založeno na nalezení nejlepších lokálních vícenásobných zarovnání. FSA (Bradley a kol, 2009) používá vzorkování párových zarovnání a „hybridizaci sekvencí“ a v minulosti bylo prokázáno, že přináší dobré srovnání nukleotidových sekvencí.

Výsledky benchmarkových testů montovaných staveb jsou uvedeny v tabulce II. Zde jsou výsledky rozděleny do pěti skupin podle procentuální identity sekvencí. Celkové skóre se pohybuje od 53 do 73 % správných sloupců. Programy založené na konzistenci MSAprobs, MAFFT L-INS-i, Probalign, Probcons a T-Coffee jsou opět nejpřesnější, ale s dlouhou dobou běhu. Clustal Omega se blíží programům konzistence v přesnosti, ale je mnohem rychlejší. Pak je zde mezera k rychlejším progresivním programům MUSCLE, MAFFT, Kalign (Lassmann a Sonnhammer, 2005) a Clustal W.

zarovnávač 0 & lt%ID⩽100 (1682 rodin) 0⩽%ID⩽20 (912 rodin) 20⩽%ID⩽40 (563 rodin) 40⩽%ID⩽70 (117 rodin) 70⩽%ID⩽100 (90 rodin) Celkový čas (s) (1682 rodin) Konzistence
MSAprobs 0.737 0.591 0.889 0.965 0.971 51 286.00 Ano
MAFFT (auto) 0.721 0.569 0.876 0.961 0.979 4544.45 Ano
Probalign 0.719 0.563 0.881 0.961 0.977 35 117.30 Ano
Probcons 0.717 0.562 0.876 0.955 0.972 46 908.30 Ano
T-Coffee 0.710 0.558 0.865 0.950 0.972 175 789.00 Ano
Clustal Ω 0.700 0.535 0.866 0.967 0.980 1698.06 Ne
SVAL 0.677 0.507 0.850 0.946 0.976 2068.56 Ne
MAFFT 0.677 0.513 0.836 0.961 0.979 225.56 Ne
Kalign 0.649 0.474 0.817 0.957 0.979 80.81 Ne
ClustalW2 0.617 0.430 0.797 0.933 0.975 3433.53 Ne
Dialign 0.595 0.398 0.783 0.940 0.974 18 909.70 Ne
ŽERT 0.586 0.390 0.767 0.951 0.978 351 498.00 Ne
FSA 0.534 0.277 0.791 0.965 0.976 229 391.00 Ne
  • Celkové skóre sloupce (TC) jsou uvedeny pro různá rozmezí procent identity, druhý sloupec je průměrné skóre ze všech testovacích případů. Celková doba běhu v sekundách je uvedena v předposledním sloupci. Poslední sloupec označuje, zda je metoda založená na konzistenci.

Výsledky z testování velkých zarovnání až s 50 000 sekvencemi jsou uvedeny v tabulce III pomocí HomFam. Zde je každé zarovnání tvořeno jádrem Homstradu (Mizuguchi a kol, 1998) uspořádání založené na struktuře alespoň pěti sekvencí. Tyto sekvence jsou poté vloženy do testovací sady sekvencí z odpovídající homologní domény Pfam. To poskytuje velmi velké sady sekvencí, které mají být zarovnány, ale testování se provádí pouze na sekvencích se známými strukturami. Pouze některé programy jsou schopny poskytnout zarovnání s datovými sadami této velikosti. Omezili jsme srovnání na Clustal Omega, MAFFT, MUSCLE a Kalign. MAFFT s výchozím nastavením má limit 20 000 sekvencí a pro poslední část tabulky III používáme pouze MAFFT s --parttree. Když získáte více než 3000 sekvencí, bude MUSCLE stále pomalejší. Proto jsme pro sekvence >3000 použili MUSCLE s rychlejším, ale méně přesným nastavením –maxiters 2, které omezuje počet iterací na dvě.

93⩽N⩽2957 (41 rodin) 3127⩽N⩽9105 (33 rodin) 10 099⩽N1550 157 (18 rodin)
zarovnávač TC/t TC/t TC/t (s)
Clustal Ω 0.708/2114.0 0.639/11 719.5 0.464/27 328.9
Kalign 0.569/324.9 0.563/6752.0 0.420/286 711.0
Výchozí MAFFT 0.550/238.9 0.462/3115.4 −/−
MAFFT – parttree −/− −/− 0.253/6119.4
MUSCLE výchozí 0.533/104 587.0 −/− −/−
MUSCLE –maxitery 2 −/− 0.416/8239.2 0.216/110 292.0
  • Sloupce ukazují celkové skóre kolony (TC) a celkovou dobu běhu v sekundách pro skupiny testovacích případů HomFam malých (<3 000 sekvencí), středních (3 000–10 000 sekvencí) a velkých (> 10 000 sekvencí).

Celkově je Clustal Omega snadno nejpřesnějším programem v tabulce III. Doby běhu ukazují, že výchozí nastavení MAFFT a Kalign jsou výjimečně rychlé v menších testovacích případech a MAFFT --parttree je velmi rychlé v největších rodinách. Clustal Omega se však dobře stupňuje s rostoucím počtem sekvencí. Toto škálování je podrobněji popsáno v Doplňkových informacích. Máme ještě dva další testovací případy s více než 50 000 sekvencemi, ale nebylo možné pro ně získat výsledky z MUSCLE nebo Kalign. Ty jsou také popsány v doplňkových informacích.

Tabulka III uvádí celkové doby běhu pro čtyři programy hodnocené pomocí HomFam. Obrázek 1 řeší tyto doby běhu případ od případu. Kalign je velmi rychlý pro malé rodiny, ale také se neškáluje. Celkově je MAFFT rychlejší než ostatní programy ve všech velikostech testovacích případů, ale Clustal Omega se škáluje podobně. Body na obrázku 1 představují různé rodiny s různými průměrnými délkami sekvencí a párovými identitami. Trend škálovatelnosti je proto nejasný, přičemž větší tečky se obvykle vyskytují nad menšími tečkami. Doplňkový obrázek S3 ukazuje data škálovatelnosti, kde jsou podmnožiny rostoucí velikosti vzorkovány pouze z jedné velké rodiny. To snižuje variabilitu párových identit a délky sekvence.

Zarovnání externího profilu

Clustal Omega může číst další informace z profilu HMM odvozeného z již existujících zarovnání. Například, pokud si uživatel přeje zarovnat sadu globinových sekvencí a má existující globinové zarovnání, lze toto zarovnání převést na profilový HMM a použít jej stejně jako vstupní soubor sekvence. Tento HMM je zde označován jako „externí profil“ a jeho použití tímto způsobem jako „zarovnání externího profilu“ (EPA). Během EPA je každá sekvence ve vstupní sadě zarovnána s externím profilem. Informace o pseudoúčtu z externího profilu jsou poté přeneseny, pozice po pozici, do vstupní sekvence. V ideálním případě by to bylo použito s velkými upravenými zarovnáními konkrétních proteinů nebo požadovaných domén, jaké se používají v metagenomických projektech. Spíše než brát vstupní sekvence a zarovnávat je od začátku, pokaždé, když jsou nalezeny nové sekvence, by se zarovnání mělo pečlivě udržovat a používat jako externí profil pro EPA. Clustal Omega také může zarovnat sekvence k existujícím zarovnáním pomocí konvenčních metod zarovnání. Uživatelé mohou přidávat sekvence k zarovnání, jeden po druhém nebo zarovnat sadu zarovnaných sekvencí k zarovnání.

V tomto příspěvku demonstrujeme přístup EPA na dvou příkladech. Nejprve vezmeme 94 testovacích případů HomFam z předchozí části a použijeme odpovídající Pfam HMM pro EPA. Před EPA byla průměrná přesnost testovacích případů 0,627 správně zarovnaných poloh Homstradu, ale po EPA stoupá na 0,653. Toto je zakresleno, testovací případ pro testovací případ na obrázku 2A. Každý bod je jeden testovací případ se skóre TC pro Clustal Omega vyneseným proti skóre pomocí EPA. Druhý příklad je znázorněn na obrázku 2B. Zde vezmeme všechny referenční sady BAliBASE a zarovnáme je jako normální pomocí Clustal Omega a získáme výsledek benchmarku 0,554 sloupců správně zarovnaných, jak již bylo uvedeno v tabulce I. Pro EPA používáme samotné referenční srovnání referenčních hodnot jako externí profily. Výsledky nyní skočí na 0,857 správných sloupců. Jedná se o skok o více než 30 % a ačkoli to není platným měřítkem přesnosti Clustal Omega pro srovnání s jinými programy, ilustruje to potenciální sílu EPA využívat informace ve vnějších zarovnáních.

Opakování

EPA lze také použít v jednoduchém iteračním schématu. Jakmile byl MSA vytvořen ze sady vstupních sekvencí, lze jej převést na HMM a použít pro EPA, aby pomohl vyrovnat vstupní sekvence. To lze také kombinovat s úplným přepočtem vodícího stromu. Na obrázku 3 ukazujeme výsledky jedné a dvou iterací na každém testovacím případu z HomFam. Graf je vynesen jako průběžné průměrné skóre TC pro všechny testovací případy s N nebo méně testovacích případů, kde N je vynesena na vodorovnou osu pomocí logaritmického měřítka. U některých menších testovacích případů má iterace ve skutečnosti škodlivý účinek. Jakmile se však přiblížíte 1000 nebo více sekvencím, objeví se jasný trend. Čím více sekvencí máte, tím příznivější je účinek iterace. S většími testovacími případy je stále výhodnější použít dvě iterace. Tento výsledek potvrzuje užitečnost EPA jako obecné strategie. Potvrzuje také obtížnost zarovnání extrémně velkého počtu sekvencí, ale poskytuje jedno dílčí řešení. Poskytuje také velmi jednoduché, ale efektivní schéma iterací, nejen pro iteraci vodicího stromu, jak se používá v mnoha balíčcích, ale i pro iteraci samotného zarovnání.


Nové probiotické mechanismy ústní bakterie Streptococcus sp. A12, jak je prozkoumáno s funkční genomikou

Biofilmy související se zdravím v dutině ústní se skládají z různorodé skupiny mikrobiálních druhů, které mohou vytvářet prostředí, které je méně příznivé pro růst patogenů zubního kazu, např. Streptococcus mutans Nová orální bakterie, označená Streptococcus A12, byl dříve izolován ze supragingiválního zubního plaku jedince bez kazu a ukázalo se, že silně interferuje s růstovými a virulentními vlastnostmi S. mutans V této studii jsme použili funkční genomiku, abychom začali identifikovat molekulární mechanismy používané A12 k antagonizaci a odolávání antagonistickým faktorům, S. mutans Pomocí bioinformatiky geny, které by mohly kódovat faktory, které zvyšují schopnost A12 konkurovat S. mutans byly identifikovány. Vybrané geny, určené potenciální konkurenční faktory (pcf), byly smazány. Některé mutantní deriváty vykazovaly sníženou schopnost konkurovat S. mutans ve srovnání s rodičovským kmenem. A12 pcfO mutant ztratil schopnost inhibovat com X - I nducing P eptide (XIP) signaling by S. mutans, zatímco mutanti se změnami v pcfFEG lokus měli zhoršené vnímání a byli citlivější na lantibiotický nisin. Ztráta PcfV, označovaného jako biosyntetický protein kolicin V, vedla ke snížení antagonismu S. mutans Data společně poskytují nový pohled na složitost a rozmanitost faktorů, které ovlivňují ekologii a virulenci biofilmu. Pokračující zkoumání genomických a fyziologických faktorů, které odlišují komenzály od skutečně prospěšných členů orální mikrobioty, povede k lepšímu porozumění mikrobiomu a novým přístupům k podpoře orálního zdraví.DŮLEŽITOST Pokroky v definování složení biofilmů spojených se zdravím zdůraznily důležitou roli prospěšných druhů při udržování zdraví. Bylo však provedeno poměrně málo pro řešení genomických a fyziologických základů, které jsou základem probiotických mechanismů prospěšných komenzálů. V této studii jsme zkoumali schopnost nového orálního bakteriálního izolátu, Streptococcus A12, soutěžit se zubním patogenem Streptococcus mutans pomocí různých genových produktů s různými funkcemi. A12 vykazoval zvýšenou konkurenceschopnost (i) narušením mezibuněčných komunikačních cest S. mutans(ii) snímání a rezistence antimikrobiálních peptidů a (iii) produkce faktorů podílejících se na produkci domnělé antimikrobiální sloučeniny. Výzkum probiotických mechanismů používaných Streptococcus A12 poskytuje zásadní pohled na to, jak prospěšné bakterie mohou pomoci udržovat orální zdraví, což pomůže při vývoji biomarkerů a terapeutik, které mohou zlepšit praxi klinické stomatologie.

Klíčová slova: antimikrobiální peptidy biofilm ekologie zubní kaz mezidruhová soutěž orální mikrobiom.

Copyright © 2019 Americká společnost pro mikrobiologii.

Postavy

(A) Schematický diagram lokusů…

(A) Schematický diagram lokusů kódujících potenciální konkurenční faktory ( pcf geny)…

Dopad potenciální konkurenceschopnosti A12…

Vliv potenciálního konkurenčního faktoru A12. (A) Kultury S. mutans UA159 (Sp…

Účinky supernatantů S. gordonii nebo A12 na P comX nebo P cipB…

Vymazání pcfFEG nebo pcfRK…

Vymazání pcfFEG nebo pcfRK zvyšuje citlivost A12 k lantibiotickému nisinu.…

Exprese hypotetického proteinu…

Exprese hypotetického proteinu před pcfV je upregulován v nepřítomnosti…

(A) Pangenomová analýza A12,…

(A) Pangenomová analýza A12, izolátů podobných A12, S. australis ATCC 700641 a S.…


Vyhodnocení vašeho zarovnání ¶

Existují tři možné strategie pro vyhodnocení vašeho zarovnání proteinových sekvencí:

  1. Sekvenční metody jako je CORE index a TCS, pokud nemáte žádnou strukturu (poměrně často). Ty fungují docela dobře v jádrových oblastech zarovnání (které mohou odpovídat proteinovým doménám, záhybům, strukturním prvkům atd...), ale mohou být omezeny ve více variabilních oblastech (které mohou odpovídat smyčkám, neuspořádaným oblastem atd...).
  2. Struktura je zabiják, takže pokud máte pro svou proteinovou rodinu k dispozici alespoň dvě struktury, jste v ideální situaci a můžete použít iRMSD. Pokud máte k dispozici pouze jednu strukturu, vyvinuli jsme STRIKE pro porovnání alternativního zarovnání.
  3. Dalším zabijákem je používání funkčních informací, ale je mnohem méně často po ruce. Pokud víte, některé zbytky MUSÍ být zarovnány, protože jsou funkčně příbuzné. Vzhledem k tomu, že informací je vzácné a nejsou standardní, neexistuje žádný automatizovaný postup speciálně navržený pro tento druh analýzy, ale přesto můžete nastavit postup hodnocení pomocí T-Coffee.

Většina metod hodnocení je navržena pro proteinové sekvence (zejména metody založené na struktuře), nicméně T-Coffee prostřednictvím indexu TCS/CORE nabízí určité možnosti pro vyhodnocení také uspořádání DNA.

Metody založené na sekvenci¶

CORE index¶

Index CORE je základem odhadu konzistence T-Coffee, nicméně pro hodnocení zarovnání doporučujeme použít postup TCS popsaný v další části.

Výpočet místního indexu CORE¶

Index CORE je odhad konzistence mezi vaším zarovnáním a vypočítanou knihovnou. Čím vyšší je konzistence, tím lepší je zarovnání. Skóre hlášené při každém zarovnání T-Coffee je skóre konzistence (v závislosti na verzi může být normalizováno na 100 nebo 1 000). Pokud chcete jít dále a odhadnout místní konzistenci (známou jako CORE index), automaticky se vytvoří soubor html při každém spuštění T-Coffee, je to barevná verze vašeho zarovnání, kde jsou zbytky vybarveny podle jejich skóre konzistence, od modrá (nízká konzistence) až červená (vysoká konzistence). Není to úplný důkaz, ale v zásadě můžete očekávat, že pozice se skóre nad 6 budou správně zarovnány.

Výpočet indexu CORE jakéhokoli zarovnání¶

Pomocí indexu CORE můžete vyhodnotit jakékoli existující zarovnání. Vše, co musíte udělat, je poskytnout toto zarovnání s příznakem -infile a určit, že jej chcete vyhodnotit. Další informace o filtrování/ořezávání zarovnání pomocí skóre indexu CORE naleznete v podsekci Příprava dat: Přeformátování, oříznutí dalších .../Úprava samotných dat.

Transitive Consistency Score (TCS) ¶

TCS je skóre hodnocení zarovnání, které umožňuje identifikovat nejsprávnější pozice v MSA. Ukázalo se, že tyto polohy jsou s největší pravděpodobností strukturálně správné a také nejvíce informativní při odhadu fylogenetických stromů. Procedura hodnocení a filtrování TCS je implementována v balíčku T-Coffee a lze ji použít k vyhodnocení a filtrování jakékoli MSA třetí strany (samozřejmě včetně T-Coffee MSA!).

TCS byl nedávno začleněn do T-Coffee, to znamená, že ne všechny distribuce mají implementovaný TCS, měli byste nainstalovat nejnovější stabilní verzi T-Coffee, abyste měli TCS spolu s T-Coffee.

Hodnocení stávající MSA¶

TCS je nejvíce informativní, když se používá k identifikaci částí s nízkým skóre v rámci MSA. Je také třeba poznamenat, že TCS není informativní při zarovnání méně než pěti sekvencí.

  • sample_seq1.score_ascii zobrazuje skóre MSA, sekvence a zbytky.
  • sample_seq1.score_html zobrazuje skóre barevné verze MSA, sekvencí a zbytků.

Barevný kód v score_html označuje shodu mezi knihovnou a uvažovaným zarovnáním. Je důležité pochopit, že toto skóre nezávisí pouze na vstupním MSA, ale také na knihovně.

Filtrování nespolehlivých pozic MSA¶

TCS vám umožňuje odfiltrovat z vašich oblastí zarovnání, které se zdají nespolehlivé podle skóre konzistence, které lze filtrovat na úrovni zbytků nebo na úrovni sloupců:

  • sample_seq1.tcs_residue_filter3 Všechny zbytky se skóre TCS nižším než 3 jsou odfiltrovány
  • sample_seq1.tcs_column_filter3 Všechny sloupce se skóre TCS nižším než 3 jsou odfiltrovány
  • sample_seq1.tcs_residue_lower4 Všechny zbytky se skóre TCS nižším než 3 jsou malá písmena

TCS vytvoří výstupní soubory obsahující vaše výsledky, pokud znovu spustíte podobné úlohy nebo se stejným názvem, TCS nepřepíše předchozí výstupy, ale připojí nové výsledky k již existujícím souborům.

Všechny tyto výstupní funkce jsou také kompatibilní s výchozím T-Coffee (příkaz 1) při výpočtu zarovnání nebo s seq_reformat (příkaz 2) pomocí souboru T-Coffee & ltname & gt.score_ascii.

Váha MSA pro vylepšené stromy¶

Jedním skvělým trikem ohledně TCS je možnost dodávat zatížené MSA, kde se každý sloupec vynásobí podle skóre konzistence, což se jeví jako zvláště užitečné pro stavbu fylogenetického stromu. Fylogenetické stromy jsou hodnoceny pomocí bootstrap skóre, takže každý sloupec má stejnou hmotnost, bez ohledu na jeho relevanci, v případě vážených TCS jsou spolehlivější sloupce zastoupeny více, čímž se zlepšuje podpora informativních a spolehlivých pozic vašeho MSA.

  • sample_seq1.tcs_weighted Všechny sloupce jsou duplikovány podle jejich skóre TCS
  • sample_seq1.tcs_replicate_100 Obsahuje 100 replikátů ve formátu phylip, přičemž každý sloupec je vykreslen s pravděpodobností odpovídající jeho skóre TCS

Všimněte si, že všechny tyto výstupní funkce jsou také kompatibilní s výchozím T-Coffee (příkaz 1) při výpočtu zarovnání nebo s seq_reformat (příkaz 2) pomocí souboru T-Coffee .score_ascii.

Použití různých knihoven pro TCS¶

Je možné změnit způsob odhadování spolehlivosti TCS. To lze provést vybudováním různých knihoven T-Coffee. Proba_pair je výchozí zarovnávač T-Coffee, který spouští pár HMM k naplnění knihovny páry zbytků s nejlepšími pozdějšími pravděpodobnostmi (příkaz 1). Můžete také kombinovat místní a globální zarovnávače (příkaz 2). Existuje také rychlá alternativa pomocí speciálního režimu ke spuštění řady rychlých více zarovnávačů, je velmi rychlá a používá ji ENSEMBL Compara (příkaz 3)

Práce s kódující DNA¶

Při práci s DNA je vhodné nejprve zarovnat sekvence na úrovni proteinů a později navléknout DNA zpět na vaše zarovnané proteiny. Filtrování musí být provedeno ve dvou krocích, jak je uvedeno níže. Všimněte si, že vaše DNA a proteinové sekvence musí mít stejný název. Tento první krok vytvoří vyhodnocovací soubor TCS sample_prot_thread.score_ascii (příkaz 1). Poté, -out dna.replikace možnost vytvoří 100 replikátů DNA s pozicemi vybranými podle jejich aminokyselinového skóre TCS (příkaz 2). Nakonec, -out dna.filtrováno možnost bude filtrovat zarovnání DNA podle jejich skóre ve sloupci TCS.

Souhrn možností výstupu¶
Vlajky Popis
score_ascii Výstupem je vyhodnocovací soubor TCS
score_html Obsahuje formát ascii ve formátu html
skóre_pdf Převede score_html do formátu pdf
sp_ascii Hlásí skóre TCS každého zarovnaného páru v cílové MSA
tcs_residue_filter_N Odstraní všechny zbytky se skóre TCS nižším než N
tcs_columns_filter_N Odstraní všechny sloupce se skóre TCS nižším než N
tcs_weighted Formát Phylip s duplikovanými sloupci podle jejich skóre TCS
tcs_replicate_N Generuje N replikátů sloupců nakreslených podle jejich skóre TCS

Strukturální hodnocení MSA¶

APDB/iRMSD¶

Co je APDB/iRMSD?¶

APDB a iRMSD jsou dvě úzce související opatření určená k vyhodnocení přesnosti MSAt bez použití referenčního zarovnání založeného na struktuře. iRMSD navazuje na opatření APDB a nyní doporučujeme používat spíše iRMSD než APDB. Ačkoli se může zdát, že iRMSD byl pokus získat zdarma iPOD od Apple, není (nebo alespoň jsme iPODy nikdy nedostali). iRMSD je speciální RMSD (což znamená RMSD založené na intramolekulárních vzdálenostech), kde jsou zarovnání hodnocena pomocí strukturních informací sekvencí se známými strukturami.

Silou iRMSD je jeho nezávislost na konkrétních superpozičních modelech. Při použití iRMSD k vyhodnocení skóre MSA není třeba překrývat dvě struktury a odvodit sekvenční zarovnání, které bude poté porovnáno s cílovým zarovnáním. Vzhledem ke dvěma zarovnaným zbytkům (X a Y) je skóre iRMSD pokusem odhadnout podporu sousedství pro zarovnání XY. To se provádí měřením rozdílu vzdáleností mezi X a Y a každým dalším párem zarovnaných zbytků ve stejné sféře (W a Z). iRMSD se získá měřením průměrné střední hodnoty (RMS) těchto rozdílů vzdáleností. Prvním krokem APDB/iRMSD je měření vzdáleností mezi Ca (uhlík alfa) každého zbytku a jeho sousedy. Sousedství je definováno jako sféra poloměru *-maximální_vzdálenost (10 ve výchozím nastavení). Nicméně nastavením -local_mode do „okna“ lze kouli nahradit oknem o velikosti 1/2 -max_distance zbytky.

Čím nižší je iRMSD, tím lepší je zarovnání. Přesto může zarovnání získat dobré skóre iRMSD jednoduše tím, že má několik zarovnaných zbytků. Aby se tomu zabránilo, program také hlásí normalizovanou verzi iRMSD, uvažované sloupce NiRMSD= MIN(L1,L2)*iRMSD/číslo. Pro porovnání alternativních vyrovnání různých délek se doporučuje použít NiRMSD. Ze strukturálního hlediska má NiRMSD význam velmi podobný iRMSD a chová se podobným způsobem z numerického hlediska (podobné rozsahy v Angstromech).

APDB je starší míra méně robustní než iRMSD, jedná se o pokus odhadnout zlomek párů zbytků, jejichž zarovnání se zdá být strukturálním pohledem správné. Čím vyšší je APDB, tím lepší je zarovnání a naopak čím nižší je NiRMSD, tím lepší je zarovnání.

Jak efektivně využívat strukturální informace? ¶

Pokud jde o hodnocení MSA, není nic lepšího než strukturální informace. Chcete -li použít metody, které zde popisujeme, budete potřebovat alespoň dvě struktury, dostatečně podobné (> 60%) sekvencím obsaženým ve vaší datové sadě. Zde je nástin toho, jak nejlépe postupovat:

  1. Zkuste zahrnout dvě struktury se vzdáleně příbuznými sekvencemi, přičemž ostatní sekvence jsou meziprodukty.
  2. Zarovnejte své sekvence bez použití strukturálních informací (tj. T-Coffee, MUSCLE, MAFFT ...).
  3. Vyhodnoťte své sladění s iRMSD/NiRMSD (viz dále v této části) přidělte tomuto sladění skóre S1.
  4. Upravte své sekvence, ale tentokrát pomocí strukturálních informací s Expresso.
  5. Změřte skóre tohoto zarovnání, skóre bude S2.

Pokud jsou S1 a S2 téměř podobné, znamená to, že vaše vzdáleně příbuzné struktury byly dobře zarovnány a můžete očekávat, že budou dobře zarovnány také mezilehlé sekvence. Pokud je S2 mnohem lepší než S1, můžete očekávat, že struktury budou dobře zarovnány ve druhém zarovnání, přičemž neexistuje žádná záruka, že se zlepšilo také zarovnání mezilehlých sekvencí, i když v praxi často ano.

Vyhodnocení zarovnání s balíčkem iRMSD¶

Vyhodnoťme zarovnání vytvořené Expresso pomocí souboru šablony, který vrací. Vyhodnocení MSA pomocí iRMSD přinese dlouhý výstup (porovnají se všechny páry), nejzajímavější bit je dole u globálního skóre iRMSD v Angstromu (NiRMSD je skóre iRMSD normalizované na délku MSA).

Hodnocení alternativních zarovnání¶

Síla strukturovaných vyrovnání spočívá v tom, že umožňují porovnávat alternativní zarovnání. V tomto případě uvažujme následující výsledky v tabulce níže (APDB v %, iRMSD/NiRMSD v Angstromech a vyhodnocené sloupce v %). Jak se dalo očekávat, Expresso přináší nejlepší zarovnání ze strukturálního hlediska. To dává smysl, protože Expresso výslovně POUŽÍVÁ strukturální informace. Ostatní obrázky nám ukazují, že strukturální vyrovnání je jen nepatrně lepší než většina uspořádání založených na sekvencích, ale s výraznou výjimkou ClustalW.

Metoda APDB (%) iRMSD(A) NiRMSD(A) Eval. (%)
Expresso 83.44 0.67 1.34 50.17
T-Coffee 83.11 0.68 1.35 50.29
M-Coffee 83.08 0.68 1.36 50.00
ProbCons 83.10 0.68 1.35 50.28
MAFFT 82.99 0.68 1.35 50.25
Kalign 82.42 0.69 1.38 50.02
ClustalW 80.62 0.73 1.47 49.55

DEC - Distance Evolutionnary Conservation with msa2distances¶

Použitím podobného přístupu je možné odhadnout variace intramolekulárních vzdáleností napříč více strukturními MSA pro každý pár zbytku každé sekvence. Následující příkaz také vrátí průměrnou variaci (stdev) pro každý zbytek a jeho sousedy v rámci <radius>

Výstup je rozdělen do dvou sekcí, které lze popsat prvním klíčovým slovem:

Druhá frakce shrnuje osud každého zbytku. Všimněte si, že parametr radius potenciálně činí každý zbytek ve sloupci, což má různé úrovně zachování

Tato funkce také zobrazuje barevné verze vstupních PDB pomocí souboru PDB Bfactor. Výstupní soubory jsou následující:

STRIKE: Hodnocení založená na kontaktu¶

STRIKE používá kontaktní matici k vyhodnocení zarovnání pomocí jedné nebo více struktur. Přitom se kontakty vyjmou ze sekvencí se známými strukturami a promítnou se do ostatních sekvencí. Každá sekvence je poté vyhodnocena z hlediska kvality předpokládaných kontaktů. Pokud je k dispozici více než jedna struktura, výsledky jsou poskytovány pomocí každé struktury jako šablony. Tuto analýzu provede následující příkazový řádek. Jako vstup vyžaduje MSA obsahující alespoň jednu sekvenci s jednou ze šablon defiend v souboru šablony. Soubory PDB musí být v aktuálním adresáři.

První částí výstupu je STRIKE RAW SCORE. Udává skóre každé sekvence při použití buď jedné struktury jako šablony, nebo průměrováním všech struktur je nejvyšší hodnota v každém sloupci označena hvězdičkou. Různá pole jsou následující:

Pole název Definice
RS Hrubé skóre Průměrné skóre STRIKE
Rn Náhodné skóre Průměrné skóre při šifrování kontaktů
Bg Pozadí skóre Průměrné skóre všech kontaktů proti všem

Je také možné použít tři další parametry. Tyto tři parametry musí být předány. Každý může být nahrazen provázkem "Def" pokud má být použita výchozí hodnota.

Parametr Výchozí Definice
max 1.2 Maximální vzdálenost mezi dvěma kontaktními AA (Angstrom)
konec 3 Počet vyloučených sousedů mezi kontakty
matice stávkovat Soubor obsahující matici STRIKE

Hodnocení MSA podle vašeho vlastního kritéria¶

Jakýkoli druh funkce lze snadno proměnit v hodnotící mřížku. Sekvence proteázy, které zde používáme, mají například dobře charakterizované vazebné místo. Možné vyhodnocení lze provést následujícím způsobem: uvažujme anotaci UniProt dvou vzdáleně příbuzných sekvencí, tyto dvě sekvence obsahují elektronový reléový systém proteáz.Můžeme jej použít k vytvoření hodnotící knihovny: v P29786 (TRY3_AEDAE) je histidinový zbytek v poloze 68, zatímco v P21844 (MCPT5_MOUSE) funkčně ekvivalentní histidinový zbytek je v poloze 66. Můžeme tedy postavit knihovnu, která bude kontrolovat, zda tyto dva zbytky jsou správně zarovnány v jakékoli MSA. Knihovna bude vypadat takto:

Jednoduše musíte vyjmout a vložit tuto knihovnu do souboru a použít tento soubor k měření konzistence mezi vaším zarovnáním a korespondencemi deklarovanými ve vaší knihovně. Následující příkazový řádek také umožňuje vizuálně zobrazit shodu mezi vašimi sekvencemi a knihovnou.


Aktivita

Při zkoumání evolučních vztahů mezi různými organismy je důležité pečlivě zvolit, který gen nebo protein použijete. Existuje několik dobře známých homologních genů, které lze použít, například pro proteiny hemoglobin nebo cytochrom c, a při této aktivitě použijeme druhý z nich. Cytochrom c je malý hemový protein, který je ústřední součástí řetězce přenosu elektronů v mitochondriích. Všechny aerobní organismy se vyvinuly ze společného předka, který jako první používal cytochrom c, takže je pro naše účely dobrou volbou w3 .

Tato činnost se provádí ve třech různých sekcích:

  • nalezení aminokyselinové sekvence cytochromu c v různých organismech,
  • jejich zarovnání a
  • vytvoření fylogenetického stromu.

Nakonec jsou zahrnuty některé otázky, které vedou ke zkoumání evolučních vztahů.

Kliknutím na obrázek zvětšíte.

Hledání proteinových sekvencí

  1. Přejděte na webovou stránku NCBI w1.
  2. Ve vyhledávací oblasti v horní části stránky vyberte z rozbalovací nabídky „protein“.
  3. Zadejte název druhu, např. Homo sapiensa cytochrom c.
  4. Klikněte na tlačítko Hledat.
  5. Na nové stránce se zobrazí výsledky vyhledávání. Většina z nich jsou stejné sekvence z různých zdrojů, ale jiné mohou být částečné sekvence nebo patří k jinému druhu nebo proteinu. Pečlivě vyberte správný požadovaný protein a klikněte na odkaz pod označením „FASTA“.
  6. Z nové stránky, která se načte, zkopírujte řetězec velkých písmen označujících posloupnost aminokyselin. Vložte písmena do dokumentu aplikace Word, nezapomeňte sekvenci označit názvem organismu, ze kterého pochází.
  7. Udělejte to samé pro tolik organismů, kolik chcete, podle toho, co chcete se svými studenty zkoumat. Můžete zahrnout různé primáty, abyste viděli, jak se lidé vyvinuli, nebo organismy z pěti tradičních království, abyste viděli, jak se život obecně vyvíjel. V této aktivitě se použijí 3 zvířata, 2 rostliny, 2 řasy, houba a prvok.

Vyrovnávací sekvence

  1. Přejděte na webovou stránku Evropského bioinformatického institutu (EBI) w2 a klikněte na „Služby“. Poté zvolte „proteiny“.
  2. Klikněte na Clustal Omega. Zkopírujte text z dokumentu aplikace Word a vložte jej do textového pole označeného „KROK 1“.
  3. V KROKU 2 vyberte formát pro výstup zarovnání, například „Clustal w/ numbers“, který zobrazí délku každé sekvence. Nakonec KROK 3 dokončete kliknutím na „Odeslat“.
  4. Zarovnání pro více sekvencí se zobrazí v novém okně. První věc, kterou můžete udělat, je kliknutím zobrazit barvy. Tato možnost dá stejnou barvu každé aminokyselině, takže je snazší je identifikovat.
  5. Při analýze zarovnání mějte na paměti následující symboly: hvězdička (*) znamená, že sekvence jsou na této pozici identické, dvojtečka (:) označuje konzervované substituce (stejná barevná skupina) a tečka (.) označuje polokonzervované substituce (podobné tvary). Barvy seskupují aminokyseliny podle charakteristik. Červené jsou malé, hydrofobní, aromatické modré jsou kyselé purpurové jsou zásadité zelené jsou hydroxylové, aminové, amidové, zásadité a šedé jsou ostatní.
  6. Pokud kliknete na možnost ‚Shrnutí výsledků‘, uvidíte procento identity zachované mezi různými organismy po zarovnání. V této matrici můžete zjistit procentuální identitu dvou organismů pro sekvenci proteinového cytochromu c. Kromě toho, pokud máte v počítači nainstalovanou Java™, můžete použít Jalview, bezplatný program pro editaci, vizualizaci a analýzu vícenásobného zarovnání sekvencí. S Jalview budete moci vidět konsensuální sekvenci pro cytochrom c a úroveň konzervace pro různé aminokyseliny.

Software Clustal Omega má mnoho různých možností, které zahrnují sofistikovanější matematické znalosti, než je nutné pro naše účely. Pokud se chcete dozvědět více o používání přípravku Clustal Omega, podívejte se na článek Sievers et al. (2011)

Kliknutím na obrázek zvětšíte.

Vytvoření fylogenetického stromu

  1. Ve výsledcích Clustal Omega klikněte dole na „Fylogenetický strom“ (budete muset mít nainstalovanou Java ™).
  2. Můžete získat fylogenetický nebo kladogramový strom. V kladogramu jsou délky větví ve stromu libovolné, zatímco ve fylogenetickém stromě délky větví ukazují, jak moc se protein v průběhu času vyvinul.

K další diskusi

Pro zvětšení klikněte na obrázek.

  1. Homologní molekuly jsou příkladem rozdílné evoluce. Jak můžete vysvětlit divergentní evoluci pomocí cytochromu c?
  2. Zarovnání lze provést pomocí nukleotidových (genů) nebo aminokyselinových (proteinových) sekvencí. Proč si myslíte, že je užitečnější používat k analýze evolučních vztahů protein spíše než DNA?
  3. Ve fylogenetických stromech tvoří ‚klad‘ všechny organismy, které mají společného předka. Uveďte příklad ze svého cladogramu.
  4. Které organismy podle fylogenetických analýz cytochromu c v poslední době prodělaly speciační událost? Jaký je celkový počet speciačních událostí?
  5. Proč si myslíte, že se některé aminokyseliny změnily v důsledku mutace, ale jiné ne? Myslíte si, že konzervované aminokyseliny se nezměnily, protože jejich kodony vůbec neprošly žádnou mutací?
  6. Ukažte některé z těchto konzervovaných aminokyselin ve svém uspořádání. Prozkoumejte jejich funkci na internetu.


Výsledek

Vývoj CombAlign

Nový kód, CombAlign, byl vyvinut pomocí Pythonu 2.6. CombAlign bere jako vstup sadu párových sekvenčních zarovnání založená na struktuře a generuje vzájemné zarovnání sekvencí založené na více strukturách (MSSA, viz metody), přičemž uživatel může snadno identifikovat oblasti na referenční struktuře, které mají zbytek -korespondence zbytků s každým z ostatních proteinů, proti kterému byla referenční struktura strukturována. Ačkoli záměrem při vývoji CombAlign bylo konstruovat zarovnání více sekvencí ze strukturních dat, kód je agnostický pro program, který se používá ke generování párových zarovnání používaných jako vstup. Protože však uspořádání založená na struktuře mohou odhalit strukturální (a tedy potenciální funkční) rozdíly mezi proteiny, které nemusí být nutně odhaleny prostřednictvím sekvenčních vyrovnání, byl vývoj CombAlign zaměřen na usnadnění konstrukce více zarovnání pomocí formátů vytvořených dvěma společnými nástroje pro strukturu proteinů: TM-align [13] a DaliLite [14].

CombAlign obsahuje skript (combAlign.py), který čte ve fasta sekvenci referenčního proteinu následovanou řadou párových zarovnání, poté vytvoří objekt zarovnání (alignment.py), který se používá ke spojení zarovnání do MSSA a nakonec vytiskne výsledky do souboru. Referenční fasta se používá jako rámec pro záznam korespondence mezi zbytky referenční struktury a zbytky každé struktury ve srovnávací sadě datová struktura zachycuje každou polohu/zbytek v referenčním fasta a označí je seznamem odpovídajících zbytků, jeden zbytek z každé zarovnané struktury (nebo 'null', pokud zbytek chybí nebo není zarovnán). Kromě toho jsou pro každé párové zarovnání odpovídající zbytky v porovnávané struktuře a pozice, které si nekorespondují (mezery v porovnávané struktuře), zaznamenány mezery, které se vyskytují v referenční struktuře vzhledem k porovnávané struktuře, jsou vloženy jako nulové pozice do seznamu připojeného k předchozí zbytek v referenčním rámci sekvence fasta. Pozice mezer, které se vyskytují v referenční struktuře vzhledem k více než jedné porovnávané struktuře, jsou sloučeny, aby se zabránilo nadbytečnému vkládání mezer. Výsledná MSSA typu one-to-many s mezerami je formátována pro výstup rozdělením referenčního rámce fasta na segmenty odpovídající uživatelem zadanému nebo výchozímu parametru velikosti řádku a je vytištěna do výstupního souboru. Korešpondenční data ze vstupních párových zarovnání se promítnou do výstupního MSSA. Symboly (‘-‘, ‘:‘, ‘.‘, ‘|‘, “) Používané ve výstupu CombAlign mají význam identický se symboly programu používaného ke generování párových zarovnání a obecně udávají míru, s jakou zbytky odpovídaly. CombAlign nepoužívá žádná další data poskytovaná metodou párového zarovnání (např. skórování, predikce sekundární struktury).

Testovací případ 1: Zarovnání proteinů virové matrice (VP40s) jedna k mnoha

Použití a užitečnost CombAlign bylo demonstrováno vytvořením mezerovitého MSSA za použití strukturního modelu matricového proteinu (VP40) z Reston Ebolavirus (jako referenční struktury) a párových zarovnání mezi referenčními a strukturními modely VP40 z Bundibugyo, Súdán, Tai Forest a Zaire Ebolavirus a Marburg Marburgvirus (obr. 1). Mezera MSSA odhalila strukturně založené korespondence zbytků a reziduí mezi Reston Ebolavirus VP40 a každým z dalších VP40 proteinů, což umožnilo identifikaci strukturně podobných versus odlišných oblastí v Restonu ve srovnání s každým z blízce příbuzných proteinů.

Zarovnání sekvencí založené na více strukturách (MSSA) modelu Reston Ebolavirus VP40 (referenční) bylo zarovnáno s modely VP40 ze čtyř ebolavirů a jednoho druhu Marburgviru. Párová zarovnání TM-align byla spojena pomocí combAlign.py

Při zkoumání MSSA (obr. 1) je zřejmé, že modely VP40 jsou velmi podobné na úrovni struktury, ačkoli se objevují jasné rozdíly na N- a C-koncích a mezi proteinem Reston Ebolavirus jsou pozorována malá přerušení korespondence. a to Marburg Marburgvirus. Nejviditelnější rozdíly jsou pozorovány v N- a C-koncových oblastech. Většinou konzervované motivy PTAP/PPEY (konzervované v sekvenci mezi ebolaviry, ale nepřítomné v proteinu Marburgviru), byly narušeny v párových strukturních zarovnáních, a proto byly také distribuovány mezi mezery v CombAlign MSSA. Zjistilo se, že rozlišovacím znakem proteinu Reston Ebolavirus ve srovnání s každým jiným proteinem je dalších 5 zbytků na extrémním C-konci (qnsyq), které chybí ve všech ostatních VP40. Protože se předpokládá, že tato koncová oblast funguje při pučení viru, dalších 5 zbytků v proteinu Reston může mít v tomto ohledu nepříznivý účinek na funkci VP40 [9, 15, 16].

Testovací případ 2: Zarovnání ebolaviru „jeden k mnoha“ Pre-malé/sekretované glykoproteiny (sGP)

Druhý testovací případ zahrnující strukturní srovnání Reston Ebolavirus sGP s odpovídajícími proteiny z několika dalších druhů ebolavirů (obr. 2) ukazuje, že kombinace strukturních vyrovnání může odhalit strukturální (a tedy potenciální funkční) rozdíly, které nemusí být zřejmé při použití pouze sekvenční metody (obr. 3). Zarovnání CombAlign na obr. 2 naznačuje, že mezi sGP Reston Ebolavirus mohou existovat značné strukturální rozdíly ve srovnání s jeho patogenními blízkými sousedy v N-koncové oblasti, v přibližném středu peptidového řetězce a ve velké části C -minus, zatímco zarovnání Clustal Omega [17] zobrazené na obr. 3 znamená těsnou globální a lokální korespondenci mezi zbytky těchto proteinů. Zvláště pozoruhodná je divergence pozorovaná na C konci, který obsahuje delta peptid (obr. 3, rámeček). Tato oblast je dokonale zarovnaná na úrovni sekvence, přesto vykazuje špatnou strukturální homologii při zkoumání pomocí strukturních nástrojů. Odpovídající MSSA byly zkonstruovány pomocí CombAlign, aby se určilo, zda jakýkoli daný ebolavirus sGP (jako referenční struktura) vykazoval blízkou strukturní homologii k jakémukoli jinému (data nejsou uvedena), a nebylo nalezeno žádné, které by se dobře shodovalo s jakýmkoli jiným. Tato zjevně špatná homologie struktury může být způsobena poruchou v této oblasti proteinu. Nicméně MSSA na obr. 2 podporuje použití CombAlign pro detekci strukturálních odchylek v požadovaném proteinu vzhledem k jeho strukturálním blízkým sousedům. Předpokládalo se, že delta peptid může fungovat buď jako prevence superinfekce produkčních buněk v počátečních stádiích infekce, nebo mohou zabránit zachycení viru začínajícího potomstva [11]. Protože funkce delta peptidu může být kritická pro patogenitu nebo progresi onemocnění, je zajímavé si všimnout zjevných strukturálních rozdílů mezi sGP z druhů znázorněných na obr. 2 a na základě tohoto pozorování by bylo rozumné odůvodnit strukturu- funkční studie těchto peptidů v kontextu jejich navrhovaných funkcí.

Zarovnání sekvencí založené na více strukturách (MSSA) modelu sekretovaného glykoproteinu (sGP) vylučovaného Reston Ebolavirus (odkaz) zarovnáno s modely sGP ze čtyř ebolavirů. Zarovnání Pairwise TM-align byla kombinována pomocí combAlign.py

Ebolavirus vylučoval glykoproteiny (sGP) v souladu s Clustal Omega. Box: delta peptid

Dostupnost kódu a požadavky

Zdrojový kód CombAlign je k dispozici ke stažení z archivu kódu GitHub. Pro přístup ke kódu je třeba nejprve stáhnout a nainstalovat klienta git [18, 19]. Soubory projektu CombAlign lze klonovat buď pomocí rozhraní GUI, nebo jednodušeji z příkazového řádku (po instalaci softwaru by se po zadání „git“ měla zobrazit nabídka nápovědy). Soubory CombAlign lze poté stáhnout zadáním „git clone https://github.com/carolzhou/Protein“. CombAlign byl napsán v Pythonu 2.6 a lze jej spustit na libovolném počítači nebo serveru, který podporuje Python. Nejsou uvedeny žádné specifické požadavky na zpracování. Nabídka nápovědy se zobrazí zadáním „python combAlign.py help“.


Diskuse

Zde je uvedena podrobná charakterizace proteinu Cysu hemeperoxidázy s ohledem na jeho roli v procesu dozrávání křídel hmyzu. Z naší analýzy je zcela zřejmé, že Cysu heme peroxidáza je mezi bezobratlými zvláště dobře konzervována. Zadruhé, Cysu peroxidáza nese peroxinektinový podpis s motivem vázajícím integrin, Arg-Gly-Asp (RGD), který je podobný peroxinektinům dříve popsaným u raka říčního a u krevety černé tygří. Penaeus monodon [33]. Dosud nebyl hlášen žádný peroxinectin obratlovců. Krevety peroxinektin je velmi podobný Drosophila proteiny související s peroxinektinem, kromě toho, že krevetový protein ve skutečnosti nese dva motivy vázající integrin, RGD a Lys-Gly-Asp (KGD) [33]. Integriny se primárně podílejí na buněčné adhezi. Proto ztráta integrin PS1 Funkce způsobuje výrazné puchýře naplněné tekutinou v křídlech Drosophila, protože dorzální a ventrální křídelní vrstvy se nedaří znovu usadit a vytvořit stabilní spojení. Toto zjištění nás vedlo k otázce, zda jediný motiv vázající integrin v Cysu může být zapojen do adhezní funkce v Drosophila. Existovaly značné pochybnosti, protože ani Cysu mutace mutantů ani RNAi tohoto genu vykazovala fenotyp puchýřního křídla a nepodařilo se nám najít oddělení mezi dorzální a ventrální kutikulární vrstvou kdekoli ve zborcených křídlech, a to navzdory našemu nejlepšímu úsilí. Za druhé, adhezní spoje nebo kontaktní body mezi buňkami se zdají být zcela neporušené Cysu mutantní křídla. A konečně, od přírody, adherenové proteiny musí zůstat v ECM, aby mohly difundovat na dlouhé vzdálenosti [17]. Vzhledem k tomu, že Cysu lze rozdělit, nelze jeho lokalizaci v ECM ospravedlnit. Proto Cysu nezabírá adhezní funkcí mezi dorzální a ventrální vrstvou.

Pokud Cysu pravděpodobně není zapojen do adhezní funkce a pokud naše analýza také vyloučila její požadavek během vývoje křídelního disku, jak je ovlivněna expanze křídla u mutanta Cysu? Nedávno bylo navrženo, že jak Cysu hemeperoxidáza, tak Duox mohou být vyžadovány v procesu zrání křídel hmyzu [15]. Duox je schopen generovat superoxid (O2 .-) radikály nebo peroxid vodíku (H2Ó2) přenosem elektronů z NADPH na kyslík prostřednictvím FAD v savčích buňkách [8, 9]. Drosophila Duox však možná ztratila schopnost využívat H2Ó2 protože postrádá několik zásadních aminokyselin [15], ačkoli in vitro testy s Duoxem toto tvrzení vyvracejí [14]. Z biochemických studií na hmyzí kutikulární sklerotizaci je zřejmé, že různé katecholické sloučeniny a tyrosiny působí jako prekurzory pro zesíťování proteinu, což pomáhá při stabilizaci křídel po eklosi [1]. Bylo hlášeno, že nedostatek aktivity Duox vede ke snížení hladin katecholových sloučenin a dityrosinových zbytků v křídlech, což pravděpodobně vysvětluje křehká křídla [2] a fenotyp křídlového (Cy) křídel mutantu Duox [15]. Pokud jde o Cysu, hemové peroxidázy jsou schopné generovat H2Ó2 a tím pomáhají při oxidaci katecholických sloučenin a tyrosinů pro síťování proteinů [1]. Nyní jsme to ukázali Cysu mutant má pozdně se objevující fenotyp křídla, stejně jako Duox. Proto tvrdíme, že Cysu heme peroxidasa využívá H generovaný Duoxem2Ó2 k oxidaci katecholických sloučenin (obr. 8). V mutantském křídle Cysu takové využití H2Ó2 nestává se, což ovlivňuje oxidaci katecholových sloučenin a zesíťování tyrosinu ve zralém křídle. Stále však zůstává mnoho otázek o možné interakci mezi Duoxem a Cysu peroxidázou v křídle, zvláště když knockdown Cysu v mutantu Duox s fenotypem křídla Cy potlačuje fenotyp Cy, takže křídla Cy vypadají téměř normálně [15]. Naštěstí, v dobré víře mutanti Duox a Cysu jsou nyní k dispozici, což nám umožní provádět více interakčních studií a biochemických analýz dvojitého mutanta. Dostupnost těchto dvou mutantů také eliminuje zapojení systému závislého na GAL4, který velmi závisí na časovém požadavku řidiče a síle ovladače. Konečně, partnerství Cysu-Duox by mohlo být zásadní i pro další biologické funkce, jako je odolnost vůči patogenům. Tato zjištění tak mohou vysvětlit zkrácenou životnost Cysu mutant.

Současné poznatky o působení Cysu hem peroxidázy v morfogenezi křídel. Peroxidázová doména Cysu využívá Duox, který generuje H2Ó2 k oxidaci katecholových sloučenin a tyrosinů, které jsou přítomny v proteinových řetězcích kutikuly [1, 2, 11].Oxidace katecholových sloučenin a tyrosinů pomáhá při síťování proteinových řetězců, což je proces, který zpevňuje strukturu křídel


Úvod

Predikce sekundární struktury – alfa helixů, vláken beta listů a oblastí vinutí – je dlouhodobým problémem ve výpočetní biologii [1]. Vzhledem k aminokyselinové sekvenci je úkolem předpovědět sekvenci stejné délky, která označuje sekundární strukturu definovanou abecedou určité velikosti. Běžně používané DSSP program [2] označuje sekundární strukturu experimentálních struktur s 8písmennou abecedou (H, B, E, G, , T, S), který lze redukovat na menší abecedu (běžně H, E, C) podle definovaných pravidel. Výsledky predikce sekundární struktury byly často použity jako vstupy do metod predikce terciární struktury [3–9], odhad rychlosti skládání [10], predikce expozice rozpouštědla zbytkům aminokyselin [11–13], predikce beta- polohy a typy obratů [14–16], diskriminace vnitřně neuspořádaných oblastí [17, 18], přesné zarovnání více sekvencí [19–22], predikce proteinové funkce [23, 24] a predikce fenotypů mutace missense [25].

Problém predikce sekundární struktury ze sekvence má dlouhou historii, počínaje rokem 1965 [26]. V průběhu více než 50 let se přesnost postupně zvyšovala v důsledku nárůstu počtu experimentálně určených struktur v Protein Data Bank (PDB), množství informací o sekvencích, které jsou k dispozici pro stanovení znaků odvozených z více sekvenčních zarovnání , výpočetní výkon a evoluce algoritmů strojového učení. Struktury v PNR poskytují informace pro odvození základních pravdivých sekundárních strukturních štítků používaných pro trénování a testování prediktivních modelů. V současnosti obsahuje více než 150 tisíc experimentálních struktur a asi 15 tisíc neredundantních proteinů (s <25% vzájemnou sekvenční identitou) [27]. Počet dostupných proteinových sekvencí v sekvenčních databázích se dramaticky zvýšil z 5 milionů v roce 1999, kdy byl široce používán PSIPRED bylo dnes publikováno [28] na 168 milionů.

Vyvíjely se a zlepšovaly se také metody predikce sekundární struktury a naše schopnost je porovnávat. Několik recenzí [1, 19, 29–33] poskytuje vynikající zdroj historie vylepšení metod predikce. Tyto metody byly rozděleny do souboru čtyř generací metod pokrývajících 50leté období od roku 1960 do roku 2010 [1, 30, 34], rovněž navrhujeme novou pátou generaci od roku 2010 do dneška a popisujeme ji podrobněji.

The první generace metod - jako např C+F [35], Lim [36] a GORI [37] — od 60. a 70. let se spoléhalo na preferenci jedné aminokyseliny H, E, a C sekundární typy struktur. V roce 1983 byla původní přesnost 65–70% uváděná metodami první generace revidována směrem dolů na 48–56% [38]. Dickerson a kol. byli první, kdo prokázal, že evoluční informace byly užitečné pro predikci sekundární struktury [39]. Evoluční přístup během tohoto období byl však omezen malým počtem homologních proteinových sekvencí dostupných pro jakýkoli cíl.

The druhá generace metody z 80. a počátku 90. let - jako např Schneider [40], ALB [41], GORIII [42], KOMBAJN [43], a S83 [44] - využilo statistickou analýzu řady sousedních zbytků k předpovědi sekundární struktury centrálního zbytku [30, 34]. Ty byly založeny na statistických informacích, sekvenčních vzorech, fyzikálně-chemických vlastnostech, neuronových sítích (NN), teorii grafů, multivariační statistice, expertních pravidlech a algoritmech nejbližšího souseda [34]. Metody druhé generace těžily z větších sekvenčních databází a využití evolučních informací. Například Zvelebil et al. začlenily evoluční informace do své metody předpovídáním sekundární struktury pro každý protein v souladu a poté hlášením průměrné predikce [45]. Metody druhé generace však saturovaly s nízkou přesností 3 značek 58–63 % a zaznamenaly dva problémy: 1) beta řetězce byly předpovězeny na velmi nízké úrovni přesnosti 28–48 %, mírně lepší než náhodné 2) předpovídané šroubovice a prameny byly příliš krátké na to, aby byly praktické [34].

Metody třetí generace z poloviny 90. let – jako např PHD [46], LPAG [47], SSP [48] ​​— dosáhl 10procentního zlepšení přesnosti 3 štítků oproti metodám druhé generace, což vedlo k přesnosti 68–72 %. Metody z konce 90. let do počátku 20. století, včetně PSIPRED [49], JPred2 [50], SSpro [51] a PROF [52], dále dosáhl 75–77%. Úspěch přinesly tři faktory [30, 34]: 1) použití evolučních informací zakódovaných v zarovnání více sekvencí (MSA) nebo matici bodového hodnocení (PSSM) jako přímé vstupy do predikčního programu 2) větších databází než pro metody druhé generace a 3) pokročilejší algoritmy. Největší zlepšení prokázaly algoritmy založené na neuronových sítích [30, 46, 49, 53, 54].

Inspirován evolučními informačními funkcemi, které jsou vstupem v předchozích aplikacích, čtvrtá generace metody od poloviny dvacátých let minulého století dále využívaly řadu dalších vstupních funkcí [33], včetně statistik penta-peptidů [55, 56], profilů konzervovaných domén [57], častých vzorců aminokyselin [58], předpokládaných úhlů torze [59, 60], predikované kontaktní mapy zbytků [61], předpokládaná dostupnost zbytkového rozpouštědla [62], predikovaná terciární struktura [62, 63] a predikované pseudoenergetické parametry pro tvorbu šroubovice [64]. Většina z nich jednotlivě vedla k malým vylepšením. Například Meiler et al. navrhl jako vstup sedm reprezentativních vlastností aminokyselin a ukázal jejich desetinásobnou křížově ověřenou přesnost zvýšenou pouze o 0,5 procentního bodu ze 77% [65]. Předpokládaná dostupnost reziduálního rozpouštědla zlepšila přesnost 3 značek o 3 body [66]. Předpovězené dihedrální úhly pomohly 2 body [67]. Tyto funkce však společně nezlepšily přesnost 3 štítků nad 80% [68]. Některé z metod čtvrté generace-jako např HYPROSP [69], PROTEUS [70], MUpred [71] a DESTILOVAT [72] - využili výhody strukturních fragmentů nebo šablon homologních sekvencí k pokusu o průlom. Přineslo pouze mírné zlepšení o 3 procentní body a nezvyšovalo přesnost 3 štítků nad 80% s dalšími vstupními funkcemi nebo bez nich.

Identifikovali jsme 69 prací publikovaných za posledních 10 let o metodách predikce sekundární struktury. Některé z těchto metod přiřadíme novému pátá generace pokud byly vyvinuty pomocí sofistikovanějších architektur neuronových sítí, jako jsou hluboké konvoluční neurální sítě (CNN), obousměrné rekurentní NN, jako je dlouhodobá krátkodobá paměť, a zbytkové NN a jejich kombinace, [73–82] a/nebo začleněny více pokročilé evoluční vstupní funkce, jako jsou párové koevoluční modely [74, 76–78, 82]. Někteří z nich také přehodnotili přístup založený na šabloně [73, 83] nebo použili soubor modelů s průměrným hlasováním [73, 74, 78, 80, 82, 84] nebo byli vyškoleni v předpovídaných kontaktech zbytků, přístupnosti povrchu zbytků, Expozice Ca-atomů, torzní úhly páteře a předpovědi sekundární struktury 3 štítků z jiných programů [82]. Bezšablonové metody [74–81, 83, 84] uváděly přesnost od 82 do 87 %, což je podstatné zlepšení oproti přesnosti čtvrté generace 80 %. Teoretický limit přesnosti 3 štítků je 90–95% [1, 30, 72, 82, 85, 86] na základě rychlosti, s jakou různé programy, jako např. DSSP a Krok [87] přiřadit experimentálním souřadnicím stejnou sekundární strukturu.

V roce 2015 metoda páté generace SPIDER2 [81, 88] využili tři iterativně propojené CNN, z nichž každá se skládala ze tří skrytých vrstev, čímž se dosáhlo přesnosti 3 štítků 82%. Jpred4 [74] měl ve stejném roce opět 82% přesnost kombinací několika CNN vycvičených na stejných vícenásobných zarovnáních prezentovaných sítím různými způsoby. O rok později v roce 2016, DeepCNF [75] dosáhl zlepšení přesnosti o 2 procentní body na 84 % kombinací 5–7 vrstvého CNN s podmíněným náhodným polem jako další vrstvou. CNN byla zkonstruována ve stylu trychtýře prosazováním stejných vah v sousedních vstupních a skrytých uzlech, a tím omezením celkového počtu parametrů, které se mají trénovat, a umožněním sekvenčních informací delšího dosahu. Finální podmíněná vrstva náhodného pole byla použita pro zohlednění korelace sousedních zbytků. V roce 2017 autoři SPIDER2 upgradovali svou předchozí metodu na novou architekturu NN v SPIDER3 [76], spoléhající se na čtyři skryté vrstvy s prvními dvěma obousměrnými rekurentními vrstvami NN (BRNN) následovanými dvěma plně propojenými vrstvami a vykazující 84% přesnost 3 štítků, což je zlepšení o 2 procentní body oproti SPIDER2. Také v roce 2017, FSVM [83] byla hlášena s 83% přesností bez šablony dosaženou pomocí fuzzy podpůrného vektorového stroje. v roce 2018 MUFOLD-SS [77] uvedli přesnost 3 štítků 84%, přičemž neurální síť spoléhala na vnořené počáteční modely, což jsou vnořené sítě několika paralelních CNN, které se ukázaly jako nejmodernější v rozpoznávání obrazu. Ve stejnou dobu, PORTER5 [78] opět dosáhli 84% přesnosti použitím souboru BRNN. V roce 2018 přišla další metoda, PSRSM [84] uvádějí zlepšení o 1–2 body na 85–86% přesnost, avšak v nezávislé studii byla uváděná přesnost revidována směrem dolů na 82 % [82]. The PSRSM publikace nezmiňuje vyloučení sekvenční podobnosti mezi tréninkovými a testovacími sadami, což by mohlo být příčinou tohoto nadhodnocení. Metoda 2018, CNNH_PSS (5vrstvá víceúrovňová CNN s dálnicemi mezi sousedními vrstvami), byla vycvičena pouze pro 8 štítků a vykazovala 70% přesnost [79]. Další metoda roku 2018, eCRRNN, soubor 10 sítí založených na kombinaci konvolučních, reziduálních a obousměrných rekurentních NN), prohlásil dosud nejvyšší přesnost 8-label a 3-label 74% a 87% [80].

Metody páté generace [73–84] závisí na vícenásobném zarovnání sekvencí cílových sekvencí, zatímco několik z těchto metod také spoléhá na šablony [73, 83], tj. Skutečné proteinové struktury z tréninkové sady sestávající z experimentálních souřadnic proteinové fragmenty. Tyto „šablonové“ metody mohou dosáhnout vyšší přesnosti, v rozmezí 86–93 %, než metody bez šablon. Homologní struktury však nejsou dostupné pro mnoho proteinů, které by byly cílem predikce sekundární struktury, a takové metody nejsou řešením obecného problému predikce sekundární struktury. Přesnost metod založených na templátech klesá z 86–93% na 80–83% bez šablon a dále až na 74–77% bez homologních sekvencí [73, 82, 83]. Podobně přesnost metod založených na MSA bez templátu klesá z 82–84 % na 73–75 % bez použití homologních sekvencí [75].

Na základě šablony SSpro5 z roku 2014 [73] využívá a VÝBUCH [89] vyhledávání PDB za účelem nalezení podobných sekvenčních fragmentů o délce alespoň 10 až cílové sekvence a uvádí nejčastější DSSP-přiřazená třída v sadě proteinů vybraných pro danou pozici. Když žádné podobné sekvence nebo žádná dominanta DSSP třídy v podobných sekvencích, predikce sekundární struktury je založena na souboru 100 BRNN trénovaných na souboru dat. Se šablonami, SSpro5 dosahuje 93% přesnosti 3 štítků bez šablon SSpro5 má pouze 79–80% přesnost. FSVM [83] popsaný výše může také běžet v režimu založeném na šablonách s použitím stejného konceptu strukturní podobnosti založeného na sekvenci jako v SSpro5. V tomto režimu FSVMPřesnost 3 štítků se zvyšuje z 83% na 93%.

Jedním z běžných problémů, které se opakovaně opakovaly během historie predikce sekundární struktury, je to, že hlášené přesnosti nebyly vždy dodržovány, když byly metody aplikovány na nové srovnávací testovací sady [30, 34, 38, 46, 82, 90]. Rost a Sander [34] uvádějí, že příliš optimistická tvrzení jsou způsobena nedostatečnou kvalitou a velikostí testovacích sad nesplňujících několik požadavků. Za prvé, mezi proteiny použitými pro trénink a testovací sadou nelze pozorovat významnou identitu párových sekvencí [90, 91]. Například v [84] bylo školení prováděno na sadě představující celý sekvenční prostor PDB, což vedlo k velmi podobným proteinům v trénovacích a testovacích sadách. Za druhé, velikost testovací sady musí být větší než několik desítek proteinů [46]. Za třetí, kvůli různé strukturní složitosti s určitými rysy, které se snadněji předpovídají, musí být pro testování použity všechny dostupné jedinečné proteiny. Zdrojem nadhodnocení přesnosti může být také neúmyslné několikanásobné nebo několikanásobné testování testovací sady [34]. Je náročné porovnávat programy na běžných sadách benchmarků, protože programy jsou trénovány na různých sadách struktur, z nichž některé mohou být v jakémkoli konkrétním benchmarku. Například CB513 soubor dat [91] byl použit opakovaně [75, 77, 79, 80, 83], přestože v tréninkových datech pro nový program mohou být použity související proteiny [73, 76, 78, 82].

V tomto článku zkoumáme faktory, které přispívají k přesnosti sekundární struktury proteinu bez templátu, pomocí (1) souboru 10 jednoduchých tradičních 4vrstvých CNN a (2) přísně definovaných a nezávislých tréninkových, validačních a testovacích sad. Vyvinuli jsme několik testovacích sad a popisujeme, jak porovnat stávající nebo budoucí metody s novými testovacími sadami (nebo podobně konstruovanými testovacími sadami v budoucnu) a jakých chyb se při školení a testování vyvarovat.

Naše hlavní testovací sada, Test2018, sestává z proteinů, jejichž struktury byly stanoveny v roce 2018 a které nesdílejí více než 25% sekvenční identitu s žádnou strukturou jakéhokoli rozlišení nebo typu experimentu uloženou před 1. lednem 2018. To nám umožňuje porovnat náš program, SecNet, s metodami, které byly trénovány před začátkem roku 2018. Zatímco tam bylo pouze

Zlepšení o 5 procentních bodů oproti metodám třetí generace z počátku dvacátých let minulého století, prokazujeme zvýšení přesnosti o 2–3 procentní body v přesnosti tří a osmi značek ve srovnání se dvěma nedávno vyvinutými modely hlubokého učení, které vykazovaly nejvyšší přesnost na populární CB513 soubor dat dostupný od roku 1999.

Přerušení identity sekvence 25–30% mezi tréninkovými a testovacími sadami je běžnou praxí již mnoho let [42, 46, 48, 69, 75, 79, 92]. Vyvinuli jsme tři další testovací sady, kde jsme prosadili přísnější kritéria, která by odstranila většinu, ne-li všechny evoluční vztahy mezi naší školicí/ověřovací sadou a testovací sadou. Například jsme použili ECOD (evoluční klasifikace domén) k vývoji testovací sady proteinů, které nesdílejí žádnou homologní doménu s proteinem v naší tréninkové sadě. Klastry domén ECOD na úrovni homologie („úroveň H“), i když jsou domény velmi vzdáleně příbuzné a mají různé topologie (obvykle sdílející společné jádro a určitou funkční podobnost jako důkaz společného předka). Naše přesnost predikce sekundární struktury klesá pouze o jeden procentní bod, když jsou vynucena tato přísnější kritéria.

Prostřednictvím ablační studie, která následovala SecNet Při vývoji jsme zkoumali faktory, které jsou důležité pro vysoce přesnou predikci, jako je složitost metody, typy vstupních funkcí, velikost okna, zdroj a velikost databáze, parametry zarovnání a trénovací hyperparametry. Například na rozdíl od mnoha metod, které používají extrémně široká okna sekvence (pokud jsou celá sekvence) [75, 76, 80, 93], naše výsledky ukazují, že CNN neprospívají z hlediska celkové přesnosti nad 15 zbytků vzdálených od prediktivní štítek. Diskutujeme o praktičnosti predikce sekundárních strukturních značek pro predikci terciární struktury proteinů a navrhujeme nová schémata 4 a 5 predikční značky, která by měla být užitečnější pro strukturální biologii.


Implementace

Specifické funkce SWeeP použité v této studii byly implementovány pomocí programovacího jazyka MATLAB. Kroky uvedené v definici parametrů pro studii 1 a studii 2 byly provedeny na 40jádrovém procesoru Intel Xeon s 256 GB RAM se systémem Ubuntu 16.04.1 LTS. Porovnání s metodami bez zarovnání bylo provedeno na procesoru Intel Core i5 s 16 GB RAM se systémem Biolinux 8.0 (na základě Ubuntu 18.04.01 LTS). Implementace je volně dostupná pro oba operační systémy (viz Dostupnost dat). Pro testy strojového učení jsme použili Weka Software 37.

Testovací sada

Sekvence mitochondriálních proteinů byly získány z databáze RefSeq dostupné na ftp://ftp.ncbi.nlm.nih.gov/refseq/release/. Vizualizace a manipulace s fylogenetickými stromy konstruovanými pomocí SWeeP byla provedena pomocí Dendroscope 3 38.

CDS bakteriálních genomů použitých pro grafické znázornění matrice M byly získány od NCBI. Organismy a jejich příslušná přístupová čísla jsou uvedena v doplňkové tabulce S4.

Definice parametrů

V této studii je reverzibilní matice taková, kde 1 je brána jako ε ( ( varepsilon = 1 )) a binární matice je ta, kde 0 je vzato pro (( varepsilon to 0 )). U všech příkladů a případových studií W (vyšší dimenzionální vektory) byly získány z binární matice. Tato volba je dána skutečností, že nejrelevantnější metrikou v této studii je výpočetní proveditelnost (rychlost komprese a zpracování SWeeP) v kombinaci s našimi výsledky testů, které ukazují, že SWeeP (projekce souřadnic 600) vysoce koreluje s W s rychlostí 0,98 a p -hodnota < 0,01. The slova s ​​mezerami byly vybrány aplikací masky „11011“ ve všech případech, protože se v literatuře doporučuje jako dobrá volba pro proteiny 23 . Metoda SWeeP je nicméně nastavitelná a umožňuje několik projekcí a více k-merů (prostřednictvím změny a/nebo přidání masek), což umožňuje přizpůsobení modelu těženým datům 14,15 jako zvýšený k-mer velikost zvyšuje výpočetní obtížnost.

Nejlepší metrikou vzdálenosti pro mitochondriální proteomy je euklidovská vzdálenost a pro analýzu byla po manuální validaci a plotové analýze zvolena projekce velikosti 600 souřadnic (viz doplňkový obrázek S5 a tabulka S5).


Podívejte se na video: Beginners Guide to Clustal Omega. Multiple Sequence Alignment (Červenec 2022).


Komentáře:

  1. Pwyll

    Nepotřebuji tak dobré!

  2. Thurstun

    Myslím, že tohle je lež.

  3. Sheehan

    Clever things, speaks)

  4. Tahn

    Myslím, že nemáte pravdu. Jsem si jistý. Mohu to dokázat.



Napište zprávu