Source: http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0018868
John C. Faver 1, Mark L. Benson 1, Xiao El 1, Benjamin Roberts p. 1, Bing Wang 1, Michael S. Marshall 2, C. David Sherrill 2, Kenneth M. Merz Jr. 1 *
1 Quantum Project Teoria, Universitatea din Florida, Gainesville, Florida, Statele Unite ale Americii,2 Centrul pentru Ştiinţă şi Tehnologie Computational Moleculara, Facultatea de Chimie si Biochimie, şi Facultatea de Stiinta si Ingineria Computational, Georgia Institute of Technology, Atlanta, Georgia, Statele Unite ale Americii
Predictii de rutină a structurii proteinelor tridimensionale din secvenţă rămâne o provocare în biochimie de calcul. Acesta a fost intuit că energiile calculate de la funcţiile de fizica pe baza de scoring sunt capabili să distingă nativ din falduri nonnative pe baza performanţei anterioare cu proteine mici şi că eşantionarea conformationala este gâtuire fundamentală pentru pliere de succes. Am demonstrat că pe măsură ce creşte dimensiunea de proteine, erori în energiile calculate deveni o problema semnificativa. Ne arată, prin utilizarea funcţiilor probabilitate de eroare de densitate, că fizica pe bază de scoruri contine erori de semnificative sistematice şi aleatoare în raport cu energii de referinţă exacte.Aceste erori se propage în întreaga o proteina întreg şi să denatureze peisajului de energie pentru o asemenea măsură încât funcţiile moderne de notare ar trebui să aibă puţine şanse de succes în găsirea de energia liberă minimele de proteine mari. Cu toate acestea, prin intelegerea erori în funcţiile de scor bazate pe fizica, ele pot fi reduse într-un post-hoc mod, îmbunătăţirea preciziei în calcul de energie şi a discriminării ori.
Referirea: Faver JC, Benson ML, El X, Roberts BP, Wang B, et al. (2011) Energie Calculul Paradoxul şi ab initio pliere proteine. PLoS ONE 6 (4): e18868. doi: 10.1371/journal.pone.0018868
Editor: Collin M. Stultz, Massachusetts Institute of Technology, Statele Unite ale Americii
Primite: 01 decembrie 2010; acceptate: douăzeci şi unu martie 2011; Publicat: 25 aprilie 2011
Copyright: © 2011 Faver et al. Acesta este un articol cu acces liber distribuit sub termenii licenţei Creative Commons Attribution, care permite folosirea fără restricţii, de distribuţie, şi reproducerea în orice mediu, cu condiţia autorului original si sursa sunt creditate.
Finanţare: Aceasta lucrare a fost finantat de National Institutes of Health (http://nih.gov/) GM044974 şi GM066689; National Science Foundation (http://www.nsf.gov/) CHE-1011360; si Centrul National pentru Stiinte Computational la Oak Ridge National Laboratory (http://www.nccs.gov/) contractul DE-AC05-00OR22725. Publicarea acestui articol a fost finantat in parte de la Universitatea din Florida Fondului publicarii Open-Access. Finanţatorii a avut nici un rol în proiectarea studiului, colectarea şi analiza datelor, decizia de a publica, sau de pregătire a manuscrisului.
Concurenţa interese: Autorii au declarat că nu există interese concurente.
* E-mail: merz@qtp.ufl.edu
O problemă pe scară largă a studiat şi încă nerezolvate în mare măsură în biochimie de calcul este ab initio de proteine-pliere problemă - de predicţie a structurii proteinelor tridimensionale dintr-o secvenţă de aminoacizi [1], [2]. În ultimii ani, metode bazate pe fizica (cei care în mod explicit modelul de interacţiunile inter-si intramoleculare unui sistem chimic), combinate cu căutări extinse conformationala şi prelevare de probe, au fost explorate ca o soluţie generală a problemei. Baza de orice metodă pe bază de fizica utilizat pentru a studia plierea proteinelor este ipoteza termodinamic - că biologic active (nativ), ori este un minim de energie liberă [3]. Aceasta este paradigma cea mai utilizate pe scară largă, deşi există câteva excepţii de la regula cunoscut [4], [5]. Dinamica moleculară (MD) simulări sunt utilizate în mod obişnuit pentru a analiza cinetica pliere a unei proteine folosind fizica pe baza de potentiale, cu toate acestea, termenele necesare pentru a simula pe deplin procesele de pliere a proteinelor mari poate fi prohibitiv de lung [6], [7], [8], [9]. Monte Carlo, bazate pe tehnici de căutare şi de reducere la minimum a coroborat cu fizica pe baza de potentiale sunt folosite, de asemenea, [10]. Din păcate, aceste şi alte metode bazate pe fizica, au avut dificultăţi în estimarea corectă falduri de proteine de lanţuri mai mult de 100 de amino-acizi [11], [12].
O explicaţie a propus pentru eşecul de metodele actuale de fizica pe baza de pliere de proteine de mare este faptul că " principalul obstacol pentru Predictii de proteine structura de novo, este de prelevare a probelor conformationala " [13]. Într-adevăr, numărul mare de grade de libertate, este dificil să găsiţi cele minime de circulaţie a unei proteine mare. Cu toate acestea, pe baza dovezilor de la cinetica pliante, peisajul o proteina de energie poate avea unele caracteristici previzibile, în forma sa de ansamblu. Levinthal remarcat faptul că, deşi proteinele mari au acces la cantităţi mari de spaţiu conformationale, ei trecerea de la state la denaturat state pliat surprinzator de repede, ca în cazul în care numai proteinele probe selectiv spaţiul disponibil conformationale [14]. Bazat pe aceasta, ea a fost dedus că peisajul o proteina de energie este ca o formă de pâlnie mare-dimensional, cu foarte multe de mare energie statelor din jur un minim profundă la nivel mondial (starea nativa) [15], [16].În funcţie de proteine, acest lucru poate avea pâlnie de pante line, sau ascuţite cu înclinaţie variabilă, care determină rata de pliere [17]. Cu acest tip de peisaj pliere, proteina poate cu uşurinţă "intră în" (probabil după depăşirea minimele locale) pliat de stat din oricare din statele desfăşurat fără a trebui să proba suprafata intreaga energie. În cazul în care conceptul de pâlnia este un model precis de peisaje proteine energie pliere, de prelevare a probelor atunci exhaustiv conformationala nu ar trebui să fie necesar, dar corespunzător de eşantionare rămâne o componentă importantă a unui algoritm de pliere datorită prezenţei probabil de minimele locale, în suprafaţă de energie, în special pentru mai lent pliere proteine.
În timp ce prelevarea de probe joacă în mod clar un rol semnificativ în ultima solutie pentru a ab initioproblema înfăşurării proteinelor, este important să nu se trece cu vederea rolul jucat de energie funcţii. Fizica pe bază de ab initio de proteine încercări de pliere pentru a calcula energiile relativă liberă a conformaţiei proteine si energic separate, mis-pliate structuri de cele native. Fundaţie tipic de fizica pe bază de potenţialele utilizate în ab initio studii pliere este câmpul de forţă clasică şi derivaţii săi [18]. Acestea sunt, în general, construite într-o manieră pe porţiuni pe baza sistemelor de modelul care reprezintă interacţiunile găsite în proteine şi sunt apoi extinse la sistemele de proteine complete.Acesta a fost presupus că abilitatea de a reprezenta cu acurateţe sistemele mici model va produce o reprezentare exactă a unei proteine complete. Aceasta este, incertitudinile în energiile sistemelor de modelul de ± 1 kcal / mol se presupune să producă erori similare în energie a sistemelor de proteine mult mai mare (a se vedea figura 1) [19]. Mai mult decât atât, în general, se consideră că, deoarece câmpuri de forţă sunt parametrizate, ele sunt în mare măsură supuse la micile erori aleatorii. În mod paradoxal ne arata ca (1), deşi fizica pe bază de funcţii scor incertitudini randament mic pentru sistemele de model mic, aceste incertitudini creste in mod dramatic cu o dimensiune a sistemului şi că (2) cele mai multe metode de calcul, chiar şi cei care au fost parametrizate, contine erori de mare sistematice şi aleatoare atunci când sunt aplicate la macromolecule. Prin urmare, putem concluziona că funcţiile actuale de energie să introducă astfel de incertitudini semnificative în fizica pe bază de exerciţii de pliere care acurateţe îmbunătăţirea în calcul de energie este la fel de importantă ca şi de prelevare a probelor în rezolvarea ab initio proteine problemă pliere.
Figura 1. Exemplu de sisteme de modele folosite pentru a construi-up interacţiuni în proteine.
Energiile exacte interacţiune pentru sistemele de model sunt presupune că pentru a obţine exacte energiile globale de interacţiune pentru o proteina pliat.
doi: 10.1371/journal.pone.0018868.g001Acest punct este clar ilustrat în studiile recente de WW PIN1 domeniu efectuate de către două grupuri folosind două câmpuri de forţă de construcţie similare, dar cu opţiuni diferite parametru. Schulten şi co-lucrătorilor ori a încercat să PIN1 folosind câmpul de forţă CHARMM si simulari pe MD (10 ľs), dar nu au avut succes [20]. Acest lucru a fost dovedit a fi mai târziu din cauza unor probleme cu câmpul de forţă utilizate [21]. Cu toate acestea, recentele simulări lung MD (1 ms), de Shaw si co-lucrătorilor reuşit în PIN1 pliere cu ajutorul unui câmp de forţă modificată AMBER (ff99sb) [22]. Formele de aceste câmpuri vigoare în a doua ambele urme rădăcinile lor din câmpul de forţă coerentă a Lifson [18], [23], [24] şi co-lucrătorilor şi sunt similare în construcţie, dar sunt parametrizate diferit. Această comparaţie prezinta gama de incertitudine prezent în câmpuri de forţă, care poate genera succesul sau eşecul, dar originea acest lucru nu a fost bine înţeleasă până la locul de muncă prezent.
Impactul de observare noastre afectează orice metodă care încearcă pentru a calcula energiile totale de interacţiune a oricărui proces de macromoleculare, inclusiv: pliere proteine, proteine-ligand de andocare, izomorf Predictii cristal, asamblare ale nanomaterialelor, şi altele. Într-un studiu anterior următorul text ipoteza noastră iniţială [25], am aplicat analiza eroare statistică de la problema de proteine-ligand de andocare [26]. În acest studiu, sa observat că erorile sistematice şi aleatorii, într-adevăr nu se acumulează rapid în întreaga mari sisteme chimice care interacţionează. Pentru mai multe dintre funcţiile scor examinat, estimările globale de eroare în energia de interacţiune totală a depăşit de energie experimentale liber de legare ligand. În cazul de pliere proteine, acumulare de eroare este, de asemenea, preconizează a fi semnificative din cauza numărului mare de interacţiuni chimice implicate într-o ori de proteine [19].
Erori de inerente într-un calcul sau de măsurare poate fi descris ca fie sistematice sau aleatoare.Erorile sistematice sunt previzibile în ambele semn şi mărime, în timp ce erorile aleatorii nu sunt previzibile în semn sau mărime. Din cauza acestei diferenţe, erori sistematice propaga ca o sumă de simplu, în timp ce erorile aleatorii propaga ca rădăcina pătrată din suma pătratelor [27]. Înmulţite eroare sistematică este corectabile, deoarece descrie o schimbare globală previzibilă în valoarea măsurată. Erori propagate aleatorii nu sunt uşor de correctable, şi sunt măsurate şi raportate ca acumularea de eroare de la toate sursele de eroare aleatorie. Eroare mare aleatorie este o caracteristică a unei metode de măsurare foarte imprecis. În căutarea suprafaţa de energie a unei proteine pentru globale minime energiei libere, eroarea totală din toate sursele ar trebui să fie redusă la minimum.
Pentru a ilustra efectele de propagare eroare cu privire la problema de proteine-pliere, imaginaţi-vă o proteina suprafata de energie, ca o pâlnie incadrand structurii globale minime (de stat pliat). În general, aceste suprafeţe nu sunt netede, dar de multe ori contin multe minimele locale, în afara de starea nativa. În cazul în care proteinele pliate are, de exemplu, 100 de contacte independente chimice (de exemplu, van der Waals interacţiuni şi legături de hidrogen între reziduurile), şi fiecare este modelat computational pentru exactitatea chimice (de exemplu, în decurs de 1 kcal / mol eroarea aleatorie cu privire la o măsurare experimental) [28], apoi raspandire eroarea aleatorie dă o eroare totală de ± 10 kcal / mol. Acest lucru ar implica faptul că modelul nostru de calcul ipotetic ar avea dificultati in a distinge starea nativa din orice alt stat cu care se suprapun barele de eroare în termen de 10 kcal / mol. Astfel, modelul nostru de calcul se poate găsi în mod corect mai multe minimele locale, dar dacă acestea diferă în energie cu mai puţin de amploarea bar eroare, poziţia globale minime (care este de obicei ori nativ), nu a putut fi stabilită cu certitudine mult (a se vedea figura 2). Dill dat seama de problema de raspandire eroare, conducându-l pentru a sugera faptul că o ţintă de 0,1 kcal / mol pe aminoacizi ar fi un nivel acceptabil de eroare pentru o proteina de 100 de aminoacizi, obţinându-se o bara de ansamblu eroarea aleatorie de numai ± 1 kcal / mol [19]. Având în vedere că fiecare aminoacid poate avea mai multe contacte intramoleculare, fiecare cu o eroare asociată, atingerea acestui nivel de acurateţe este într-adevăr un efort foarte provocator.
Figura 2. Denaturarea în peisaje de energie calculat ca urmare a propagării de eroare.
Dacă fiecare microstarea unei proteine în cadrul studiului conţine o cantitate semnificativă de eroare în energie său, calculate (arătată aici ca barele de eroare), suprafeţele pliere calculată fi distorsionat în ceea ce priveşte suprafaţa pliere curenta. Acest efect introduce dificultate in a distinge între minimele locale pe suprafaţa pliere şi în găsirea faldurile nativ de proteine. Acest efect este amplificat de proteine deosebit de mari, cu mai multe contacte intramoleculare contribuind la păşunea lor de proteine stabile.
doi: 10.1371/journal.pone.0018868.g002În încercarea noastră de a estima şi a corecta erorile de la scorurile de energie pe bază de fizica utilizat în pliere de proteine, am luat o abordare descrise anterior de către Merz [25]. Interacţiuni intramoleculare implicate în falduri de proteine sunt defalcate în fragmente chimice şi asociate cu interacţiunea energii de referinţă obţinut folosind convergente cuantice calcule chimice sau măsurători experimentale, dacă sunt disponibile. Energiile de la mai multe teorii aproximative sunt apoi comparate cu energiile de interacţiune de referinţă pentru a forma fragment bazate pe estimări de eroare.Estimarea de eroare dintr-o serie din aceste interacţiuni fragment pe bază de conţinut într-un pliu de proteine şi de înmulţire apoi aceste erori în toate fragmentele în randamentele ori o estimare a erorii totale asociate cu o energie totală calculată pentru proteine. Eroare este defalcat într-o porţiune sistematice care pot fi corectate de o parte şi aleatoriu care nu poate, dar pot fi raportate ca o bară de eroare.
Este important să ne amintim că principiul termodinamice de pliere proteine se aplică la energia liberă nu, energia de interacţiune (diferenţe de energii total de electronice) pe care le folosim aici. Total de energie electronice de pliere, ΔE pliere, este doar o parte a energiei libere pliere, ΔG pliere, obţinute prin ecuaţia comandant pentru calculul energiei libere rabatabile dintr-o structură pe deplin de referinţă desfăşurat [19].
(1)
Aici ΔH corecţie reprezintă corecţii enthalpic la energia electronice, ΔS pliere este variaţia de entropie de pliere şi ΔΔG solvatare este diferenţa de energie solvatare liberă a pliat şi derulat state.
Pentru a calcula în mod fiabil energiile liber de falduri proteine native şi nonnative, erorile asociate cu fiecare termen de Ecuaţia 1 trebuie să fie reduse la minimum. Având în vedere acest lucru, estimările noastre de energie de eroare de interacţiune ar trebui să fie considerat "cel mai bun scenariu", sau mai mici-limită de eroare de energie fără estimări, deoarece ei neglijează eroarea provenind din entalpia, entropia, şi termeni de energie solvatare. Cu toate acestea, în cazul în care suprafaţa energiei potenţiale nu este modelată Ei bine, acesta va avea impact asupra calităţii de nici o estimare a entropiei, deoarece o suprafaţă calitate slabă energia potenţială poate avea efecte asupra estimări entropiei care pot fi dificil de prevăzut (de exemplu, prelevarea de probe din statele non-fizic). Pentru a obţine o estimare fiabilă a energiei libere este esenţial ca ΔE fi bine reproduse pentru a asigura calitatea estimării ΔS. Deşi este adevărat că erorile sistematice, în ceea ce priveşte cele trei rămase din Ecuaţia 1 poate anula favorabil cu erori sistematice în ΔE, acest efect nu a fost încă studiată în detaliu. Estimări Întâmplare eroare, însă, va creşte doar cu adăugarea de termeni cu incertitudini diferită de zero.
Metoda noastră de analiză de eroare se presupune că energiile electronice de interacţiune sunt aditive, chiar dacă energiile libere de fragmente care interacţionează nu sunt [19]. Această aproximare este susţinută de ambele mecanicii statistice [29] şi experimente izoterma calorimetrie[30] care implică proteine-ligand interacţiuni, dar abateri de la aditivitate va avea impact asupra calităţii generale a estimărilor de eroare noastre. Cu toate acestea, este foarte instructiv să examineze estimările de eroare pentru ΔE pliere termen lung, deoarece, în modelul nostru, putem compara orice fizica bazate pe funcţia scor la metodele corecte chimic chimice cuantice furnizarea de estimări fiabile de amploarea erorilor de energie şi de contribuţia lor la ΔG pliere. În cazul în care ΔEpliere erorile sunt mici, impactul lor asupra incertitudinii în ΔG pliante vor fi mici, în caz contrar acestea vor avea un impact semnificativ asupra exactităţii de ΔG pliere şi abilitatea de a prezice falduri nativ de proteine.
În scopul de a genera o bază de date de referinţă de fragment sistemelor bazate pe interacţiunea implicată în falduri de proteine, am examinat un pliu nativ de ubiquitin (PDBID: 1UBQ) [31] în detaliu.După adăugarea şi optimizarea atomi de H din AMBER [32] cu forţa cîmpului ff99sb [33], structura a fost vizualizat cu ajutorul Chimera [34], care a fost folosit pentru a evidenţia van der Waals contacte şi legături de hidrogen care rezultă într-un total de 42 de foşti şi 50 din acesta din urmă. Fiecare interacţiune fragment rezultat a fost evaluat în ceea ce priveşte energia de interacţiune cu gaz fază utilizând un număr de metode diferite. In generatoare de aceste fragmente, pe bază de hidrogen "atomii legătură într" au fost folosite pentru a înlocui rupt legăturile cu restul de proteine. Energiile au fost evaluate cu câmpul de forţă ff99sb [33], Amber Generalizat Forţa de Câmp (harpon) [35], ff03[36], AM1 [37], PM3 [38], PM6 [39], PDDG [40], PM6 -DH2 [41], HF, MP2, B97-D [42], M06, M06 şi-L[43]. Ff99sb şi ff03 metode de câmp de forţă atomică a suferit o procedură de scalare taxa pentru a produce taxe corecta nete pe fragmente de date. Acest lucru a fost necesar, deoarece suma tarifelor de parametrizate camp de forta pe un fragment de multe ori nu au egal cu taxa totală utilizată la calcularea energiei electronice, cu o metodă de referinţă QM. Cu excepţia cazului în vigoare taxele de câmp sunt scalate în mod corespunzător, erori suplimentare din cauza lipsei de conservare taxe sunt introduse [44].
Ab initio cuantice bazate pe metodele folosite mai multe seturi de baza si a inclus corectarea contragreutate de eroare suprapunerea bază stabilite. Møller-Plesset teoria perturbaţiilor prin ordinul doi (MP2), cu extrapolări set complet de baza (CBS) [45] din Aug-cc-pVTZ şi Aug-cc-pVQZ seturi de bază (denumit în continuare abreviat ca AXZ: X = D, T, Q) au fost utilizate pentru cele mai multe din valorile de referinţă. Bazat pe rapoartele precedente [46] şi de experienţa noastră cu analiza de eroare de pe proteine-ligand sisteme, metoda de grup cuplat cu excitaţiilor single, duble, triple şi perturbative (CCSD (T)) energiilor CBS a arătat cea mai mare imbunatatire de la MP2/CBS pentru sistemele de care conţin grupe aromatice. Cu toate acestea, prezenta cauză nu conţinea aromatice-aromatice şi interacţiunile numai opt totale aromatice-nepolare date de contact. Prin urmare, CCSD (T) / energiile CBS de referinţă au fost calculate (aşa cum este descris în lucrările noastre anterioare [26]), numai pentru aceste fragmente. Adăugarea de molecule de proteine mai si tipuri specifice de interacţiune [47] în baza de date de referinţă noastră ar putea îmbunătăţi în continuare abilitatea noastră de a estima erorile, dar acesta este un efort consumatoare de timp care necesită un număr mare de nivel înalt, calculele de energie mecanica cuantica [48].
Calculele ff99sb harpon şi s-au desfăşurat cu AMBER 11 suită de programe [32], şi ff03 energiile au fost calculate cu pachetul de Schroedinger [49]. Energii AM1, PM3, PM6, şi PDDG au fost calculate cu DivCon [50], şi PM6-DH2 energiilor au fost calculate cu MOPAC2009 [51]. Energii HF, MP2, B97-D, M06, M06 şi-L au fost calculate cu Gaussian 09 [52], precum şi corecţiile CCSD (T) / CBS folosite pentru a genera valorile de referinţă au fost calculate cu Molpro 2009 [53] şi NWChem 5.1 [54].
Un rezumat al abaterilor fragment pe bază de energie din surse de energie interacţiune de referinţă este afişată în tabelul 1. Abaterile absolute de la datele de referinţă ale noastre au fost montate la Gaussian funcţii de densitate de probabilitate de eroare cu μ parametri (medie de eroare de interacţiune) şi σ (deviaţia standard a erorilor). Parcelele de rezultat sunt prezentate în tabelul S1.Eroarea de distribuţie pentru B97-D/TZVP este prezentat ca un exemplu în Figura 3. Fragmentele au fost împărţite în două clase: nepolare (van der Waals - albastru) şi polare (bonding hidrogen - roşu) interacţiunile. În cazul B97-D/TZVP, eroarea medie, reprezentând eroare corectabila sistematică, este de -0.29 kcal / mol şi 0.59 kcal / mol pe interacţiune pentru interacţiuni nepolare şi polare, respectiv.Varianţei, care reprezintă eroarea aleatorie, este de 0,02 (kcal / mol), 2 pentru nepolare şi 0.158 (kcal / mol), 2 pentru interacţiunile polare. Astfel, acest model de calcul are o descriere destul de exactă a van der Waals interacţiuni cu doar o usoara diferenţa, dar are o distribuţie mai largă a erorilor pentru interacţiuni polare.
Figura 3. funcţiile Histogramă şi densitate de probabilitate care descrie erorile în B97-D/TZVP energii absolut interacţiunea electronică de fragmente moleculare construit de ori nativ de ubiquitin.
doi: 10.1371/journal.pone.0018868.g0031. Tabelul energia de interacţiune Statistică Eroare a bazei de date Fragment 1UBQ.
doi: 10.1371/journal.pone.0018868.t001Cu această bază de date de erori de energie interacţiune în loc, mai-limită estimări ale erorilor sistematice şi aleatoare atât pot fi obţinute pentru energiile proteine ori. Împreună cu calculul de energie a unei cute de proteine, o analiză a componentelor sale fragment interacţionează pot fi făcute. Prin determinarea tipului de interactiune, o estimare pentru contribuţia un fragment la indicele de eroare global pot fi preluate din baza de date. Eroare global este apoi înmulţite ca
(2)
(3)
în cazul în care i se întinde pe toate tipurile de interacţiune (de exemplu, polare, nepolare), stocate în baza de date, N i este numărul de interacţiuni de tip I găsite în proteine ori analizate, şi μ -am şi σ i 2sunt de eroare medie pe interacţiune şi varianţei despre eroarea medie pentru tipul de interacţiune i.Reţineţi că eroarea totală sistematic depinde de numărul de fiecare tip de interacţiune şi, prin urmare nu vor anula exact atunci când se compară falduri diferite de proteine, deoarece faldurile pot avea numere diferite tipuri de interacţiuni. Eroarea totală a evaluat sistematic ar trebui să fie scăzută din energie evaluate şi eroarea aleatorie totale evaluate pot fi raportate împreună cu valoarea energetică corectată.
În cazul B97-D/TZVP pentru ubiquitin (Figura 3), prin utilizarea corespunzătoare funcţiilor probabilitatea de eroare de densitate am estima eroarea totală sistematice care urmează să fie 17.3 kcal / mol şi eroarea aleatorie care urmează să fie 8.9 kcal / mol. Prin urmare, estimat de eroare sistematică este comparabilă cu o energie pliere tipic circulaţie a unei proteine, dar această eroare poate fi corectată. Din păcate, eroarea rămasă aleatorie este încă o parte semnificativă de o energie pliere tipic liber. Orice ori alte proteine, cu o energie calculată în acest bar eroare 8.9 kcal / mol ar trebui să fie considerate imposibil de distins de ori nativ prin metoda de calcul. Cazul B97-D/TZVP reprezintă un exemplu favorabil cu erori mici, medii şi distribuţiile relativ strâmt de eroare (a se vedeatabelul 1 pentru alte exemple), dar ar fi calcul dificil de rezolvat să-l folosească pentru a studia sute sau mii de momeli pentru un sistem de dimensiunea de ubiquitin. Mai multe metode aproximative de calcul accesibil şi mai mare randament erori de estimat. De exemplu, randamentele ff99sb o eroare sistematică de 66.0 kcal / mol şi pe o eroare aleatorie de 18,4 kcal / mol. Magnitudini de astfel de bare de eroare sunt îngrijorătoare, deoarece orice structură non-nativi situată în cadrul 18.4 kcal / mol interval nu a putut fi distins de structura nativa cu ff99sb. În plus, aceste bare de eroare deveni chiar mai mare în proteine mai mari cu mai multe contacte moleculare sunt examinate.
Amploare din aceste erori ne conduc să se prevadă faptul că actuala fizica pe baza de punctaj funcţiile utilizate în ab initio studii de pliere de proteine poate avea erori total de energie mult mai mare decât energiile pliere liber de proteine tipice. Prin urmare, putem concluziona că calcul de energie exactă şi de reducere a eroare reprezintă un obstacol major, împreună cu prelevare de probe în realizarea unui soluţia optimă pentru ab initio de proteine-pliere problemă. Cu toate acestea, suntem acum într-o poziţie pentru a corecta erorile sistematice, îmbunătăţind astfel rezultatele noastre de calcul.
În scopul de a testa ipoteza noastră de eroare, am efectuat calculele de energie şi corecţiile erorilor pe o porţiune a stabilit Rosetta momeală, care conţinea 49 sisteme de proteine. Fiecare dintre ele a cuprins o structura cristalina de proteine Banca de date, 20 de versiuni ale structurii de cristal care au fost relaxate cu funcţia scor Rosetta, şi 100 de momeli consum redus de energie produsă de către Rosetta [55]. Structurile de proteine a variat 50 - 146 reziduuri în lungime de lanţ, astfel încât calculele semiempirical QM (folosind metode moderne de scalare liniară) au fost fezabile. Energiile tuturor structurilor de proteine 5929 au fost calculate cu ff99sb, PM6, şi PM6-DH2. Calculele au fost efectuate cu ff99sb generalizate Nascut modelul cu solvent implicit, şi PM6 şi PM6-DH2 calculele utilizate modelul solventul COSMO în MOPAC. Fiecare structura a fost apoi analizate pentru numărul de interacţiuni nepolare şi polare, precum şi energia corespunzătoare a fost corectată în conformitate cu funcţiile corespunzătoare eroare densitate de probabilitate. Pentru a măsura de îmbunătăţire ca urmare a corecţiilor de energie, trei valori au fost monitorizate: EGAP, z-scor, şi EBO. EGAP (diferenţa de energie) a fost definit ca diferenţa dintre energiile momeală cel mai mic de energie şi cel mai mic structura nativa. Z Scorul este raportul dintre diferenţa dintre cel mai mic de energie ori nativ şi energia medie a tuturor falduri la deviaţia standard a tuturor energiilor ori. EBO (suprapunere bar de eroare), randamentele adevărat în cazul în care structura nativa este găsit să se întindă în cel mai mic bar de eroare de energie, în caz contrar aceasta este falsă.
Rezultatele pentru analiza Rosetta momeală set pot fi găsite în tabelele S2, S3, S4, şi vor fi doar rezumate aici. Prin măsurarea EGAP, îmbunătăţiri ca urmare a corecţiilor de erori au fost observate la 27, 36, şi 31 de seturi de date de proteine pentru ff99sb, PM6, şi PM6-DH2, respectiv. Prin măsurarea z-scorurile, imbunatatiri au fost observate la 38, 41, şi 39 de sisteme. Structurile nativi au fost găsite în cel mai mic bar de eroare de energie în 45, 49, şi 49 de sisteme. În general, corectarea erorilor sistematice ofera cateva beneficii, dar ameliorarea nu a fost uniformă. Am observat că, în timp ce amploarea acestor corecţii de energie variat pe un set de momeli, aceasta variatie a fost mic. Asta este, atât falduri indigene şi momeală au avut erori semnificative sistematice, dar schimbările în energiile relative după corectare a erorilor, de obicei, au fost mici. Setul momeală pentru PDBID: 1H6Z, de exemplu, a avut o corecţie medie de energie de 51,3 ± 5.2 kcal / mol pentru ff99sb, şi structura nativa a avut o corecţie a erorilor de 56,9 kcal / mol. Deşi o mare parte din eroarea sistematică anulate atunci când se măsoară EGAP, îmbunătăţirile din cauza corectarea erorilor poate fi încă semnificativă în comparaţie cu energiile pliante gratuite. Acest lucru ar fi valabil mai ales dacă am fi inclus mai multe non-nativi falduri momeală în analiza noastră. Momeli din acest set sunt foarte asemănătoare nativ şi au aproximativ acelaşi număr de contacte intramoleculare, ceea ce duce la magnitudini similare de corecţiile erorilor. Difference erori sistematice între un structure nativi şi o structure partially unfolded se aşteaptă să fie mult mai mare.
În timp ce eroarea sistematică poate fi estimat şi eliminate, eroarea aleatorie în scorurile de energie nu este uşor corectabile şi reprezintă precizie sărace în funcţii de scoring. După corecţiile de energie, structura nativa a 1H6Z nu a fost structura cea mai mică de energie cu ff99sb, dar energia sa corectat a fost găsit să se întindă în cel mai mic bar de eroare de energie. Acest rezultat pune în evidenţă o Principalul dezavantaj de a folosi o metodă cu eroarea aleatorie mare, deoarece pliurile nativ şi momeală nu a putut fi distins din cauza cumulului barele de eroare aleatorie. Pentru a evidenţia dependenţa de eroarea aleatorie totale pe dimensiunea sistemului, am estimat eroarea totală aleatorie a pliurilor 5929 proteine cu funcţii de scoring trei. Relaţia este prezentată în figura 4. Aşa cum am examina proteine mai mari, suprafeţele lor potenţial energetic ar trebui să devină din ce în ce mai distorsionate din cauza unei erori aleatorie a crescut în funcţiile de energie, care pot avea efecte imprevizibile asupra peisajului energiei libere.
Figura 4. Dependenţa de eroarea aleatorie estimări privind lungimea lanţului.
Falduri mai mari de proteine au mai multe interacţiuni intramoleculare şi, astfel, mai mari înmulţite erori aleatorii în energii evaluate total. Acest efect este de aşteptat să ducă la dificultăţi în estimarea faldurile nativ de proteine mari, deoarece aceasta conduce la denaturarea imprevizibile în suprafaţă totală de energie.
doi: 10.1371/journal.pone.0018868.g004Proteinele pliate sunt caracterizate prin numeroase van der Waals şi interacţiunile lipire pe bază de hidrogen, care trebuie să fie contabilizate cu exactitate atunci când se utilizează pentru fizica pe bază de funcţii de scor. Chiar şi mici erori în energii calculate între parteneri care interacţionează în cadrul unei proteine pentru a produce rapid acumula mari incertitudini generale în energii calculate total.Acest efect de raspandire eroare denaturează suprafaţa calculată energia potenţială a unei proteine într-un mod foarte complicat, şi, prin urmare, modifică forma de pâlnie pliere în moduri care sunt dificil (dacă este posibil) pentru a prezice. Una este doar posibilitatea de a distinge faldurile de proteine de energie atunci când diferenţele de energie sunt mai mari decât bare de eroare lor individuale. Mai degrabă decât având în câteva nativ-ca structuri la partea de jos a pâlniei pliere, acum ar trebui să fie extins pentru a include orice ori în cel mai de jos bara de eroare de energie în partea de jos. Partea de jos a pâlniei de pliere poate fi chiar populate cu statele non-nativi prezis care urmează să fie nativ de funcţia de scoring, cu statele adevărat nativ superior în domeniul energiei calculate, dar, probabil, cu bare de eroare care se suprapun cu statele incorect prezis nativ.
Având în vedere că diferenţa de energie liberă între un pliu de proteine nativ şi denaturat poate fi pe ordinea de 10-20 kcal / mol, erorile în energiile interacţiune de amploarea prezis aici sugerează că suntem un drum lung de la energiile de calcul între falduri nativ şi momeală la un nivel de acurateţe necesare pentru a rezolva, în general, ab initio proteine pliere problemă, în special în proteine mai mari sunt examinate.
Am prezentat şi demonstrat utilizarea unei metode pentru a estima amploarea unor erori în energii calculate de proteine şi a arătat că acestea pot fi corectate în parte, îmbunătăţind astfel rezultatele obţinute din funcţii pe bază de scoring fizica. Corectarea erorilor sistematice pot fi aplicate ca un calcul final sau poate fi calculat şi pe acoperi, de exemplu, în exerciţii interactive de proteine de jocuri pliere[56]. În plus, generarea de funcţii de densitate de probabilitate de eroare oferă o metodă simplă de a analiza şi compararea diferitelor funcţii înscrie în ceea ce priveşte capacitatea lor de a modela cu precizie interactiuni moleculare. De cercetare prezentate în acest document aduce un nou nivel de sofisticare la calcul de energie care a fost în mare parte lipsite de biologie şi chimie computaţională, deschizând uşa pentru noi modalitati de a compara şi de a îmbunătăţi funcţiile moderne de notare folosit în studiul sistemelor complexe, cu un număr mare de inter-si intramoleculare interacţiuni.
Tabelul de funcţii de densitate de probabilitate de eroare pentru fiecare metodă studiată. curbe albastru reprezinta distribuţiile de eroare ale interacţiunilor nepolare, curbele roşu corespund interacţiuni polare, şi curbe negre reprezinta toate interacţiunile. Numerele de mai jos reprezintă fiecare parcelă de eroare de aşteptat sistematică şi aleatorii în sistem compozit ubiquitin. Unităţi de energie sunt în kcal / mol.
(PDF)
Tabel de prezentare a statisticilor legate de analiza a Rosetta momeală stabilite înainte şi după corecţii de energie pentru câmpul de forţă ff99sb.
(PDF)
Tabel de prezentare a statisticilor legate de analiza a Rosetta momeală stabilite înainte şi după corecţii de energie pentru PM6.
(PDF)
Tabel de prezentare a statisticilor legate de analiza a Rosetta momeală stabilite înainte şi după corecţii de energie pentru PM6-DH2.
(PDF)
Conceput şi proiectat pentru experimente: KMM. Efectuat experimente: JCF MLB BW XH BPR CDS CSM.Analizat datele: JCF KMM. Scris de hârtie: JCF KMM.