Sigmoid
Posts
Poate un AI fi mai deștept decât un profesor universitar?

Poate un AI fi mai deștept decât un profesor universitar?

Primul AI superior unui PhD în orice domeniu

Sigmoid AI
August 01, 2025

hello dragi sigmariteni, happy August

iata care sunt highlight-urile lunii iulie: un AI care simulează cu acuratețe deciziile umane, modele superioare profesorilor universitari, o platformă care creează proteine personalizate în câteva săptămâni, modele care generează lumi 3D, un AI care diagnostichează cazuri complexe de 4 ori mai bine ca medicii și multe altele.

fă-ți cafeluța, așează-te comod și începe luna alături de Sigmoid!

Poate un AI fi mai deștept decât un profesor universitar?

xAI a lansat Grok 4 și 4 Heavy, modele care depășesc nivelul PhD cu rezultate SOTA în Arc-AGI. Grok 4 a fost poziționat de Elon Musk ca fiind superior unui nivel de doctorat în orice domeniu academic, fără excepții, reprezentând o nouă etapă în dezvoltarea AI. Modelul a atins rezultate record pe benchmark-ul Arc-AGI-2, considerat "ultimul examen al umanității", cu o acuratețe de 15,9%, dublând practic performanța celui mai bun model anterior. Versiunea Grok 4 Heavy, care folosește mai mulți agenți AI pentru rezolvarea problemelor, a reușit să atingă un scor impresionant de 44,4% pe același test, depășind cu mult Google Gemini-Pro (26,9%) și OpenAI o3 (24,9%). Lansarea a fost însoțită de introducerea unui abonament premium SuperGrok Heavy la 300$ pe lună, destinat utilizatorilor avansați și dezvoltatorilor.

HRM demonstrează că în AI, mărimea nu contează

Sapient Intelligence a lansat Hierarchical Reasoning Model, un AI inspirat de creier, capabil de raționamente complexe cu doar 27M de parametri. Hierarchical Reasoning Model (HRM) este o arhitectură revoluționară inspirată de procesarea ierarhică și multi-temporală din creierul uman, care atinge adâncime computațională semnificativă menținând în același timp stabilitatea și eficiența antrenamentului. Cu doar 27 de milioane de parametri și aproximativ 1.000 de exemple de antrenament, fără pre-antrenare, HRM reușește să rezolve perfect sarcini complexe precum ARC-AGI, Sudoku-Extreme și Maze-Hard. Modelul utilizează sisteme distincte pentru planificare lentă și deliberată și pentru calcul rapid și intuitiv, similar modului în care funcționează creierul uman. Arhitectura demonstrează performanțe de 100 de ori mai rapide la raționament comparativ cu LLM-urile tradiționale, necesitând o fracțiune din datele și memoria cerute de modelele actuale. HRM a fost lansat open-source în iulie 2025, oferind accesibilitate completă pentru cercetători și dezvoltatori interesați să exploreze această abordare inovatoare în AI.

Cum OpenAI a transformat concurența în propriul avantaj?

OpenAI a recrutat 4 ingineri seniori de la Tesla, xAI și Meta pentru echipa de scalare și proiectul Stargate. OpenAI a întărit semnificativ echipa de scalare prin recrutarea a patru ingineri de nivel înalt: David Lau, fostul vicepreședinte al ingineriei software de la Tesla, Uday Ruddarraju, fostul director al ingineriei de infrastructură de la xAI, Mike Dalton, un inginer de infrastructură de la xAI, și Angela Fan, cercetător AI de la Meta. Ruddarraju și Dalton au jucat un rol crucial în dezvoltarea supercomputerului "Colossus" de la xAI, care cuprinde peste 200.000 de GPU-uri, iar experiența lor va fi acum orientată către ambițiosul proiect Stargate al OpenAI. Aceste angajări sunt strategice pentru echipa de scalare care gestionează sistemele hardware și software de backend, precum și centrele de date, fiind esențială pentru misiunea OpenAI de a dezvolta și implementa sisteme AI la scară largă.

Cursor Agents - acum in versiunile web si mobile

Cursor introduce aplicații web și mobile pentru controlul agenților cu limbaj natural, în afara IDE-ului. Cursor și-a extins ecosistemul prin lansarea unei aplicații web și mobile care permite dezvoltatorilor să gestioneze rețele de agenți AI de programare direct din browser. Dezvoltatorii pot trimite instrucțiuni în limbaj natural către acești agenți de fundal, solicitându-le să efectueze sarcini complexe precum crearea de noi funcționalități sau repararea bug-urilor, totul fără a fi nevoie să se afle la desktop. Aplicația web permite monitorizarea flotelor de agenți care lucrează simultan la diverse proiecte, oferind o perspectivă de ansamblu asupra progresului fiecărui agent. Sistemul funcționează ca o telecomandă pentru fluxul de lucru AI, permițând dezvoltatorilor să inițieze task-uri pe mobil sau web și să revină ulterior la desktop pentru a revizui schimbările și a adăuga instrucțiuni suplimentare.

Generează lumi 3D din imagini sau texte!

Tencent a lansat Hunyuan3D 1.0, un model open-source ce generează lumi 3D interactive din imagini sau texte. Hunyuan3D-PolyGen este primul model de generare 3D de nivel artistic din industrie, care folosește tehnologia proprietară BPT (Binary Patch Trees) cu compresie înaltă și un framework de generare mesh autoregresiv pentru a crea modele geometrice complexe cu zeci de mii de fețe. Modelul rezolvă punctele critice din generarea activelor 3D, cum ar fi calitatea slabă a topologiei, numărul excesiv de fețe și dificultatea în editarea ulterioară, îmbunătățind eficiența modelării artistilor cu peste 70%. Hunyuan3D-PolyGen introduce retopologia inteligentă automată, făcând modelele generate AI gata pentru pipeline-urile de artă profesională din jocuri și animație. Spre deosebire de modelele anterioare care necesitau ore de lucru manual pentru curățarea și optimizarea mesh-urilor, acest sistem generează direct active 3D de calitate profesională cu topologie superioară și texturi de înaltă fidelitate.

MAI-DxO: AI-ul care depășește medicii la diagnostice complexe

Microsoft a anunțat MAI Diagnostic Orchestrator, un AI care diagnostichează cazuri complexe de 4 ori mai bine ca medicii. Microsoft AI Diagnostic Orchestrator (MAI-DxO) este un sistem avansat de raționament medical care simulează colaborarea clinică prin inițierea unui "lanț de dezbateri" între mai mulți agenți AI specializați. Sistemul a fost testat pe 304 cazuri complexe publicate în New England Journal of Medicine, atingând o rată de diagnostic corect de 85,5%, în comparație cu doar 20% pentru medicii cu experiență. MAI-DxO nu doar că depășește performanța medicilor, dar reduce și costurile diagnostice cu aproximativ 20%, oferind o abordare mai eficientă din punct de vedere economic. Instrumentul simulează un panel de medici și este antrenat folosind standardul Medical Licensing Examination.

Poate un AI să simuleze perfect deciziile umane?

Helmholtz Munich a dezvoltat Centaur, un AI care simulează cu acuratețe deciziile umane. Centaur este un model de limbaj avansat dezvoltat de Institutul pentru AI Centrat pe Om de la Helmholtz Munich, antrenat pe peste zece milioane de decizii individuale luate de mai mult de 60.000 de participanți în 160 de experimente psihologice diferite. Modelul poate simula comportamentul uman într-o varietate largă de scenarii, incluzând luarea de riscuri, învățarea prin recompense și luarea deciziilor morale. Centaur a fost antrenat folosind setul de date Psych-101, care acoperă o gamă vastă de comportamente umane, permițându-i să prezică și să simuleze deciziile umane în orice experiment care poate fi descris în limbaj natural. Cercetătorii consideră că această tehnologie ar putea revoluționa înțelegerea sănătății mintale și științelor cognitive, oferind noi perspective asupra modului în care funcționează mintea umană.

MIT elimină barierele programării robotice

MIT a creat un dispozitiv portabil care permite oricui să învețe un robot sarcini prin ghidare sau demonstrație. Dispozitivul, numit interfață versatilă de demonstrație, se atașează la brațele robotice colaborative și permite utilizatorilor să antreneze roboții în trei moduri diferite: prin telecomandă, prin ghidarea fizică a robotului sau prin demonstrația directă a sarcinii în timp ce robotul observă și învață. Această flexibilitate crescută în antrenament poate ajuta mai multe persoane să interacționeze cu roboții și să îi învețe, fără a fi nevoie de cunoștințe de programare. Instrumentul oferă o experiență intuitivă care permite utilizatorilor să transmită rapid cunoștințele lor roboților prin metode naturale de interacțiune.

NotebookLlama: alternativa open-source a NotebookLM

LlamaIndex a lansat NotebookLlama, o alternativă open-source la NotebookLM, care funcționează local și permite chat pe documente, rezumate și Q&A. NotebookLlama este o alternativă complet open-source la NotebookLM de la Google, dezvoltată de LlamaIndex și susținută de LlamaCloud. Sistemul rulează în întregime pe computerul utilizatorului, oferind funcționalități precum chat cu documentele, generarea de rezumate și sesiuni de întrebări și răspunsuri interactive. Platforma include de asemenea capabilități avansate precum crearea de mind map-uri și generarea de conversații audio de tip podcast din documentele încărcate. NotebookLlama folosește parsing de înaltă calitate prin intermediul LlamaCloud pentru a extrage și procesa eficient informațiile din diverse tipuri de documente.

Poate un AI să înlocuiască echipa de VFX a unui studio cinematografic?

Moonvalley a introdus Marey, un model video AI pentru regizori, cu control fin scenic. Marey este primul model AI video de nivel profesional creat exclusiv pe baza de conținut licențiat, destinat studiourilor cinematografice și regizorilor profesioniști. Modelul oferă un control cinematografic de precizie fără precedent, permițând regizorilor să implementeze viziuni complexe și să execute secvențe VFX avansate menținând autoritatea creativă completă. Sistemul interpretează prompt-uri complexe cu acuratețe consistentă, generând conținut video de la text sau imagine cu detalii cinematografice, mișcare și iluminare profesională. Spre deosebire de alte modele AI video, Marey a fost antrenat exclusiv pe material HD licențiat, evitând riscurile legale asociate cu conținutul scraped. Modelul a fost dezvoltat într-o colaborare de un an cu Asteria, studioul de film AI al Moonvalley, fiind disponibil prin abonamente lunare de la 14,99$ la 149,99$, iar platforma Voyager se află în beta limitată cu lansare completă planificată pentru vara 2025.

Lupta împotriva cancerului, de la ani la săptămâni

Cercetătorii de la Technical University of Denmark au dezvoltat o platformă AI pentru crearea de proteine personalizate în câteva săptămâni, un proces care în mod normal poate dura ani. Platforma AI dezvoltată de echipa condusă de profesorul asociat Timothy P. Jenkins poate crea proteine personalizate care funcționează ca "rachete moleculare" pentru terapia cancerului în doar 4-6 săptămâni, comparativ cu anii necesari pentru metodele tradiționale. Sistemul utilizează inteligența artificială pentru a proiecta "chei moleculare" care permit celulelor T din sistemul imunitar să recunoască și să atace specific celulele canceroase, fără a afecta țesuturile sănătoase. Noua metodă poate genera design-uri promițătoare în doar una-două zile și le poate testa în laborator în câteva săptămâni, reprezentând o accelerare dramatică față de procesele actuale care implică căutarea prin celulele umane pentru a identifica receptorii T naturali.

Noul browser de la Perplexity

Perplexity a introdus Comet, un browser AI cu motor de căutare integrat și asistent pentru taskuri agentice. Comet este un browser web cu capabilități AI integrate care permite utilizatorilor să interacționeze cu orice pagină web în mod natural prin întrebări și comenzi. Browserul transformă orice pagină într-un portal de curiozitate, permițând evidențierea textului pentru explicații instantanee și explorarea ideilor tangențiale fără a pierde contextul original. Utilizatorii pot să ceară asistentului AI să efectueze sarcini complexe în numele lor, cum ar fi rezervarea unei mese la restaurant sau completarea unor formulare online, direct din interfața browserului. Comet oferă de asemenea funcționalități de rezumare, traducere și analiza conținutului web în timp real. Browserul este disponibil inițial pentru abonații planului Max de la Perplexity și se poziționează ca o alternativă modernă la Chrome, combinând navigarea web cu capabilitățile unui asistent AI agentic pentru o experiență de browsing complet integrată.

Ce funcționalități au fost introduse în ChatGPT?

OpenAI a lansat ChatGPT Agent, capabil să rezolve task-uri autonom de pe propriul computer. ChatGPT Agent este un sistem AI care poate efectua în mod autonom sarcini complexe cu mai mulți pași folosind propriul computer virtual pentru a naviga pe web, rula cod, folosi terminale și gestiona fișiere. Agentul poate interacționa cu aplicațiile și fișierele personale ale utilizatorului, putând să planifice călătorii, să gestioneze emailuri, să facă rezervări la restaurante, să rezume rapoarte lungi și chiar să ruleze cod cu permisiunea utilizatorului. Spre deosebire de modelele anterioare, ChatGPT Agent este proiectat pentru fluxuri de lucru iterative și colaborative, fiind mult mai interactiv și flexibil, permițând utilizatorilor să întrerupă procesul în orice moment pentru a clarifica instrucțiunile sau schimba complet sarcina. Funcționalitatea construiește pe baza agentului "Operator" lansat în ianuarie 2025, dar extinde capabilitățile pentru a include gestionarea completă a computerului.

ChatGPT a anunțat Study Mode, care te ajută pas cu pas pentru învățarea activă. Study Mode este o nouă funcționalitate din ChatGPT care transformă platforma într-un tutor virtual personalizat, folosind metoda socratică pentru a ghida elevii și studenții către răspunsuri prin întrebări și indicii în loc să ofere direct soluțiile. Spre deosebire de formatul tradițional de întrebări și răspunsuri, Study Mode încurajează învățarea activă prin investigarea pas cu pas a problemelor, reflecție și descoperirea autonomă a conceptelor. Sistemul poate crea exerciții interactive, carduri de memorare și quizuri personalizate pentru consolidarea cunoștințelor dobândite. Funcționalitatea își adaptează lecțiile pe baza conversațiilor anterioare cu utilizatorul, oferind o experiență de învățare cu adevărat personalizată. Dacă un student încearcă să obțină direct răspunsul, ChatGPT îl va reaminti că scopul este să învețe procesul de gândire, nu doar să copie soluția finală.

Cum colaborează modelele AI pentru a rezolva probleme complexe?

Sakana AI a introdus AB-MCTS, un algoritm ce permite modelelor AI să colaboreze pentru a rezolva probleme dificile. AB-MCTS (Adaptive Branching Monte Carlo Tree Search) este un algoritm de scalare la timpul de inferență dezvoltat de startup-ul japonez Sakana AI, care permite mai multor modele AI de frontieră să coopereze pentru a rezolva probleme complexe. Algoritmul permite modelelor să efectueze încercări și să-și combine punctele forte unice pentru a aborda probleme prea complexe pentru orice model individual. În testele preliminare pe benchmark-ul ARC-AGI-2, echipele de modele colaborative (incluzând o4-mini, Gemini 2.5 Pro și DeepSeek-R1) au reușit să rezolve peste 30% din probleme, depășind cu aproximativ 30% performanța modelelor individuale.

Noile modele de la Runaway

Runway a lansat Aleph, un model video ce editează clipuri prin comenzi text. Aleph este un model de generare și editare video avansat care permite utilizatorilor să modifice clipuri existente prin prompt-uri text simple, spre deosebire de generarea de video de la zero. Modelul poate efectua o gamă largă de editări sofisticate, inclusiv adăugarea sau eliminarea obiectelor, transformarea mediilor înconjurătoare, generarea unor unghiuri noi de cameră și modificarea stilului artistic sau iluminării scenei. Aleph se adresează în special regizorilor, profesioniștilor din publicitate și creatorilor de conținut, democratizând sarcinile complexe de post-producție care anterior necesitau ore de muncă manuală.

De asemenea, Runway a lansat Act-Two, un nou model de motion capture care transformă videoclipuri în personaje animate complet. Act-Two este un model avansat de motion capture care extinde capacitățile precursorului Act-One prin captarea și animarea mișcărilor complete ale corpului, inclusiv capul, fața, mâinile și gesturile subtile, folosind doar un singur videoclip de performanță și un personaj de referință. Spre deosebire de sistemele tradiționale de motion capture care necesită costume și camere specializate, Act-Two funcționează cu orice videoclip obișnuit, democratizând astfel accesul la tehnologia de animație profesională. Modelul oferă o fidelitate vizuală superioară și consistență cadru-cu-cadru, putând anima orice tip de personaj digital, inclusiv personaje non-umane, dintr-o gamă largă de unghiuri. Runway a extins accesul la Act-Two prin API, permițând dezvoltatorilor să integreze această tehnologie avansată direct în propriile aplicații și produse, eliminând necesitatea de a folosi interfața web a Runway.