Sigmoid
Posts
Acum poți fi diagnosticat de AI: Prima clinică cu medic virtual autonom din lume

Acum poți fi diagnosticat de AI: Prima clinică cu medic virtual autonom din lume

Ține pasul cu cele mai relevante inovații din AI și tehnologie!

Sigmoid AI
June 02, 2025

Howdy Dragi Sigmariteni

Vrei să afli cum AI revoluționează medicina, vibe-coding-ul și simplifică rezolvarea sarcinilor complexe? Sau cum poți crea cursuri personalizate direct din videoclipuri de pe YouTube? Care sunt cele mai noi inovații de la OpenAI, Google sau Anthropic? Cum poți identifica persoane doar privindu-le sau detecta atacurile asupra companiei tale? Sau ce inovații și modele noi au fost lansate?

Dr. Hua - primul medic virtual autonom

Synyi AI a deschis în Arabia Saudită prima clinică AI cu medic virtual autonom. Startup-ul chinez Synyi AI pilotează prima sa clinică medicală controlată de AI în Arabia Saudită, unde un doctor virtual numit „Dr. Hua” gestionează diagnosticele și elaborează recomandări de tratament, care sunt apoi revizuite și semnate de un medic uman. Programul pilot, care a început în aprilie 2025, este o colaborare cu Almoosa Health Group și este situat în regiunea estică Al-Ahsa a țării. Dr. Hua interacționează cu pacienții prin intermediul unei tablete, pune întrebări de urmărire și analizează imagini medicale precum radiografiile, oferind un proces de diagnostic complet automatizat. Această inițiativă reprezentă un salt semnificativ dincolo de rolul tradițional al AI ca simplu instrument de asistență pentru clinicieni, Dr. Hua ocupând centrul procesului de diagnostic, cu doctorii umani oferind revizuirea finală critică și aprobarea.

Notclass - creează learning paths personalizate

Te-ai săturat să pierzi ore căutând informații utile prin tone de videoclipuri? Vrei să înveți ceva nou, dar nu știi de unde să începi și nici nu vrei să plătești sume enorme? NotClass este aplicația care găsește exact răspunsul de care ai nevoie si creează learning paths personalizate, adaptate nevoilor specifice ale fiecărui utilizator. Platforma te poate ajuta să înveți orice subiect, de la programare și matematică până la arte și științe sociale, structurând conținutul într-un mod logic și progresiv, utilizând AI pentru a indexa și căuta conținut din diverse videoclipuri și podcast-uri de pe YouTube.

Unul dintre avantajele NotClass este că oferă acces la lecții de la cele mai prestigioase universități din lume, fără necesitatea de a viziona cursuri întregi. Utilizatorii pot extrage informații specifice din cursuri de la Harvard, Yale, Stanford și alte instituții de top, economisind timp prețios.

De asemenea, NotClass te ajută să-ți urmărești evoluția. Utilizatorii pot marca lecțiile ca fiind completate și își pot testa cunoștințele prin quiz-uri pentru a-și monitoriza progresul către obiectivele educaționale.

Noua platformă de “vibe coding” de la Apple și Anthropic

Apple colaborează cu Anthropic pentru a integra o platformă AI de scriere automată de cod în Xcode. Noua platformă implementează conceptul de „vibe-coding" și va integra modelul Claude Sonnet al Anthropic direct în Xcode, mediul principal de programare folosit de milioane de developers în întreaga lume. Sistemul va permite programatorilor să descrie în limbaj natural ceea ce doresc să creeze, iar inteligența artificială va scrie, edita și testa codul în mod automat. Această colaborare vine după ce Apple a anunțat anterior un instrument de codare AI numit „Swift Assist" la WWDC 2024, dar nu l-a lansat niciodată din cauza îngrijorărilor inginerilor interni privind potențialele întârzieri în dezvoltarea aplicațiilor.

Rezolvă sarcini complexe și antrenează modele cu Nova Premier

Amazon a lansat Nova Premier, un model capabil să rezolve sarcini complexe și să antreneze alte modele. Nova Premier este cel mai capabil model multimodal al Amazon, conceput să exceleze la sarcini complexe care necesită înțelegerea profundă a contextului, planificarea pe mai mulți pași și coordonarea între instrumente și surse de date. Modelul poate procesa text, imagini și videoclipuri cu o fereastră de context de un milion de tokens, echivalentul a aproximativ 750.000 de cuvinte, permițând analiza bazelor de cod mari, documentelor lungi și videoclipurilor extinse într-o singură sesiune. Funcția sa unică de "profesor" permite distilarea cunoștințelor sale avansate în modele mai mici, mai rapide și mai eficiente precum Nova Pro, Micro și Lite, adaptate pentru implementări de producție specifice.

Google I/O 2025: noutăți și anunțuri

Iată cele mai importante noutăți din cadrul conferinței Google I/O 2025:

Google extinde modul AI „Live” în Google Search și Gemini pe iOS, oferind o experiență de căutare conversațională mai naturală care permite utilizatorilor să pună întrebări de urmărire și să primească răspunsuri contextuale în timp real. Această funcționalitate transformă Search-ul tradițional într-o conversație fluidă, unde utilizatorii pot aprofunda subiectele fără să reformuleze întrebările de la zero

Gemini 2.5 Pro și Flash oferă funcționalități avansate precum „Deep Think” pentru probleme complexe, cu 2.5 Pro Deep Think obținând un scor impresionant la 2025 USAMO, unul dintre cele mai dificile benchmark-uri de matematică, și conducând pe LiveCodeBench pentru programare competițională. Funcția „Deep Think" permite modelului să petreacă mai mult timp analizând problemele înainte de a răspunde, simulând procesul de gândire umană pentru sarcini care necesită raționament profund.

Project Astra, un laborator AI pentru viitorul asistenților inteligenți, a fost lansat prin intermediul unui videoclip care arată o persoană încercând să-și repare bicicleta cu ajutorul noii integrări Gemini pentru a efectua apeluri telefonice în numele utilizatorului. Asistentul poate înțelege contextul vizual prin camera telefonului și poate lua acțiuni autonome în lumea reală, precum comandarea pieselor de schimb sau programarea unei reparații.

Google Beam, un sistem 3D de videoconferință disponibil anul acesta, este construit pe puterea Google Cloud și combină expertiza în AI pentru a oferi comunicații video 3D enterprise cu fiabilitate de clasă profesională. Tehnologia creează reprezentări holografice realiste ale participanților, eliminând nevoia de căști VR sau echipamente specializate costisitoare. Sistemul promite să revoluționeze munca la distanță prin oferirea unei experiențe de prezență fizică aproape identică cu întâlnirile față în față.

Imagen 4, noul model AI pentru imagini de top, aduce o îmbunătățire a rezoluției la 2K, permițând utilizatorilor să mărească și să decupeze mai bine imaginile sau chiar să le tipărească. Modelul oferă un control granular asupra stilului și compoziției, cu capacitatea de a genera imagini în multiple stiluri artistice simultan. Calitatea fotorealistă îmbunătățită face ca imaginile generate să fie greu de distins de fotografiile reale, ridicând noi standard în industria generării de conținut vizual.

Flow, tool AI pentru creare și editare video, este un instrument comprehensiv care combină Imagen 4 și Veo 3, oferind consistență de personaje și scene, cu posibilitatea de a extinde scenele și de a adăuga muzică de la noul Google Lyria. Platforma permite utilizatorilor să creeze filme complete pornind doar de la o descriere text, gestionând automat tranziții, efecte vizuale și sincronizarea audio. Instrumentul democratizează producția video profesională, făcând accesibilă crearea de conținut cinematografic pentru utilizatorii fără experiență tehnică.

DeepSeek-R1 V2: versiunea actualizată

DeepSeek a lansat DeepSeek-R1 V2, a doua versiunea a modelului lor open-source. Noua versiune, lansată discret pe 28 mai 2025, aduce îmbunătățiri semnificative față de versiunea inițială care a cutremurat industria AI în ianuarie. Conform companiei, versiunea actualizată oferă performanțe îmbunătățite la benchmark-uri, halucinații reduse și suport nativ pentru apelarea de funcții și ieșiri JSON. Modelul are 671 miliarde de parametri în total, cu 37 miliarde active în timpul inferenței, oferind performanțe la nivelul OpenAI o1, dar fiind complet open-source cu tokens de raționament vizibili. Rata de halucinare a modelului a fost redusă, contribuind la rezultate mai fiabile și consistente. DeepSeek-R1-0528 demonstrează deja performanțe puternice în benchmark-urile de programare, consolidându-și poziția ca o alternativă serioasă la modelele proprietare ale giganților din Silicon Valley.

Care sunt cele mai noi inovații de la Google?

Google a lansat Gemma 3n, noul model creat pentru a oferi performanță excelentă rulând on-device. Gemma 3n este optimizat special pentru a rula fluid pe telefoane, laptopuri și tablete, fiind proiectat pentru eficiență maximă pe dispozitivele mobile. Modelul poate procesa audio, text, imagini și video-uri în timp real, fără să necesite conexiune la internet. Este disponibil prin Google AI Studio pentru explorare în browser și Google AI Edge pentru dezvoltarea locală pe device. Modelul vine ca răspuns la cerința crescândă pentru AI mai rapid, mai inteligent și mai privat pe dispozitivele personale. Bazat pe aceeași tehnologie ca Gemini Nano, Gemma 3n oferă capabilități multimodale avansate optimizate pentru funcționarea offline.

Google a lansat un plan energetic și va forma 130.000 de electricieni pentru creșterea AI. Google a anunțat o investiție de 10 milioane de dolari pentru a forma 100.000 de electricieni și 30.000 de noi ucenici în următorii cinci ani prin parteneriatul cu Electrical Training Alliance. McKinsey estimează că vor fi necesari 130.000 de electricieni suplimentari până în 2030 pentru a construi centrele de date și facilitățile de producție necesare expansiunii AI. Inițiativa vine în contextul în care aproape 10.000 de electricieni americani se pensionează sau își schimbă cariera anual, în timp ce doar câteva mii noi intră în domeniu.

Google a lansat „implicit caching” în Gemini 2.5, reducând costurile API cu până la 75%. Noua funcționalitate implicit caching este activată automat pentru modelele Gemini 2.5 Pro și Flash, detectând și stocând automat conținutul recurent pentru a evita procesarea repetată a acelorași prompt-uri. Spre deosebire de caching-ul explicit care necesita configurare manuală, această funcție funcționează transparent în fundal, identificând prefix-urile comune din request-urile anterioare și aplicând reducerea de cost automată. Pentru Gemini 2.5 Flash (minim 1.024 tokens) și Gemini 2.5 Pro (minim 2.048 tokens), tokenul din cache sunt taxați cu o reducere de 75% față de tokenul standard la input.

Cum poți identifica persoane doar privindu-le?

Meta pregătește o actualizare AI pentru ochelarii Ray-Ban, cu recunoaștere facială în timp real. Conform rapoartelor recente, generația următoare de ochelari Ray-Ban Meta, programată pentru 2026, va include funcții avansate de recunoaștere facială și va putea rula sesiuni AI continue timp de ore întregi. Această funcționalitate, inițial luată în considerare în 2021 dar abandonată din cauza îngrijorărilor legate de confidențialitate, a fost rediscutată anul acesta pe fondul relaxării reglementărilor privind protecția datelor. Actualii ochelari Ray-Ban Meta, lansați la sfârșitul anului 2023, au vândut deja 2 milioane de unități până în februarie 2025 și oferă funcții precum traducerea live între engleză, spaniolă, franceză și italiană, precum și asistența vizuală „Look and ask". Noul model va permite utilizatorilor să identifice persoanele doar privind la ele, stârnind însă îngrijorări majore privind confidențialitatea și consimțământul, mai ales după demonstrațiile recente ale unor hackeri care au combinat ochelarii cu servicii de recunoaștere facială pentru a obține automat nume, număr de telefon și adresă de domiciliu ale străinilor.

Noile modele Phi-4 de la Microsoft

Microsoft a lansat trei modele Phi, rapide, inteligente și potrivite pentru telefoane și laptopuri. Noile modele includ Phi-4-multimodal și Phi-4-mini, precum și modelele de raționament Phi-4-reasoning, Phi-4-reasoning-plus și Phi-4-mini-reasoning. Modelele cu 14 miliarde de parametri (Phi-4-reasoning și Phi-4-reasoning-plus) și cel mai mic model cu 3,8 miliarde de parametri (Phi-4-mini-reasoning) depășesc uneori performanțele unor modele mai mari în teste de benchmark, inclusiv la probleme matematice complexe. Aceste modele sunt proiectate să ofere latență ultra-scăzută și timpi de răspuns rapizi, fiind potrivite pentru aplicații în timp real. Phi-4-multimodal poate procesa nu doar text, ci și intrări vizuale și audio, făcându-l extrem de versatil pentru diverse aplicații mobile și desktop.

Mistral Medium 3: performanță de vârf la preț scăzut

Startup-ul francez Mistral a lansat modelul AI Medium 3 și platforma Le Chat Enterprise pentru afaceri. Mistral Medium 3 este un model optimizat pentru eficiența fără a compromite performanța, fiind conceput special pentru integrarea în medii enterprise. Modelul oferă performanțe de vârf în timp ce este cu un ordin de mărime mai puțin costisitor decât concurența, atingând peste 90% din performanțele lui Claude Sonnet 3.7 la un preț semnificativ mai mic (0,4$ input / 2$ output per milion de tokens). Alături de Medium 3, Mistral lansează și Le Chat Enterprise, o platformă AI destinată companiilor care oferă funcții precum căutarea la nivel de companie, crearea automată de agenți, controale de protecție a datelor și integrare flexibilă. Platforma suportă implementarea hibridă și on-premises, oferă instruire personalizată și se conectează ușor la sistemele de business existente.

Figma vs. Adobe și Canva

Figma a lansat funcții AI noi, precum generare de cod, publicare web și creare de materiale promoționale. La conferința Config 2025, compania a anunțat Figma Make, un instrument AI de tip „prompt-to-code" care transformă descrierile scrise în cod funcțional pentru website-uri și aplicații, permițând utilizatorilor să genereze animații și interacțiuni doar prin comenzi text. Alături de aceasta, Figma Buzz oferă echipelor de marketing și design un spațiu colaborativ pentru crearea rapidă de materiale vizuale la scară, menținând în același timp consistența brandului prin funcții AI integrate pentru generarea imaginilor și editarea automată. Noile instrumente includ și Figma Sites pentru publicarea directă a website-urilor, transformând platforma într-un ecosistem complet de la design la implementare. Funcțiile permit importarea datelor din foi de calcul pentru crearea în masă a mii de materiale promoționale și oferă template-uri pre-construite pentru multiple platforme sociale și dimensiuni de reclame. Aceste lansări poziționează Figma ca o alternativă directă la Adobe și Canva în domeniul design-ului automatizat.

Multitasking și AI: Devin 2.0 redefinește fluxurile de lucru

Cognition a lansat Devin 2.0, un nou IDE îmbunătățit cu multitasking, colaborare ușoară și editare directă. Devin 2.0 introduce un mediu de dezvoltare bazat pe cloud, unde utilizatorii pot crea și gestiona mai multe instanțe de Devin în paralel, fiecare având propriul IDE interactiv. Acest sistem permite la developers să colaboreze eficient, fie prin monitorizarea progresului AI-ului, fie prin intervenții directe pentru ajustarea codului. Devin 2.0 include funcționalități precum Interactive Planning, care generează planuri detaliate pentru proiecte, Devin Search, un instrument avansat de explorare a codului, și Devin Wiki, care documentează automat arhitectura și sursele proiectelor. Aceste îmbunătățiri fac din Devin 2.0 un instrument esențial pentru programatorii care doresc să optimizeze fluxurile de lucru și să accelereze procesul de dezvoltare software.

Pot LLM-urile pierde din eficiență în cazul instrucțiunilor graduale?

Un studiu Microsoft–Salesforce arată că LLM-urile cedează în conversații lungi cu instrucțiuni graduale. Cercetătorii de la Microsoft Research și Salesforce au descoperit că chiar și cele mai capabile modele de limbaj (LLM-uri) își pierd eficiența când instrucțiunile sunt date în etape, mai degrabă decât toate deodată, performanța scăzând cu o medie de 39% pe șase sarcini diferite. Studiul demonstrează că modelele mari de limbaj se „pierd" în conversațiile naturale, în care informațiile necesare pentru completarea unei sarcini sunt revelate treptat pe parcursul mai multor schimburi de replici. Această problemă afectează scenarii din lumea reală unde utilizatorii interacționează natural cu asistenții AI, oferind context și cerințe în mod progresiv, exact așa cum ar face într-o conversație obișnuită cu un om. Descoperirea subliniază o limitare majoră a actualelor sisteme AI în gestionarea sarcinilor „underspecified" din conversațiile multi-turn, unde instrucțiunile complete nu sunt disponibile de la început. Rezultatele sugerează că modelele AI au nevoie de îmbunătățiri semnificative pentru a replica cu adevărat fluiditatea conversațiilor umane naturale.

Ce inovații și inițiative a implementat OpenAI?

OpenAI a lansat un conector GitHub pentru Deep Research, permițând analizarea codului. Noul conector permite utilizatorilor ChatGPT să conecteze direct repository-urile GitHub la instrumentul Deep Research pentru a genera rapoarte comprehensive și structurate cu citări complete. ChatGPT poate acum să analizeze baze de cod întregi, documentație tehnică și să descompună specificațiile produselor în sarcini tehnice concrete cu dependențe clare. Instrumentul poate sumariza structura și pattern-urile din cod, să înțeleagă cum să implementeze noi API-uri folosind exemple de cod real și să ofere insights semnificative pentru developers. Funcționalitatea este disponibilă pentru utilizatorii ChatGPT Plus și Pro, OpenAI subliniind că datele rămân private și securizate în timpul procesului de analiză.

OpenAI a lansat Codex, un agent de inginerie software bazat pe cloud, capabil să gestioneze multiple sarcini. Codex rulează într-un mediu virtual izolat în cloud și se poate conecta direct cu repository-urile GitHub pentru a prelua codul de lucru. Agentul poate scrie cod bazat pe prompt-uri în limbaj natural, poate fixa bug-uri, poate genera pull request-uri și poate lucra pe mai multe sarcini în paralel, toate în medii izolate adaptate fiecărui repository. Spre deosebire de asistentele tradiționale de cod care funcționează ca instrumente de autocomplete, Codex este conceput ca un partener colaborativ independent, iar procesarea unei sarcini durează între 1 și 30 de minute. Instrumentul este disponibil în preview pentru utilizatorii ChatGPT Pro la 200$ pe lună, urmând să fie extins și pentru utilizatorii Plus.

OpenAI a lansat OpenAI for Countries pentru a ajuta țările să-și dezvolte infrastructura AI adaptată local. Programul face parte din inițiativa Stargate și permite guvernelor să colaboreze cu OpenAI pentru construirea centrelor de date locale și adaptarea produselor AI la specificul cultural și lingvistic al fiecărei țări. Inițiativa oferă suveranitate asupra datelor la nivel național și posibilitatea de a participa la un fond comun pentru dezvoltarea ecosistemului AI local prin susținerea startup-urilor din domeniu. Programul urmărește să promoveze conceptul de "AI democratic" în opoziție cu modelele autoritare, permițând țărilor să dezvolte capacități AI bazate pe principii democratice fundamentale. Prima implementare practică a fost un program de rezidență a datelor în Asia, unde companiile locale pot stoca și procesa datele în conformitate cu reglementările regionale de securitate și confidențialitate.

OpenAI a retras ultima actualizare GPT-4o din ChatGPT, deoarece răspunsurile erau prea neautentice. Problema a fost cauzată de faptul că modelul fusese antrenat folosind feedback-ul pe termen scurt al utilizatorilor ca ghid, ceea ce l-a orientat neintenționat către linguşire excesivă.

Model AI pentru plăți ce detectează atacurile asupra companiilor

Stripe lansează noi produse, inclusiv un model AI pentru plăți, antrenat pe miliarde de tranzacții. Modelul Stripe Payments Foundation este antrenat pe zeci de miliarde de tranzacții și capturează sute de semnale subtile despre fiecare plată pe care modelele specializate nu le pot detecta. Prin aplicarea noului model, Stripe susține că și-a crescut ratele de detectare pentru atacurile asupra marilor companii cu 64%, oferind o protecție semnificativ îmbunătățită împotriva fraudelor. Compania a raportat că actualizările AI recente la Adaptive Acceptance au recuperat un record de 6 miliarde de dolari în refuzuri false în 2024, o creștere de 60% față de anul precedent, iar noul model ML flywheel a redus atacurile de tip carding pe Stripe cu 80%. Alături de modelul AI, Stripe a lansat și Stablecoin Financial Accounts pentru afaceri, permițând companiilor să accepte și să stocheze monede stabile direct în conturile lor. Aceste inovații vin într-un moment în care volumul total de plăți al Stripe a crescut la 1,4 trilioane de dolari în 2024, cu 38% mai mult decât în anul precedent.

Claude Opus și Sonet 4, și alte actualizări de la Anthropic

Anthropic a lansat noua lor serie de modele Claude Opus 4 și Sonnet 4. Claude Opus 4 este cel mai inteligent model al companiei până în prezent, dezvoltat pentru a excela în programare, căutare de agenți și scriere creativă. Ambele modele sunt de tip hibrid, oferind două moduri de funcționare: răspunsuri aproape instantanee și gândire extinsă pentru raționament mai profund. Opus 4 este disponibil pentru planurile Pro, Max, Team și Enterprise, în timp ce Sonnet 4 este accesibil și utilizatorilor gratuiți. Modelele au fost integrate în GitHub Copilot, unde Sonnet 4 este disponibil pentru toate planurile plătite, iar Opus 4 pentru planurile Enterprise și Pro+. Prețurile pentru API sunt setate la 15/75/75 /75 per milion de tokens pentru Opus 4 și 3/15/15 /15 pentru Sonnet 4. Lansarea marchează un pas semnificativ în dezvoltarea capabilităților de raționament complex și colaborare avansată în AI.

Anthropic a lansat Integrations și un nou mod de căutare avansată în Claude. Noua funcționalitate Integrations permite lui Claude să se conecteze cu 10 servicii populare precum Jira, Confluence, Zapier, Cloudflare, Intercom, Asana, Square, Sentry, PayPal, Linear și Plaid. Advanced Research Mode poate căuta pe web, în Google Workspace și în integrările conectate timp de până la 45 de minute, livrând rapoarte comprehensive cu citări complete. Aceste capabilități transformă Claude într-un colaborator mai informat, care poate căuta atât în contextul intern de lucru cât și pe web pentru a ajuta utilizatorii să ia decizii și să acționeze mai rapid. Funcționalitățile sunt disponibile în beta pentru utilizatorii Claude Max, Team și Enterprise, marcând un pas important în direcția integrării AI-ului în fluxurile de lucru existente.

Anthropic a lansat versiunea beta a Voice Mode, ceea ce îți va permite să vorbești cu modelele Claude cu ajutorul vocii. Noul Voice Mode permite utilizatorilor să aibă conversații vocale complete cu Claude pe aplicațiile mobile iOS și Android. Funcționalitatea oferă cinci opțiuni distincte de voci și permite comutarea în timp real între text și voce, păstrând transcripts și rezumate ale conversațiilor. Utilizatorii pot discuta despre documente și imagini prin voce, iar Claude poate căuta în Google Docs, Drive și Calendar pentru a răspunde la întrebări specifice. Funcționalitatea este disponibilă în limba engleză pentru toți utilizatorii, inclusiv cei cu planuri gratuite, și se va extinde treptat în următoarele săptămâni. Cu această lansare, Anthropic se aliniază concurenței directe cu ChatGPT de la OpenAI, care oferă funcționalități vocale din 2023, aducând experiența conversațională la un nivel mai natural și accesibil.