Sigmoid
Posts
Cum ar fi să poți vedea orice coordonate, în orice perioadă istorică?

Cum ar fi să poți vedea orice coordonate, în orice perioadă istorică?

Călătoria în timp și spațiu tocmai a devenit (digital) posibilă

Sigmoid AI
December 02, 2025

Ho ho ho, sigmaritans

astăzi avem multe de discutat, așa că fă-ți ciocolata caldă (nu uita de bezele) și începe luna în spiritul Crăciunului alături de Sigmoid!

uite care sunt noutățile care le vei discuta cu rudele la masa de sărbători (dar și mai bine dacă se abonează și ei la newsletter pentru a nu scăpa nimic ) :

Gemini 3 și Nano banana au acaparat internetul
Claude Opus 4.5 vs other Coding models
Vocile personalităților decedate acum disponibile?
Problemă veche de 30 de ani rezolvată prin "vibe proving"
Hărți 3D de la imagini 2D
și multe altele)

Nu uita să împodobești bradul, și începe luna alături de Sigmoid!

Gemini 3 - Google devine o amenințare pentru OpenAI

Google lansează Gemini 3, cel mai avansat model AI până acum, care aduce îmbunătățiri majore în raționament și înțelegere multimodală.

Iată ce poate face Gemini 3:

Transformă orice idee în realitate - Poți să-i arăți orice material (imagini, PDF-uri, schițe simple) și el va crea ce ai nevoie: o fotografie devine joc de societate, o schiță se transformă în site web funcțional, iar o diagramă devine lecție interactivă.
Raționament multimodal avansat - Combină raționament de ultimă generație cu înțelegere vizuală și spațială. Poate analiza înregistrări video lungi pentru evaluări detaliate, identificând probleme tehnice și oferind exercițiile necesare pentru corectare.
Interfețe interactive dinamice - Aduce putere de raționament în Google Search și creează experiențe noi. Primești interfețe vizuale cu instrumente interactive și simulări personalizate.
Design vizual personalizat - Oferă o prezentare modernă, tip revistă digitală, cu fotografii și module interactive. La cererea „planifică o excursie de 3 zile la Roma", primești un itinerar interactiv pe care îl poți personaliza.
Gemini Agent - Descompune sarcini complexe în pași realizabili, de la rezervări locale până la organizarea emailurilor. Propune acțiuni concrete prin integrări cu aplicațiile Google. Disponibil pentru abonații Google AI Ultra din SUA.

Photoshop on steroids

Vorbind de Gemini 3, una dintre principalele actualizări care vine odată cu acest model este Nano Banana Pro:

Imagini hiper-realiste cu date precise - Nano Banana Pro, alimentat de Gemini 3 Pro, generează vizualizări prin integrarea coordonatelor GPS, datelor și orelor exacte în prompturi, folosind raționament vizual avansat și Google Search pentru acuratețe factuală.
Aplicații diverse - Permite crearea de hărți meteorologice dinamice la locații și momente specifice sau recreări ale evenimentelor istorice fixate pe puncte GPS precise, combinând date reale cu editări profesionale precum ajustări de iluminare și unghiuri de cameră.
Capacități tehnice avansate - Integrează redarea textului multilingv și consistența multi-imagine, permițând îmbinarea a până la 14 elemente menținând detalii fotorealiste, cu suport pentru rezoluții până la 4K în diverse formate.
Editare conversațională - Developerii apreciază posibilitatea de rafinare iterativă a rezultatelor fără regenerări complete, facilitând ajustări rapide și precise.
Acces limitat din cauza cererii mari - Modelul este disponibil prin Google AI Studio și Vertex AI. Totuși, cererea ridicată a determinat Google să limiteze utilizatorii gratuit la două imagini zilnic.

Noua eră a matematicii prin "vibe proving"

Aristotle, AI-ul ce aparține companiei Harmonic, a rezolvat, în doar șase ore, o problemă Erdős veche de 30 de ani, începută încă din anii 1990, verificând apoi formal dovada în Lean într-un minut.

Rezultatul provine din versiunea beta a lui Aristotle, actualizată cu capacități mai puternice de raționament și o interfață în limbaj natural pentru explorarea și scrierea dovezilor pas cu pas.
Vlad Tenev, fondatorul Harmonic, a numit aceasta sosirea "vibe proving" - descoperirea dovezilor condusă de AI, urmată de verificare automată.
Progresul vine după finanțarea de 120 milioane de dolari a Harmonic și performanța de medalie de aur a lui Aristotle la IMO, poziționându-l alături de Google și OpenAI în domeniul raționamentului matematic.

Noul tău coechipier preferat în jocuri

SIMA 2 este noul agent AI dezvoltat de DeepMind special pentru lumi 3D. Poate urma instrucțiuni complexe, învăța dintr-un joc și aplica ce a învățat în altul, iar comunicarea se face prin text, voce sau imagini în timp ce vă jucați împreună într-un mediu virtual. Poate naviga chiar și prin lumi complet noi fără să aibă nevoie de ajutor constant.

SIMA 2 este cel mai realist AI de gaming văzut până acum, capabil să joace alături de tine fără să pară complet pierdut. Înțelege pattern-urile din jocuri, face legătura între mecanici din lumi diferite și îți explică ce face exact ca un coechipier real, nu ca un jucător confuz.

Claude tops the coding ladders

În ciuda lansării Gemini 3, Claude rămâne cel mai avansat model AI pentru programare cu noul Opus 4.5. Anthropic a lansat Claude Opus 4.5, un model de top care rivalizează cu Gemini 3 și GPT-5.1 și excelează la coding.

Claude Opus 4.5, cel mai nou model al Anthropic se poziționează ca cel mai puternic instrument AI pentru programare, fluxuri de lucru agentic și utilizare completă a computerului. Modelul aduce îmbunătățiri semnificative în raționament, execuție mai rapidă pe mai mulți pași și utilizare mai eficientă a token-urilor, oferind echipelor un model de top pentru lucrul tehnic complex.
Performanțe record în inginerie software - Claude Opus 4.5 a atins 80.9% pe SWE-bench Verified, depășind GPT-5.1-Codex-Max de la OpenAI (77.9%), propriul Sonnet 4.5 (77.2%) și Gemini 3 Pro de la Google (76.2%). În testele interne ale Anthropic, modelul a obținut scoruri mai mari decât orice candidat uman la examenul tehnic de angajare al companiei, demonstrând capacități remarcabile de rezolvare a problemelor complexe.
Prețuri accesibile și caracteristici noi - Prețurile au fost reduse dramatic la 5 USD per milion de token-uri de input și 25 USD per milion de token-uri de output, o scădere de peste 60% față de predecesorul său, Claude Opus 4.1. Modelul oferă raționament hibrid care permite răspunsuri instant sau gândire extinsă, cu controale precise pentru ajustarea efortului în funcție de performanță, latență și cost.
Claude Opus 4.5 este disponibil prin aplicațiile Anthropic, API și pe toate cele trei platforme cloud majore - Amazon Bedrock, Google Cloud Vertex AI și Microsoft Foundry. Pentru utilizatorii Claude, conversațiile lungi nu mai întâmpină limite - Claude rezumă automat contextul anterior după cum este necesar. Noile integrări includ Claude pentru Chrome (disponibil pentru utilizatorii Max) și Claude pentru Excel (în beta pentru utilizatorii Max, Team și Enterprise).

Gata cu imaginile plate și plictisitoare

Gigantul tehnologic ByteDance Seed a lansat recent Depth Anything 3 (DA3), cea mai nouă versiune a modelului lor de Inteligență Artificială de ultimă generație.

Acest model este un salt major în domeniul viziunii computerizate, având capacitatea de a genera hărți 3D de profunzime (depth maps) cu o precizie geometrică de neegalat, pornind de la o singură imagine 2D.

Ce aduce nou Depth Anything 3?

Geometrie Ultra-Precisă: Spre deosebire de modelele anterioare, DA3 corectează distorsiunile tipice și oferă o reprezentare a profunzimii mult mai fidelă realității.
Antrenament Extins: Modelul a fost antrenat pe un set masiv de date, conținând peste 300 de milioane de imagini, permițându-i să înțeleagă și să interpreteze profunzimea în aproape orice scenariu, fie că este vorba de peisaje urbane, natură sau obiecte din interior.
Performanță Lider: DA3 stabilește noi standarde în benchmark-uri cheie, fiind considerat cel mai precis model de estimare a profunzimii de până acum.

Lansarea Depth Anything 3 de către ByteDance Seed consolidează tendința ca AI-ul să devină un instrument indispensabil în percepția și interacțiunea cu lumea tridimensională.

But what is Microsoft cooking?

Microsoft a lansat Agent 365, o platformă pentru gestionarea și securizarea agenților AI. Agent 365 este planul de control centralizat pentru agenții AI, indiferent dacă sunt creați cu platforme Microsoft, framework-uri open-source sau platforme terțe. Platforma oferă vizibilitate unificată asupra întregii flote de agenți prin telemetrie, tablouri de bord și alerte, eliminând punctele oarbe și reducând riscurile.

Registru complet de agenți - Cu registrul Microsoft Entra, liderii IT obțin un inventar complet al tuturor agenților din organizație. Administratorii pot pune în carantină agenții nesancționați pentru a preveni conectarea la resurse organizaționale.
Control strict al accesului - Agent Policy Templates permit aplicarea politicilor de securitate standard din prima zi. Microsoft Entra aplică politici adaptive care răspund la context și risc în timp real, blocând agenții potențial compromiși.
Securitate multicod - Agent 365 oferă protecție cuprinzătoare împotriva amenințărilor externe și interne folosind Microsoft Defender, Microsoft Entra și Microsoft Purview pentru detectarea amenințărilor și prevenirea exfiltrării datelor.
Vizualizare și performanță - Un tablou de bord unificat oferă o hartă completă a conexiunilor dintre agenți, utilizatori și resurse. Liderii pot urmări performanța și ROI-ul pentru decizii informate de implementare.
Cooperare extinsă - Funcționează cu platforme Microsoft, framework-uri open-source și parteneri precum Adobe și Databricks. Agenții se integrează cu aplicații Microsoft 365 precum Outlook, Word, PowerPoint și Excel.

Cum ar fi să folosești vocea actorului tău preferat?

ElevenLabs lansează „Iconic Voice Marketplace”, o platformă unde companiile pot solicita accesul la voci iconice pentru proiecte și conținut. Platforma reunește peste 28 de voci celebre, atât de personalități în viață precum Matthew McConaughey și Michael Caine, cât și de figuri istorice decedate precum Dr. Maya Angelou, Judy Garland, John Wayne, Alan Turing, Mark Twain și J. Robert Oppenheimer prin acorduri cu moștenitorii lor.

Fiecare aprobare include drepturi comerciale pentru povestiri premium în diverse medii, iar vocile pot fi utilizate pentru narațiuni de film, TV și documentare, campanii publicitare, jocuri, audiobook-uri, podcast-uri și conținut educațional.

Pe lângă marketplace-ul de voci, ElevenLabs a lansat Scribe v2 Realtime, conceput pentru cazuri de utilizare live precum agenți vocali, asistenți pentru întâlniri și subtitrare în timp real, care transcrie vorbirea în sub 150 ms în peste 90 de limbi. Modelul suportă peste 90 de limbi, inclusiv 11 limbi indiene precum Hindi, Tamil, Malayalam și Telugu, și înregistrează un scor de acuratețe de 93.5% pe benchmark-ul FLEURS, depășind competitori precum Gemini Flash 2.5 de la Google, GPT-4o Mini de la OpenAI și Nova 3 de la Deepgram.