Autor: Elliott Smith
I když se může zdát, že se umělá inteligence (AI) objevila v posledních několika letech jako plně rozvinutá technologie, která má změnit způsob, jakým interagujeme s okolním světem, realita je taková, že vývoj AI si vyžádal desítky let práce – a raný pokrok v oblastech, jako je strojové učení a zpracování přirozeného jazyka – a čeká nás ještě mnoho dalších pokroků.
I když Bill Gates během svého prvního dne v kanceláři v roce 1975 možná konkrétně nepřemýšlel o AI, nelze popřít, že technologické průlomy a inovace, které Microsoft za posledních 50 let řídil, byly zásadními kroky na cestě vedoucí k dnešní éře AI.
Od uvedení prvního operačního systému v roce 1985 až po Gatesovo memorandum „Tidal Wave“ o 10 let později, které předpovědělo sílu internetu, byla firemní superschopnost vždy v přijímání změn a směřování k budoucnosti. To pokračovalo i u základních prací autorů z Microsoft Research o Bayesovských sítích a dokazovači teorémů Z3, které připravily cestu pro budoucí vývoj AI.
Vzhledem k tomu, že se AI stává nedílnou součástí každodenního života, pojďme prozkoumat, jak několik klíčových milníků Microsoftu pomohlo položit základy pro to, kde jsme dnes, a jak společnost plánuje vyvinout nejdůvěryhodnější platformu, nástroje a infrastrukturu AI pro budoucnost.
Bing přichází s funkcemi pro zpracování přirozeného jazyka
Bing, který se vyvinul z Windows Live Search, představil při svém uvedení v roce 2009 několik pozoruhodných funkcí strojového učení, včetně návrhů vyhledávání během zadávání dotazu a seznamu souvisejících vyhledávání, známého jako “panel Prozkoumat”. Tyto funkce využívaly sémantickou technologii od společnosti Powerset, kterou Microsoft získal v roce 2008.
Project Oxford pokládá základy pro širokou škálu funkcí AI v Azure
Mnoho technických pokroků Microsoftu je postaveno na úspěchu Azure. Tento projekt s kódovým označením, vydaný v roce 2015, poskytl vývojářům sadu inteligentních technologií používaných k vytváření chytřejších aplikací s funkcemi rozpoznávání obličeje, rozpoznávání hlasu a porozumění jazyku. Nyní je známý jako Azure AI Foundry.
„Hodně z toho se vrací k Bingu,“ řekl Eric Boyd, viceprezident společnosti Microsoft pro platformu Azure AI, který svou cestu v Microsoftu začal ve vývoji Bing Ads. „Vybudovali jsme veškerou tuto infrastrukturu pro to, jak trénovat modely AI, jak iterovat a experimentovat, abychom zjistili, který model AI skutečně funguje nejlépe. Veškerá tato infrastruktura se proměnila v díly a komponenty věcí, které nyní poskytujeme prostřednictvím Azure AI.“
Mezi klíčové produkty, které vzešly z Azure, patří vývoj konverzačních aplikací AI, Microsoft Cognitive Services, sada nástrojů pro zodpovědnou AI a Azure OpenAI Service, která kombinuje výkonné jazykové modely s podnikovými funkcemi Azure. Dnes používá Azure AI Foundry více než 60 000 organizací a 65 % společností z žebříčku Fortune 500 přijalo Azure OpenAI Service.
Nový rámec zvyšuje trénink a výkon hlubokých neuronových sítí
Průlom z Microsoft Research, Deep Residual Networks, známý také jako ResNet, byl představen v roce 2015. Rámec reziduálního učení výrazně zlepšil trénink hlubokých neuronových sítí, což umožnilo vývoj hlubších architektur s lepším výkonem. Pomohl otevřít dveře široké škále praktických aplikací, z nichž mnohé jsou dnes pro naše životy zásadní.
„ResNet nastavil standard pro počítačové vidění, který se používá všude,“ řekl Peter Lee, prezident Microsoft Research. „Pokud máte auto s automatickým řízením, používá AI založenou na ResNet. Pokud podstupujete magnetickou rezonanci na klinice, tento přístroj má také technologii založenou na ResNet.“
Skok v multisenzorickém a vícejazyčném učení
V pětiletém období počínaje rokem 2015 dosáhl Microsoft parity s lidským výkonem v několika benchmarcích v oblasti rozpoznávání konverzační řeči, strojového překladu, konverzačního zodpovídání otázek, strojového čtení s porozuměním a popisování obrázků.
Těchto pět průlomů bylo klíčových pro dosažení skoku ve schopnostech AI, dosažení multisenzorického a vícejazyčného učení, které je bližší tomu, jak se učí a rozumí lidé. Tyto průlomy vedly k vývoji XYZ-kódu společností Microsoft, průniku tří atributů lidského poznávání: jednojazyčného textu (X), zvukových nebo vizuálních senzorických signálů (Y) a vícejazyčnosti (Z) – a byly integrovány do služeb Azure AI, aby zákazníkům pomohly urychlit výkonnější a integrativnější systémy AI.
Zlepšení přístupnosti tím, že se vizuální svět stává slyšitelným
S cílem vytvářet technologie, které zvyšují přístupnost, představil Microsoft v roce 2016 Seeing AI. Tento reálný příklad AI využívá počítačové vidění a zpracování přirozeného jazyka k popisu okolí člověka, čtení textu, odpovídání na otázky, identifikaci měny, a dokonce i k popisu lidí kolem vás a výrazů obličeje.
Funkce Find My Things pomáhá lidem, kteří jsou nevidomí nebo mají slabý zrak, personalizovat si zážitek tím, že učí nástroj rozpoznávat položky, které skutečně používají a potenciálně ztrácejí. Může se jednat o malé předměty, jako jsou klíče od domu nebo sluchátka.
Přístupnost usnadňuje používání nástrojů a technologií Microsoftu pro každého a urychluje inovace pro svět, včetně produktů, jako je Reading Coach, který pomáhá studentům učit se číst a podporuje začínající čtenáře a studenty s dyslexií.
Změna rychlosti zpracování AI
Rok 2017 znamenal příchod Brainwave, platformy pro akceleraci hlubokého učení, která je navržena pro spouštění úloh AI v reálném čase ve velkém měřítku v cloudové infrastruktuře Microsoftu. Brainwave kombinuje programovatelná hradlová pole (FPGAs) s vysoce výkonným softwarem, což výrazně zvyšuje výkon modelů AI, zejména pro úkoly, jako je rozpoznávání obrázků a zpracování přirozeného jazyka. Brainwave znamenal důležitý skok v tom, jak Microsoft přistupoval k hardwaru AI a cloudové inferenci AI.
Příprava půdy pro inovace ve velkých jazykových modelech
V roce 2020 vydal Microsoft Turing-NLG (Natural Language Generation), jeden z největších jazykových modelů té doby se 17 miliardami parametrů. To ukázalo vedoucí postavení Microsoftu ve vývoji AI pro porozumění přirozenému jazyku a předcházelo vývoji dalších základních modelů, jako je Florence pro vizuální rozpoznávání.
Nuance představuje první řešení ambientní klinické inteligence pro zdravotnictví
DAX Copilot, nyní zabudovaný v Dragon Copilot, byl významným krokem v oblasti zdravotnictví, který využíval AI s hlasovým ovládáním, aby lékařům umožnil dokumentovat setkání s pacienty během přirozené konverzace mezi lékařem, pacientem a rodinami, což lékařům umožnilo věnovat pacientům plnou pozornost a snížit množství práce po pracovní době.
V roce 2020 se DAX stal obecně dostupným a v roce 2023 se DAX Express stal prvním řešením, které kombinuje konverzační a ambientní AI s GPT-4. Řešení ambientní AI nyní důvěřuje více než 600 velkých zdravotnických systémů. Produkuje více než 3 miliony epizod péče měsíčně a roste.
Bezprecedentní superpočítačová infrastruktura v Azure urychluje průlomy OpenAI
Také v roce 2020 představil Microsoft nový superpočítač hostovaný v Azure pro OpenAI, čímž vytvořil novou infrastrukturu pro trénink velkých modelů AI a první krok k tomu, aby byly dostupné jako platforma. V době svého vydání se superpočítač Microsoftu ve srovnání s jinými stroji uvedenými na seznamu TOP500 superpočítačů na světě umístil v první pětce. V následujících letech Microsoft rozšířil tuto infrastrukturu o superpočítače AI bezprecedentního rozsahu pro významné pokroky ve výkonu aplikací pro trénink a inferenci AI.
Partnerství s OpenAI bylo vytvořeno na základě sdílených ideálů a snahy zodpovědně posouvat stav techniky v oblasti AI s větší ambicí než kdokoli jiný. Společně obě společnosti vybudovaly bezprecedentní superpočítačovou infrastrukturu v Azure, aby urychlily průlomy OpenAI, a díky této spolupráci dokázaly lépe porozumět nejen tomu, jak sestavit nejlepší platformu AI na světě, ale co je důležitější, jak doručit její výhody zákazníkům a světu.
GitHub Copilot: Otevírá dveře novému způsobu kódování s AI
Akvizice GitHubu společností Microsoft vedla k eventuálnímu vytvoření GitHub Copilot v roce 2021. Asistent kódování s podporou AI, který vývojářům umožňuje vybírat si z modelů, jako jsou Anthropic Claude 3.5 Sonnet, Google Gemini 2.0 Flash a OpenAI o3-mini a GPT-4o, pomáhá vývojářům psát kód efektivněji prostřednictvím navrhovaných úryvků kódu a kontextově relevantních chatových odpovědí. Byl to další krok v poskytování prvotřídní platformy AI, která má posílit postavení zákazníků, jednotlivců a tvůrců po celém světě. Od té doby se GitHub Copilot stal nástrojem pro kódování s AI, který si vybralo více než 77 000 organizací ve všech regionech a odvětvích, a rychle se vyvíjí v agentního peer programátora s funkcemi, jako je agentní režim a revize kódu.
AI znovuobjevuje vyhledávání a spouští vlnu inovací v životě i práci
V roce 2023 se Bing a Edge staly poháněnými AI, což pomohlo vytvořit zásadní posun ve způsobu, jakým lidé používali vyhledávání. To také vedlo k rychlému vývoji a integraci Copilotu napříč celým Microsoft stackem v průběhu následujícího roku a více. Copilot se nadále vyvíjel a stal se nejen informačním nástrojem, ale také skutečným společníkem AI s vydáním aktualizované aplikace Copilot pro spotřebitele. Zavedení hlasu a obrazu umožňuje Copilotu přizpůsobit se uživateli a poskytovat odpovědi, povzbuzení a rady, když lidé řeší každodenní životní výzvy.
Po prvním spuštění v Bingu v roce 2023 Microsoft rychle integroval Copilot do celého svého portfolia produktů. Microsoft 365 Copilot pomáhá lidem být produktivnější, zatímco Dynamics 365 a Power Platform pomáhají transformovat obchodní procesy.
Rychlá inovace s Copilotem
- 7. února 2023: Copilot v Bingu
- 6. března 2023: Microsoft Dynamics 365 Copilot
- 16. března 2023: Microsoft 365 Copilot
- 16. března 2023: Copilot v Power Platform
- 22. března 2023: GitHub Copilot X
- 28. března 2023: Microsoft Security Copilot
- 20. dubna 2023: Copilot v Microsoft Viva
- 23. května 2023: Copilot ve Windows
- 15. ledna 2024: Copilot Pro
- 21. května 2024: Nástroje Copilot Studio pro vytváření autonomních agentů
- 4. ledna 2024: Klíč Copilot součástí zařízení Windows 11
- 4. října 2024: Aktualizovaná spotřebitelská zkušenost s Copilotem s hlasem a obrazem
- 15. ledna 2025: Microsoft 365 Copilot Chat + Agents
- 16. ledna 2025: Copilot v osobních a rodinných předplatných Microsoft 365
- 25. března 2025: Hluboké uvažování v Microsoft 365
Představujeme novou kategorii počítačů Windows navržených pro AI
Počínaje prací zahájenou v roce 2019 s uvedením Surface Pro X, představily Copilot+ PCs v roce 2024 zcela novou systémovou architekturu, která spojuje výkon CPU, GPU a nové vysoce výkonné jednotky Neural Processing Unit (NPU). Díky využití schopností NPU dosáhly Copilot+ PCs úrovně výkonu, která dosud nebyla vidět – až 20krát vyšší výkon a až 100krát vyšší účinnost pro spouštění úloh AI. To přineslo řadu nových zážitků s AI, které byly dříve nemožné, díky čemuž je práce na počítači rychlejší, jednodušší a osobnější.
Nový rámec pro vytváření agentů AI
AutoGen, spuštěný v roce 2023, je open-source programovací rámec pro vytváření agentů AI a usnadnění spolupráce mezi více agenty při řešení úkolů. Cílem AutoGen je poskytnout snadno použitelný a flexibilní rámec pro urychlení vývoje a výzkumu agentní AI. Reakce vývojářské komunity na AutoGen pomohla připravit půdu a identifikovat klíčové případy použití pro nabídky agentů Microsoftu.
Průkopníkem v kategorii malých jazykových modelů s Phi
Tato inovace z výzkumu do produktu z roku 2024 byla průkopníkem v kategorii malých jazykových modelů, aby se odemkly nákladově efektivní, přizpůsobené inovace modelů a zpřístupnila AI více lidem, například na chytrých telefonech a dalších mobilních zařízeních, které fungují „na okraji“ a nejsou připojeny ke cloudu. Od té doby Microsoft představil další iterace Phi v katalogu modelů Azure AI Foundry, včetně modelů Phi specifických pro dané odvětví, které zákazníkům pomáhají řešit konkrétní případy použití.
První generativní model AI svého druhu pro hraní her
Průlom v ideaci hratelnosti, model Muse, vydaný v roce 2025, vyvíjí hluboké porozumění prostředí, včetně jeho dynamiky a toho, jak se vyvíjí v průběhu času v reakci na akce. Schopnosti ChatGPT a GPT-4 učit se lidskému jazyku se nyní shodují se schopností AI učit se mechanice toho, jak věci fungují, a ve skutečnosti vyvíjet praktické porozumění interakcím ve světě. To odemyká schopnost rychle iterovat, remixovat a vytvářet ve videohrách, takže vývojáři mohou nakonec vytvářet pohlcující prostředí a uvolnit svou plnou kreativitu.
Tyto pokroky jen škrábou povrch závazku Microsoftu k AI a jejímu potenciálu pomoci dosáhnout poslání posílit postavení každého člověka a každé organizace na planetě, aby dosáhli více prostřednictvím spolupráce a inovací. Od zlepšení lékařské péče přes ochranu biodiverzity až po transformaci učení, možnosti a dopad AI zůstávají nekonečné.
„Co je ve výzkumu opravdu důležité, není jen posouvat stav znalostí v technickém smyslu, ale zajistit, aby tyto průlomy mohly umožnit i širší ekosystém,“ řekl Lee.
„Je to důležitější než kdy jindy, protože tempo změn se nesmírně zrychlilo. Jedna z věcí, která mě na Microsoftu jako platformní společnosti inspiruje, je to, že posouváme stav AI současně s tím, jak pomáháme našim zákazníkům využívat tuto transformační technologii.“