跳過主内容

GPT-4 Turbo with Vision 現已於Azure OpenAI Service 上公開預覽,開放使用

我們非常興奮地宣布,GPT-4 Turbo with Vision 今日在 Azure OpenAI 服務上推出公開預覽版,現已開放使用。GPT-4 Turbo with Vision 是由 OpenAI 開發的大型多模態模型(LMM),它融合了自然語言處理和視覺理解,能夠分析圖像並對相關問題提供文字回答。這種整合使得  Azure  用戶能夠享受  Azure  可靠的雲端基礎設施,以及 OpenAI 的先進人工智慧研究成果。

超越語言文字:揭示視覺理解的力量

過去,語言模型僅專注於文字輸入,這限制了它們的應用。GPT-4 Turbo with Vision 打破了這些限制,融合了視覺數據,實現了更進階的圖像理解。這個模型不僅僅是認識圖片中的物件;它更能理解上下文和細節,比如寫出詳盡的圖片標題、提供豐富的語意描述、回答有關視覺內容的問題,或者賦予圖像標籤。GPT-4 Turbo with Vision 將圖像理解提升到新的高度,超越單純的像素,以更深入的方式詮釋視覺世界。

Instacart,一家雜貨技術與服務公司,開發了名為 Ask Instacart 的搜索功能,讓客戶對食品提出開放式問題。現在,憑藉 Azure OpenAI 服務上的 GPT-4 Turbo with Vision,Instacart 正在升級 Ask Instacart,以支援更豐富的圖像問答。

GPT-4 Turbo with Vision 在 Azure OpenAI 服務上,讓手寫食譜和購物清單直接轉換為數字化、可購買的項目清單,並且應用於 Instacart 應用程式中。我們的用戶不再需要解讀食材和數量,也不需要手動搜索每個所需的物品,並將其添加到 Instacart 訂單中。這只是我們利用這項技術的開始,我們看到它提高了某些客戶和購物者採購流程,速度和品質極具潛力。

Instacart 首席架構師 JJ Zhuang

GPT-4 Turbo with Vision + Azure AI 服務

GPT-4 Turbo with Vision 在 Azure OpenAI 服務中提供頂尖的人工智慧功能,並搭載企業級安全性和負責任的人工智慧治理。此外,它提供獨家存取 Azure AI 服務客製的增強功能。與 Azure AI 服務結合,它透過引入一系列進階功能來增強您的體驗,包括:

影片提示功能Video prompt我們正在透過 Azure AI Vision Video Retrieval 的原生整合,使開發者能夠將影片作為 GPT-4 Turbo with Vision 的輸入。這簡化了將影片輸入到應用程式中的過程,消除了複雜的影片處理過程。這種整合,透過對視覺和語音的先進多模態向量索引,實現了影片提示功能(Video prompt)的上下文檢索能力,並允許生成關於影片內容的摘要和答案。

有關影片提示的更多資訊,請參閱《GPT-4 Turbo的視覺理解能力整合,透過Azure平台提升對影片的理解》。

Satalia 是 WPP 集團的人工智慧中心,而 WPP 是全球最大的傳播服務集團之一,主要以廣告和公共關係工作而聞名。Satalia 與 Microsoft 的合作,充分利用了 GPT-4 Turbo with Vision 和 Azure AI Vision 技術,因而改變了內容分析和技術優化。這些技術能對影片內容(如廣告和社交媒體貼文)進行深入評估,提供了對內容效果和觀眾參與度的深刻洞察。

GPT-4 Turbo with Vision 透過影片檢索功能,生成的詳細摘要,讓 Satalia 的人工智慧工具能夠預測影片內容,並提出改進建議,希望能與觀眾的期待和平台要求,達到相互契合的程度。人工智慧與人類創造力的融合,確保了內容不僅在視覺上吸引人,而且能與觀者達到情感上的共鳴。

在過去兩年中,我們一直在實驗各種圖像轉文本和影片轉文本工具,以賦予我們的人工智慧,擁有更好的能力,去分析解決方案並創建更有效的創意素材,進而透過影片解碼的方式,達到以前難以想像的效果。我可以肯定地說,GPT-4 Turbo with Vision是迄今為止我們使用過的最佳工具,因為它能夠完美理解影片內容和上下文關聯。

Satalia CEO丹尼爾·哈姆(Daniel Hulme),WPP旗下公司

Azure OpenAI on your data with images:透過結合 GPT-4 Turbo with Vision、Azure AI Search 和 Azure AI Vision,我們正在改變資訊檢索的方式。現在,您可以將圖像添加到文本數據中,利用向量搜索功能,開發一個能夠連接您數據的解決方案,從而實現更好的聊天體驗。這種多模態支持建立在現有的基於文本模型的 Bring Your Data 功能之上

物件定位(Object Grounding):Azure AI Vision 與 GPT-4 Turbo with Vision 的文本回應是相輔相成的—透過物件定位,在輸入的圖像中定位出突出的物件。這種整合為數據分析和用戶交互帶來了新的層次,因為這個功能可以在處理圖像時,以視覺為核心,區分並突顯圖片中的重要元素。

光學字符識別(OCR):Azure AI Vision 透過提供高質量的 OCR 結果,作為模型的補充資訊,並用來輔助 GPT-4 Turbo with Vision。它允許模型為密集文本,並且讓變換後的圖像,與數字密集的財務文件產生更高品質的響應,進而擴展了 OCR 的語言覆蓋範圍。

負責任的人工智慧與隱私保護

微軟致力於推動以負責任原則驅動的人工智慧。Azure OpenAI 服務上的 GPT-4 Turbo with Vision 尊重用戶的隱私—在處理圖像或包含人物圖像的輸入時,系統將首先對臉部模糊化,然後再進行處理以回覆使用者所請求的結果,從而防止通過臉部識別個人。任何識別,當發生時,都基於模型的訓練,該模型在學習階段將特定圖像與名稱進行標記。該模型還可以根據除了臉部之外的情境線索進行判斷。這就是臉部被模糊處理,該模型仍然能夠將圖像與個人關聯起來的原因。例如,如果圖像中包含一位運動員穿著其特定球隊球衣,並帶有其號碼的照片,該模型仍然可以根據這些情境線索推斷出其身份。

GPT-4 Turbo with Vision 已經在 Azure OpenAI 服務上推出,這代表我們持續擴展人工智慧的能力,為用戶提供市場上最創新的工具。我們期待看到客戶如何利用這一新功能推動其業務發展和創新。

我們期待著讓您的企業充分利用這些能力,我們將繼續推動人工智慧的發展。

立即開始使用 Azure AI 服務