GPT-4 Turbo with Vision 現已於Azure OpenAI Service 上公開預覽，開放使用

我們非常興奮地宣布，GPT-4 Turbo with Vision 今日在 Azure OpenAI 服務上推出公開預覽版，現已開放使用。GPT-4 Turbo with Vision 是由 OpenAI 開發的大型多模態模型（LMM），它融合了自然語言處理和視覺理解，能夠分析圖像並對相關問題提供文字回答。這種整合使得 Azure 用戶能夠享受 Azure 可靠的雲端基礎設施，以及 OpenAI 的先進人工智慧研究成果。

超越語言文字：揭示視覺理解的力量

過去，語言模型僅專注於文字輸入，這限制了它們的應用。GPT-4 Turbo with Vision 打破了這些限制，融合了視覺數據，實現了更進階的圖像理解。這個模型不僅僅是認識圖片中的物件；它更能理解上下文和細節，比如寫出詳盡的圖片標題、提供豐富的語意描述、回答有關視覺內容的問題，或者賦予圖像標籤。GPT-4 Turbo with Vision 將圖像理解提升到新的高度，超越單純的像素，以更深入的方式詮釋視覺世界。

Instacart，一家雜貨技術與服務公司，開發了名為 Ask Instacart 的搜索功能，讓客戶對食品提出開放式問題。現在，憑藉 Azure OpenAI 服務上的 GPT-4 Turbo with Vision，Instacart 正在升級 Ask Instacart，以支援更豐富的圖像問答。

GPT-4 Turbo with Vision 在 Azure OpenAI 服務上，讓手寫食譜和購物清單直接轉換為數字化、可購買的項目清單，並且應用於 Instacart 應用程式中。我們的用戶不再需要解讀食材和數量，也不需要手動搜索每個所需的物品，並將其添加到 Instacart 訂單中。這只是我們利用這項技術的開始，我們看到它提高了某些客戶和購物者採購流程，速度和品質極具潛力。

—Instacart 首席架構師 JJ Zhuang

GPT-4 Turbo with Vision + Azure AI 服務

GPT-4 Turbo with Vision 在 Azure OpenAI 服務中提供頂尖的人工智慧功能，並搭載企業級安全性和負責任的人工智慧治理。此外，它提供獨家存取 Azure AI 服務客製的增強功能。與 Azure AI 服務結合，它透過引入一系列進階功能來增強您的體驗，包括：

影片提示功能（Video prompt）：我們正在透過 Azure AI Vision Video Retrieval 的原生整合，使開發者能夠將影片作為 GPT-4 Turbo with Vision 的輸入。這簡化了將影片輸入到應用程式中的過程，消除了複雜的影片處理過程。這種整合，透過對視覺和語音的先進多模態向量索引，實現了影片提示功能（Video prompt）的上下文檢索能力，並允許生成關於影片內容的摘要和答案。

有關影片提示的更多資訊，請參閱《GPT-4 Turbo的視覺理解能力整合，透過Azure平台提升對影片的理解》。

Satalia 是 WPP 集團的人工智慧中心，而 WPP 是全球最大的傳播服務集團之一，主要以廣告和公共關係工作而聞名。Satalia 與 Microsoft 的合作，充分利用了 GPT-4 Turbo with Vision 和 Azure AI Vision 技術，因而改變了內容分析和技術優化。這些技術能對影片內容（如廣告和社交媒體貼文）進行深入評估，提供了對內容效果和觀眾參與度的深刻洞察。

GPT-4 Turbo with Vision 透過影片檢索功能，生成的詳細摘要，讓 Satalia 的人工智慧工具能夠預測影片內容，並提出改進建議，希望能與觀眾的期待和平台要求，達到相互契合的程度。人工智慧與人類創造力的融合，確保了內容不僅在視覺上吸引人，而且能與觀者達到情感上的共鳴。

在過去兩年中，我們一直在實驗各種圖像轉文本和影片轉文本工具，以賦予我們的人工智慧，擁有更好的能力，去分析解決方案並創建更有效的創意素材，進而透過影片解碼的方式，達到以前難以想像的效果。我可以肯定地說，GPT-4 Turbo with Vision是迄今為止我們使用過的最佳工具，因為它能夠完美理解影片內容和上下文關聯。

—Satalia CEO丹尼爾·哈姆（Daniel Hulme），WPP旗下公司

Azure OpenAI on your data with images：透過結合 GPT-4 Turbo with Vision、Azure AI Search 和 Azure AI Vision，我們正在改變資訊檢索的方式。現在，您可以將圖像添加到文本數據中，利用向量搜索功能，開發一個能夠連接您數據的解決方案，從而實現更好的聊天體驗。這種多模態支持建立在現有的基於文本模型的 Bring Your Data 功能之上。

物件定位（Object Grounding）：Azure AI Vision 與 GPT-4 Turbo with Vision 的文本回應是相輔相成的—透過物件定位，在輸入的圖像中定位出突出的物件。這種整合為數據分析和用戶交互帶來了新的層次，因為這個功能可以在處理圖像時，以視覺為核心，區分並突顯圖片中的重要元素。

光學字符識別（OCR）：Azure AI Vision 透過提供高質量的 OCR 結果，作為模型的補充資訊，並用來輔助 GPT-4 Turbo with Vision。它允許模型為密集文本，並且讓變換後的圖像，與數字密集的財務文件產生更高品質的響應，進而擴展了 OCR 的語言覆蓋範圍。

負責任的人工智慧與隱私保護

微軟致力於推動以負責任原則驅動的人工智慧。Azure OpenAI 服務上的 GPT-4 Turbo with Vision 尊重用戶的隱私—在處理圖像或包含人物圖像的輸入時，系統將首先對臉部模糊化，然後再進行處理以回覆使用者所請求的結果，從而防止通過臉部識別個人。任何識別，當發生時，都基於模型的訓練，該模型在學習階段將特定圖像與名稱進行標記。該模型還可以根據除了臉部之外的情境線索進行判斷。這就是臉部被模糊處理，該模型仍然能夠將圖像與個人關聯起來的原因。例如，如果圖像中包含一位運動員穿著其特定球隊球衣，並帶有其號碼的照片，該模型仍然可以根據這些情境線索推斷出其身份。

GPT-4 Turbo with Vision 已經在 Azure OpenAI 服務上推出，這代表我們持續擴展人工智慧的能力，為用戶提供市場上最創新的工具。我們期待看到客戶如何利用這一新功能推動其業務發展和創新。

我們期待著讓您的企業充分利用這些能力，我們將繼續推動人工智慧的發展。

立即開始使用 Azure AI 服務

立即申請 Azure OpenAI 服務的存取權限
查閱 Azure OpenAI 服務的新文件
探索 Azure AI Studio 中的Playground和自定義功能
深入了解 Azure OpenAI 服務的數據、隱私和安全性
GPT-4 Turbo with Vision 的詳細場景分析：《LMM 的曙光：與 GPT-4V(ision) 的初步探索》
收藏「新功能」頁面
有關影片提示的更多訊息，請參閱《GPT-4 Turbo的視覺理解能力整合，透過Azure平台提升對影片的理解》
如有任何有關 Azure AI Vision 服務的問題，請聯繫 [email protected]

超越語言文字：揭示視覺理解的力量

GPT-4 Turbo with Vision + Azure AI 服務

負責任的人工智慧與隱私保護

立即開始使用 Azure AI 服務

更多故事

《趨勢名人堂》微軟全球首位「負責任AI長」 如何不讓工具變武器？

雲端服務和人工智慧是推動台灣經濟成長與產業轉型的新引擎

2024 重磅更新！Copilot 開拓 CRM、ERP、客服等專業新場景

【商周專欄】台灣微軟總經理卞志祥：坐在寶山上

《趨勢名人堂》微軟全球首位「負責任AI長」如何不讓工具變武器？

雲端服務和人工智慧是推動台灣經濟成長與產業轉型的新引擎 

【商周專欄】台灣微軟總經理卞志祥：
坐在寶山上