NVIDIA NIM ve NVIDIA VIA Mikro Hizmetlerini Kullanarak VLM Destekli Görsel AI Aracıları Oluşturun

3


Geleneksel video analitiği uygulamaları ve bunların geliştirme iş akışları, genellikle önceden tanımlanmış nesnelerin yalnızca belirli bir kümesini tespit etmek ve tanımlamak üzere tasarlanmış, sabit işlevli, sınırlı modeller üzerine kuruludur.

Üretken yapay zeka, NVIDIA NIM mikro servisleri ve temel modeller sayesinde artık daha az modelle geniş algıya ve zengin bağlamsal anlayışa sahip uygulamalar oluşturabilirsiniz.

Yeni nesil yapay zeka modelleri sınıfı, görsel dil modelleri (VLM), güçler görsel AI ajanları doğal dil istemlerini anlayabilen ve görsel soru cevaplama gerçekleştirebilen. Bu aracılar, çok çeşitli endüstriler için uygulama olanaklarının tamamını açar. Uygulama geliştirme iş akışlarını önemli ölçüde kolaylaştırırlar ve ayrıca görüntü veya video özetleme, etkileşimli görsel soru-cevap ve görsel uyarılar gibi dönüştürücü ve yeni algılama yetenekleri sunarlar.

Bu görsel AI ajanları fabrikalar, depolar, perakende mağazaları, havaalanları, trafik kavşakları ve daha fazlasında konuşlandırılacak. Operasyon ekiplerinin doğal etkileşimlerden elde edilen daha zengin içgörüleri kullanarak daha iyi kararlar almasına yardımcı olacaklar.

NVIDIA NIM ve NVIDIA VIA mikro hizmetleri, görsel AI aracılarının gelişimini hızlandırmak için burada. Bu yazıda, VLM’ler ve NIM mikro hizmetleriyle büyük miktarda videoyu işlemeye ve düzenlenmiş özetler üretmeye yardımcı olmak için bu iki teknolojiyle bir özetleme mikro hizmetiyle sorunsuz bir şekilde bir AI aracının nasıl oluşturulacağını gösteriyoruz.

NVIDIA VIA, varsayılan olarak VLM olarak OpenAI GPT-4o modelini kullanır.

NVIDIA VIA mikro servislerinin yayınlanması

Video 1. Görme Dili Modelleriyle Görsel AI Aracıları Oluşturun

NVIDIA Metropolis Mikro Hizmetleri’nin bir uzantısı olan NVIDIA VIA mikro hizmetleri, ister uçta ister bulutta konuşlandırılmış olsun, VLM’ler ve NIM tarafından desteklenen görsel AI ajanlarının geliştirilmesini hızlandırmak için bulut tabanlı yapı taşlarıdır. NVIDIA VIA mikro hizmetleri şu anda geliştirici önizlemesinde indirilebilir.

NVIDIA VIA ile yeni kullanım durumları için görsel AI ajanları oluşturma fırsatları sonsuzdur. Bu modüler mikro hizmetler, görsel AI ajanları oluşturma ve bunları karmaşık özellikler eklemek için özelleştirme esnekliği sağlar.

NVIDIA VIA mikro hizmetleri modüler mimari ve özelleştirilebilir model desteği sağlar. Kaydedilmiş videoları ve canlı yayınları destekler ve mevcut sistemlere kolay entegrasyon için bir REST API’ye ve hızlı denemeler için bir kullanıcı arayüzüne sahiptir.

Her NVIDIA VIA mikro servisi, diğer konteynerlara veya mikro servislere bağımlılığı olmayan tek bir konteynerdir. NVIDIA VIA, bağımsız makinelere, şirket içi, bulut veya herhangi bir CSP’ye kolayca dağıtılabilir.

NVIDIA VIA mikro servislerinin NVIDIA NIM ile entegrasyonu

NVIDIA VIA mikro hizmetleri NVIDIA NIM ile kolayca entegre edilebilir. Herhangi bir LLM veya VLM modelini kullanma esnekliğine sahipsiniz. NVIDIA API Kataloğu Model önizleme API’leri ve indirilebilir NIM mikro servisleri.

Varsayılan olarak, NVIDIA VIA VLM olarak OpenAI GPT-4o modelini kullanır. Bu gönderi için NVIDIA’yı kullandık VİTA-2.0 NGC’de bulunan VLM modelidir.

NVIDIA VIA, NVIDIA NeMo Guardrails ve Context-Aware RAG (CA-RAG) modülü için LLM olarak NVIDIA tarafından barındırılan Llama 3 70B NIM mikro hizmetini kullanır. Çok çeşitli farklı LLM’ler ve VLM’ler arasından seçim yapabilirsiniz. API KataloğuNVIDIA tarafından barındırılan veya yerel olarak dağıtılan.

NVIDIA NIM endüstri standardı API’ler, alan-özel kod, optimize edilmiş çıkarım motorları ve kurumsal çalışma zamanını içeren bir dizi mikro hizmettir. Doğal dil kullanarak eyleme dönüştürülebilir içgörüler çıkarmak için canlı veya arşivlenmiş görüntüleri veya videoları işleyebilen görsel bir AI aracısı oluşturmak için birden fazla VLM sunar.

VIA mikro servisleri kullanılarak oluşturulan özetleme için görsel AI aracısı

Günümüzde çoğu VLM yalnızca sınırlı sayıda kareyi kabul eder, örneğin 8 / 10 / 100. Ayrıca daha uzun videolar için doğru bir şekilde altyazı üretemezler. Bir saatlik videolar gibi daha uzun videolar için, örneklenen kareler 10 saniye arayla veya daha uzun olabilir. Bu, bazı ayrıntıların kaçırılmasına veya eylemlerin tanınmamasına neden olabilir.

Soruna bir çözüm, uzun videolardan daha küçük parçalar oluşturmak, parçaları VLM’ler kullanarak ayrı ayrı analiz etmek ve ardından sonuçları özetleyip birleştirerek tüm dosya için tek bir özet oluşturmaktır.

Video 2. NVIDIA VIA Mikro Hizmetlerini Kullanarak Video Özetleme için Görsel AI Aracıları Oluşturun
Diyagram, bir giriş kamerası veya video verisini özetlemek için çeşitli VIA mikro servis bileşenleri arasındaki etkileşimi göstermektedir.
Şekil 1. Özetleme vizyonu AI aracısının üst düzey mimarisi

Özetleme aracı aşağıdaki bileşenlerden oluşur:

  • NVIDIA VIA akış işleyicisi: NeMo Guardrails, CA-RAG, VLM boru hattı, parçalama ve Milvus Vector DB gibi diğer bileşenlerle etkileşimi ve senkronizasyonu yönetir.
  • NeMo Korkulukları: Geçersiz kullanıcı istemlerini filtreler. Bir LLM NIM mikro servisinin REST API’sini kullanır.
  • VLM boru hattı – Akış işleyicisi tarafından oluşturulan video parçalarını çözer, NVIDIA Tensor RT tabanlı bir görsel kodlayıcı modeli kullanarak video parçaları için yerleştirmeleri oluşturur ve ardından kullanıcı sorgusu için parça başına yanıt oluşturmak üzere bir VLM kullanır. NVIDIA DeepStream SDK’sına dayanır.
  • VektörDB: Parça başına ara VLM yanıtını depolar.
  • CA-RAG modülü: Parça başına VLM yanıtından yararlı bilgileri çıkarır ve tek bir birleşik özet oluşturmak için bunları birleştirir. CA-RAG (Bağlam Farkında-Alım-Artırılmış Üretim), bir LLM NIM mikro servisinin REST API’sini kullanır.

NVIDIA VIA mikro servisleri çeşitli özelliklerle birlikte gelir:

  • Videolar ve canlı yayınlar için özetleme
  • Birden fazla GPU üzerinde optimum ve yüksek ölçeklenebilir uygulama
  • CA-RAG modülüyle daha iyi özetleme
  • Herhangi bir kullanım durumu için özetlemeyi etkinleştirme

Videolar ve canlı yayınlar için özetleme

NVIDIA VIA ile uzun video dosyalarını ve canlı yayınları REST API ile kolayca özetleyebilirsiniz. NVIDIA VIA, çok sayıda yapılandırılabilir parametre sağlarken tüm ağır işleri halleder.

Dosya özetleme için NVIDIA VIA, giriş dosyasını kullanıcı tarafından yapılandırılan parça süresi, parça örtüşme süresi ve dosya süresine göre parçalara ayırır.

Örneğin, bir dakikalık parça süresine sahip bir saatlik bir dosya için 60 parça üretir. Bu parçalar VLM işlem hattı tarafından paralel olarak işlenir. Tüm parça başlıkları mevcut olduğunda, CA-RAG bu başlıkları özetler ve bir araya getirerek dosya için tek bir son özet üretir.

Canlı yayınlar için, bir yayın hattı RTSP sunucusundan yayın verilerini alır. NVIDIA VIA mikro hizmeti, kullanıcı tarafından yapılandırılan parça süresine göre sürekli olarak video parçası segmentleri üretir. VLM hattı daha sonra bu parçalar için altyazıları üretir.

NVIDIA VIA motoru, VLM boru hattından altyazıları toplamaya devam eder. Kullanıcı tarafından yapılandırılan özet süresine göre yeterli parça işlendiğinde, toplanan parçalar özetleme ve birleştirme için CA-RAG’a gönderilir. VIA motoru sonraki parçaları işlemeye devam eder. Özetler, HTTP sunucusu tarafından gönderilen olaylar kullanılarak istemciye aktarılır.

Birden fazla GPU üzerinde optimum ve yüksek ölçeklenebilir uygulama

Video dosyaları ve canlı yayınlar, video içeriği ve VLM modelleri için kullanım durumuna bağlı olarak, parçalama parametrelerini yapılandırabilirsiniz.

Video dosyaları

chunk_duration: Videonun tamamı şu şekilde bölünmüştür: chunk_duration uzunluk segmentleri, N (VLM’ye bağlı) çerçeveler bu parçadan örneklenir ve çıkarım için VLM’ye gönderilir. Parça süresi, N kareler olayı yakalayabilir.

chunk_overlap: Eğer bir olay, parça kesişiminde meydana gelirse, o zaman örneklenen kareler olayın tamamını yakalayamayabilir ve model bunu tespit edemeyebilir. VIA, kayan pencere yaklaşımını kullanarak bu sorunu hafifletir. chunk_overlap parçalar arasındaki örtüşme süresidir.Default: 0).

Canlı Yayınlar

chunk_duration: Video dosyalarına benzer şekilde, canlı yayın da bölümlere ayrılmıştır. chunk_duration ve çıkarım için VLM’ye gönderilir ve parçanın süresi yeterince küçük olmalıdır. N kareler olayı yakalayabilir.

summary_duration: Kullanıcının özet istediği süre. Bu, kullanıcının özetin üretileceği akışın süresini kontrol etmesini sağlar. Örneğin, eğer chunk_duration 1 dakika ve özet süresi 30 dakika ise, akış VLM çıkarımı için 1 dakikalık parçalara bölünür. 30 parçadan oluşan VLM çıktısı, kullanıcıya 30 dakikalık özlü bir özet sağlamak için toplanır.

Örnek parçalama yapılandırmaları

Video dosyaları için bazı örnek kullanım durumları için örnek parçalama yapılandırması:

tail-gating detection:
     chunk_duration: 2 min
     chunk_overlap: 15 sec

traffic violation (such as a wrong turn):
     chunk_duration: 30 sec
     chunk_overlap: 15 sec

Akışlar için bazı örnek kullanım durumları için örnek parçalama yapılandırması:

sports summarization:
     chunk_duration: 2 min
     summary_duration: 15 min

robot control:
     chunk_duration: 5 sec
     summary_duration: 5 sec

Bunlar sadece kılavuzlardır ve gerçek parametre, kullanıcı tarafından kullanım durumlarına göre ayarlanmalıdır. Bu, doğruluk ve performans arasında bir dengedir. Daha küçük parça boyutları daha iyi açıklamalarla sonuçlanır ancak işlenmesi daha uzun sürer.

NVIDIA VIA, tek bir düğümde birden fazla GPU’yu destekler. Parçaları birden fazla GPU’ya dağıtarak ve bu parçaları paralel olarak işleyerek verimli bir şekilde ölçeklenebilir.

İçin VİTA-2.0NVIDIA VIA daha iyi performans için TensorRT-LLM hızlandırmasını kullanır. Ayrıca tek bir GPU’da birden fazla NVDEC motorundan faydalanabilir ve böylece video dosyasının kod çözümünü hızlandırabilir. NVIDIA VIA’da ölçeklemeyle, sistem ve GPU yapılandırmasına bağlı olarak bir saatlik bir dosyayı sadece birkaç dakikada işleyebilirsiniz.

Bağlam Farkında RAG modülüyle daha iyi özetleme

NVIDIA VIA, daha iyi özetleme sonuçları için CA-RAG modülünü içerir. CA-RAG, parça başına VLM altyazılarından yararlı bilgileri çıkarmaktan ve bunları toplayıp özetlemekten sorumludur.

CA-RAG’ın çeşitli yönlerini yapılandırabilirsiniz:

  • Özetleme yöntemleri
  • Kullanılacak LLM modeli ve parametreleri
  • LLM yanıt biçimini değiştirmeyi istiyor
  • Ve dahası

CA-RAG, LangChain tabanlıdır ve genişletilebilir.

Herhangi bir kullanım durumu için özetlemeyi etkinleştirme

NVIDIA VIA özetleme mikro hizmetleri, istemleri, modelleri, parça parametrelerini ve daha fazlasını değiştirerek çeşitli kullanım durumları için esnek çözümler sunar. İstemler iki kategoriye ayrılır:

  • VLM istemi: Kullanıcı, video parçalarından hangi ayrıntıların, olayların veya eylemlerin çıkarılacağını belirleyebilir.
  • LLM istemi: Kullanıcı, oluşturulan VLM yanıtının son özeti oluşturmak için nasıl birleştirileceğini belirleyebilir.

Performansı optimize etmek ve en iyi sonuçları elde etmek için farklı komut istemlerini ve parça uzunluklarını denemenizi öneririz.

Verim

Şekil 2, video yüklendikten sonra çeşitli uzunluktaki videolar için uçtan uca özetleme süresini gösterir. Dört grafik, altyazı için kullanılan farklı parça boyutları içindir (daha düşük daha iyidir). 50m’lik özetleme, 60s altyazı parça boyutu kullanılarak 50s sürer. Buradaki özetleme uygulaması NVIDIA’yı kullanır VİTA-2.0 NGC’de bulunan model.

8x H100 GPU'larda çeşitli parça boyutları için VIA mikro servislerini kullanan bir özetleme aracısının performansını gösteren grafik. Tüm videoyu izlemekle karşılaştırıldığında bir videoyu özetlemek 60 kata kadar daha hızlı olabilir.
Şekil 2. NVIDIA VIA mikro servislerini kullanan bir özetleme aracısının performansı 8x H100 GPU sisteminde

NVIDIA VIA mikro servislerini kullanan görsel AI ajanları aşağıdaki NVIDIA GPU’larında doğrulandı:

  • A100
  • H100
  • L40 ve L40’lar
  • A6000

Ayrıca NVIDIA Ampere, NVIDIA Hopper ve NVIDIA Ada Lovelace mimarileriyle diğer GPU platformlarında da kullanılabilirler.

NVIDIA VIA mikro hizmetlerine başlarken

NVIDIA VIA mikro servisleri ve NVIDIA NIM kullanarak güçlü VLM tabanlı AI ajanları oluşturun. REST API’leri, bu iş akışının ve VLM’lerin mevcut müşteri uygulamalarına kolay entegrasyonunu sağlar.

Daha fazla bilgi için aşağıdaki kaynaklara bakın:

Kaynak: Nvidia

Doğrudan cihazınızda gerçek zamanlı güncellemeleri alın, şimdi abone olun.

Yorumlar