Nowości
TwelveLabs zbiera 100 milionów dolarów na budowę wideo-owej superinteligencji
Posłuchaj tego artykułu
Startup TwelveLabs pozyskał 100 milionów dolarów finansowania Series B na rozwój modeli rozumiejących wideo oraz wielomilionowy kontrakt z Amazon Web Services na chipach Trainium.
Spis treści
TwelveLabs, startup budujący modele AI wyspecjalizowane w rozumieniu wideo, ogłosił zamknięcie rundy Series B o wartości 100 milionów dolarów. Rundę współprowadziły fundusze NEA i NAVER Ventures, a dołączyły do niej między innymi Amazon, Radical Ventures, Korea Investment Partners, Index Ventures, Quadrille Capital oraz Red Bull Ventures. Łączne finansowanie spółki przekroczyło już 200 milionów dolarów.
Wideo jako osobna klasa AI
TwelveLabs od początku działa na przekór głównemu nurtowi rozwoju dużych modeli językowych, zakładając, że to wideo, a nie tekst, powinno być podstawowym nośnikiem inteligencji maszynowej. Firma przekonuje, że nagrania wideo są najbliższym cyfrowym zapisem rzeczywistości, jaki mamy, i dlatego modele uczone na samym tekście nigdy nie będą w stanie w pełni rozumieć świata przedstawionego w obrazie i dźwięku.
Na tej filozofii firma zbudowała dwa główne produkty. Marengo 3.0 to model embeddingowy zamieniający obraz, dźwięk, mowę i tekst na przeszukiwalne reprezentacje, określany przez samą firmę jako najpotężniejszy model embeddingowy wideo na rynku. Pegasus 1.5 zamienia surowe nagranie na ustrukturyzowane dane, wykrywając granice scen, obiekty i zdarzenia. Do tego doszedł niedawno Rodeo, nowy produkt warstwy aplikacyjnej skierowany do twórców treści i operatorów platform wideo.
Amazon jako inwestor i partner infrastrukturalny
Szczególnie istotny jest zakres współpracy z Amazonem, który występuje tu w podwójnej roli, jako inwestor w rundzie i jako dostawca infrastruktury. Amazon Web Services podpisało z TwelveLabs wieloletnią umowę, na mocy której chmura AWS staje się preferowanym partnerem firmy, a nowe modele TwelveLabs będą trafiać najpierw na dedykowane chipy Trainium, zanim pojawią się gdziekolwiek indziej. To pokazuje, jak duże firmy chmurowe starają się przywiązywać do siebie obiecujące startupy AI poprzez połączenie kapitału i infrastruktury.
Dyrektor generalny TwelveLabs, Jae Lee, tłumaczył decyzję inwestorów następującymi słowami:
Modele stają się towarem, ale warstwa inteligencji, która je łączy i porządkuje, już nie. - Jae Lee, dyrektor generalny TwelveLabs
To zdanie oddaje strategiczny zwrot firmy, od budowania pojedynczych modeli fundamentowych w stronę pełnego systemu poznawczego dla wideo, łączącego percepcję, pamięć i wnioskowanie w jedną architekturę.
Ekspansja i plany wydatkowania
Pieniądze z rundy trafią przede wszystkim w badania i rozwój, ale też na ekspansję geograficzną. Firma ma obecnie biura w San Francisco i Seulu, a teraz otwiera nowe lokalizacje w Nowym Jorku i Londynie, żeby obsłużyć rosnący popyt klientów globalnych, w tym mediów, reklamy i firm zajmujących się bezpieczeństwem, dla których przeszukiwanie ogromnych archiwów wideo jest codziennym problemem.
Znaczenie dla rynku i Polski
Runda TwelveLabs wpisuje się w szerszy trend inwestycyjny lata 2026 roku, w którym po fali megarund na modele językowe kapitał zaczyna płynąć do wyspecjalizowanych warstw infrastruktury AI, od chipów po konkretne modalności danych, takie jak właśnie wideo. Dla polskiego rynku to sygnał, że wąskie, głęboko wyspecjalizowane firmy AI potrafią przyciągać kapitał na poziomie porównywalnym z ogólnymi modelami czatowymi, podobnie jak zrobiło to wcześniej polskie ElevenLabs w segmencie audio.
Dla firm medialnych, reklamowych i zajmujących się moderacją treści w Polsce narzędzia klasy TwelveLabs oznaczają w praktyce możliwość automatycznego przeszukiwania i tagowania archiwów wideo bez ręcznego opisywania każdego materiału, co dziś jest jednym z najbardziej czasochłonnych elementów pracy redakcji i platform streamingowych.
Źródła: GlobeNewswire (globenewswire.com), SiliconANGLE (siliconangle.com), TwelveLabs (twelvelabs.io).


