LanceDB, che conta Midjourney come cliente, sta costruendo database per l'AI multimodale

Chang She, precedentemente VP dell'ingegneria presso Tubi e veterano di Cloudera, ha anni di esperienza nella costruzione di strumenti e infrastrutture dati. Ma quando She ha iniziato a lavorare nel settore dell'AI, si è rapidamente scontrato con problemi legati all'infrastruttura dati tradizionale, problemi che gli impedivano di portare modelli di AI in produzione.

“Gli ingegneri di apprendimento automatico e i ricercatori di AI sono spesso bloccati con un'esperienza di sviluppo scadente,” ha detto She a TechCrunch in un'intervista. “Le aziende di infrastrutture dati non capiscono veramente il problema dei dati per l'apprendimento automatico a un livello fondamentale.”

Quindi Chang, uno dei co-creatori di Pandas, la popolarissima libreria per la scienza dei dati in Python, si è associato all'ingegnere del software Lei Xu per lanciare LanceDB.

LanceDB sta costruendo il software di database open source omonimo LanceDB, progettato per supportare modelli di AI multimodali, modelli che si addestrano e generano immagini, video e altro oltre al testo. Sostenuta da Y Combinator, LanceDB questo mese ha raccolto $8 milioni in un round di finanziamento seminale guidato da CRV, Essence VC e Swift Ventures, portando il totale raccolto a $11 milioni.

“Se l'AI multimodale è fondamentale per il successo futuro della tua azienda, vuoi che il tuo team di AI molto costoso si concentri sul modello e sul collegamento dell'AI con il valore aziendale,” ha detto Chang. “Sfortunatamente, oggi i team di AI passano la maggior parte del loro tempo a occuparsi dei dettagli dell'infrastruttura dati a basso livello. LanceDB fornisce le basi di cui hanno bisogno i team di AI in modo che possano essere liberi di concentrarsi su ciò che conta davvero per il valore aziendale e portare i prodotti di AI sul mercato molto più velocemente di quanto sarebbe altrimenti possibile.”

LanceDB è essenzialmente un database vettoriale, un database che contiene serie di numeri (“vettori”) che codificano il significato dei dati non strutturati (ad esempio immagini, testi e altro).

Come ha recentemente scritto il mio collega Paul Sawers, i database vettoriali stanno avendo il loro momento di gloria mentre il ciclo dell'AI raggiunge il picco. Questo perché sono utili per ogni tipo di applicazione di AI, dalle raccomandazioni di contenuti nel commercio elettronico e nelle piattaforme di social media alla riduzione delle allucinazioni.

La concorrenza dei database vettoriali è intensa — si veda Qdrant, Vespa, Weaviate, Pinecone e Chroma per citarne alcuni (senza contare i colossi della tecnologia). Quindi, cosa rende unico LanceDB? Una maggiore flessibilità, prestazioni e scalabilità, secondo Chang.

Per prima cosa, dice Chang, LanceDB — basato su Apache Arrow — è alimentato da un formato dati personalizzato, Lance Format, ottimizzato per l'addestramento e l'analisi di AI multimodali. Lance Format consente a LanceDB di gestire fino a miliardi di vettori e petabyte di testi, immagini e video, e di consentire agli ingegneri di gestire varie forme di metadati associati a questi dati.

“Fino ad ora, non c'è mai stato un sistema che possa unire l'addestramento, l'esplorazione, la ricerca e l'elaborazione di dati su larga scala,” ha detto Chang. “Lance Format consente ai ricercatori e ingegneri di AI di avere una singola fonte di verità e ottenere prestazioni ultraveloci lungo l'intero pipeline di AI. Non si tratta solo di memorizzare i vettori.”

LanceDB guadagna vendendo versioni completamente gestite del proprio software open source con funzionalità aggiuntive come l'accelerazione hardware e i controlli di governance — e gli affari sembrano andare bene. La lista clienti dell'azienda include la piattaforma testo-immagine Midjourney, l'unicorno dei chatbot Character.ai, la startup di auto autonome WeRide e Airtable.

Chang ha insistito sul fatto che il recente supporto VC per LanceDB non devierà l'attenzione dal progetto open source, che afferma ora sta registrando circa 600.000 download al mese.

“Volevamo creare qualcosa che rendesse 10 volte più semplice per i team di AI lavorare con dati multimodali su larga scala,” ha detto. “LanceDB offre — e continuerà a offrire — un insieme molto ricco di integrazioni ecosistema per ridurre al minimo lo sforzo di adozione.”

Stiamo lanciando una newsletter sull'IA! Iscriviti qui per iniziare a riceverla nella tua casella di posta il 5 giugno.