英偉達(dá)近日在文檔理解領(lǐng)域邁出了重要一步,推出了Llama Nemotron Nano VL視覺-語言模型,這一創(chuàng)新旨在高效且精準(zhǔn)地應(yīng)對(duì)復(fù)雜的文檔級(jí)理解挑戰(zhàn)。
Llama Nemotron Nano VL模型基于先進(jìn)的Llama 3.1架構(gòu),巧妙融合了CRadioV2-H視覺編碼器和Llama 3.1 8B指令微調(diào)語言模型。這一結(jié)合使得模型能夠同時(shí)解析多頁文檔中的視覺和文本元素,支持處理長達(dá)16K的上下文,無論是圖像還是文本序列,都能游刃有余。
為了實(shí)現(xiàn)視覺與文本的精準(zhǔn)對(duì)齊,該模型采用了投影層和旋轉(zhuǎn)位置編碼技術(shù),這一創(chuàng)新極大地優(yōu)化了token效率,尤其適用于長篇多模態(tài)任務(wù)。無論是面對(duì)多圖像輸入還是復(fù)雜的文本解析,Llama Nemotron Nano VL都能展現(xiàn)出卓越的性能。
在模型訓(xùn)練過程中,英偉達(dá)采取了分階段策略。首先,利用豐富的商業(yè)圖像和視頻數(shù)據(jù)集進(jìn)行交錯(cuò)式圖文預(yù)訓(xùn)練,為模型打下堅(jiān)實(shí)基礎(chǔ)。隨后,通過多模態(tài)指令微調(diào),進(jìn)一步提升模型的交互式提示能力。最后,重新混合純文本指令數(shù)據(jù),以優(yōu)化模型在標(biāo)準(zhǔn)語言模型基準(zhǔn)上的表現(xiàn)。
訓(xùn)練過程中,英偉達(dá)采用了自家的Megatron-LLM框架和Energon數(shù)據(jù)加載器,依托強(qiáng)大的A100和H100 GPU集群完成。在OCRBench v2基準(zhǔn)測(cè)試中,Llama Nemotron Nano VL在OCR、表格解析和圖表推理等任務(wù)上展現(xiàn)了領(lǐng)先精度,尤其在結(jié)構(gòu)化數(shù)據(jù)提?。ㄈ绫砀窈玩I值對(duì))及布局相關(guān)問題解答中,表現(xiàn)尤為突出,甚至媲美更大規(guī)模的模型。
在部署方面,Llama Nemotron Nano VL同樣表現(xiàn)出色。其設(shè)計(jì)靈活,支持服務(wù)器和邊緣推理場(chǎng)景,滿足多樣化的應(yīng)用需求。英偉達(dá)還提供了4-bit量化版本(AWQ),結(jié)合TinyChat和TensorRT-LLM實(shí)現(xiàn)高效推理,兼容Jetson Orin等受限環(huán)境。該模型還支持Modular NIM(NVIDIA推理微服務(wù))、ONNX和TensorRT導(dǎo)出,為企業(yè)應(yīng)用提供了豐富的解決方案。
為了進(jìn)一步降低靜態(tài)圖像文檔處理的延遲,英偉達(dá)還引入了預(yù)計(jì)算視覺嵌入選項(xiàng)。這一創(chuàng)新使得Llama Nemotron Nano VL在處理圖像文檔時(shí)更加高效,為企業(yè)用戶帶來了實(shí)質(zhì)性的便利。