端側高效設計,性能大幅領先
Megrez-3B-Omni采用了30億參數的黃金規模,適配手機、平板等端側設備。其推理速度在同等精度模型中實現300%的提升,具備同時處理圖片、音頻和文本數據的能力。在多模態性能評測中,該模型取得了領先的綜合表現。
圖像理解:媲美大規模模型
在圖像理解領域,Megrez-3B-Omni盡管模型規模僅為3B,但其綜合性能超越了34B規模的LLaVA-NeXT-Yi-34B,成為OpenCompass、MME、MMMU、OCRBench等主流測試集上的頂尖圖像理解模型。
語音理解:支持多輪對話與模態切換
Megrez-3B-Omni支持中英文語音輸入及復雜的多輪對話場景,具備跨模態處理能力。例如,可對圖片或文字輸入進行語音提問,實現模態之間的靈活切換。
文本理解:顯著降低計算成本
在文本處理方面,Megrez-3B-Omni在壓縮至3B規模的同時,保留了上一代14B大模型的能力,計算成本大幅降低。在C-EVAL、MMLU、AlignBench等多個權威測試集上,該模型成為端側領域的精度標桿。
未來展望
目前,Megrez-3B-Omni處于能力預覽階段,無問芯穹計劃持續優化Megrez系列,以提升自動化水平,使用戶通過簡單語音指令即可完成端側設備的設置與操作。