澳鵬一站式文檔智能識別,為大模型訓練數(shù)據(jù)準備賦能

上海2023年12月14日 /美通社/ -- 在大模型訓練過程中,許多專業(yè)領域知識是基于書籍等紙質文檔的形式記錄的,常見于教材、期刊論文、特定學科研究等。例如工業(yè)、教育等涉及到專業(yè)領域的行業(yè)應用,大量需要訓練的數(shù)據(jù)沉淀在紙質版上亟待利用。

澳鵬Appen全新推出文檔智能識別接口,可將圖片、不可編輯的PDF等文檔一鍵識別轉換成可編輯的Word或Markdown格式,方便對其中數(shù)據(jù)作進一步利用。接口支持識別文檔中不同模態(tài)的數(shù)據(jù),如文本、插圖、公式、表格等,并支持對不同版面進行識別和還原。

澳鵬全新推出一站式文檔智能識別解決方案,為大模型訓練數(shù)據(jù)準備賦能
澳鵬全新推出一站式文檔智能識別解決方案,為大模型訓練數(shù)據(jù)準備賦能

在大模型的訓練過程中,許多企業(yè)或行業(yè)數(shù)據(jù)沉淀在不可編輯的PDF、甚至是紙質文檔中。若要將這些數(shù)據(jù)利用起來,無論是用作基礎大模型的訓練數(shù)據(jù),還是用于RAG或微調,都需要先轉化成可編輯的文檔格式。

這些文檔包含的內容有文本、表格、公式、插圖等內容,現(xiàn)有的內容識別技術大多只能識別文字,而對其他形態(tài)的內容無法進行識別和轉換。若要開發(fā)一個能識別所有格式內容的算法,其研發(fā)成本往往較高,識別速度和準確率亦無法得以保證。

澳鵬一站式文檔智能識別解決方案集成了多種算法能力:首先使用版面識別算法,可識別出PDF中每一頁的內容類型,包括文本、表格、公式、插圖等;如頁面中包含多種內容,則將每個獨立的內容塊截取出來;再根據(jù)內容塊的內容類型,調用不同的識別算法,包括文本識別算法、表格識別算法、公式識別算法等。

識別完成后再將內容拼接到一個文檔中,可還原成原始版面。同時,澳鵬也提供人工復核服務,進一步提升識別準確率。

在實際應用中,澳鵬一站式文檔智能識別解決方案的優(yōu)勢主要包括:

-高效率低成本:使用澳鵬文檔智能識別處理文檔時,一個上百頁的PDF只需耗時數(shù)分鐘即可完成,遠快于人工轉寫;可批量處理大量文件,降低人力成本。

-高安全性:無需企業(yè)外部人員參與文檔內容轉寫過程,降低了敏感數(shù)據(jù)泄露的風險。

-易于集成:澳鵬文檔智能識別方案可與企業(yè)現(xiàn)有的業(yè)務流程和系統(tǒng)集成,自動輸入、輸出數(shù)據(jù)。

助力高科技企業(yè)開發(fā)行業(yè)大模型,澳鵬一站式文檔智能識別解決方案能夠對專業(yè)細分學科數(shù)據(jù)進行結構化處理,將沉淀在紙質版、PDF等形態(tài)的數(shù)據(jù)應用于大模型訓練中,幫助企業(yè)自動化地將各種類型的文檔轉化為結構化數(shù)據(jù),為高效訓練行業(yè)大模型賦能。


微信掃描分享本文到朋友圈
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料
  • 1、回復“YD5GAI”免費領取《中國移動:5G網(wǎng)絡AI應用典型場景技術解決方案白皮書
  • 2、回復“5G6G”免費領取《5G_6G毫米波測試技術白皮書-2022_03-21
  • 3、回復“YD6G”免費領取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復“LTBPS”免費領取《《中國聯(lián)通5G終端白皮書》
  • 5、回復“ZGDX”免費領取《中國電信5GNTN技術白皮書
  • 6、回復“TXSB”免費領取《通信設備安裝工程施工工藝圖解
  • 7、回復“YDSL”免費領取《中國移動算力并網(wǎng)白皮書
  • 8、回復“5GX3”免費領取《R1623501-g605G的系統(tǒng)架構1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息