來(lái)源:云云眾生s
AI如何通過(guò)智能提取簡(jiǎn)化文檔工作流程。
譯自How to Use AI for Company Documents: Summarization, Extraction, and Beyond,,作者 Tommy Thyen,。
每個(gè)組織都以某種方式處理文檔:注冊(cè)表格、發(fā)票,、博客文章和技術(shù)報(bào)告,,僅舉幾例。這些文檔對(duì)于在不同部門(mén)和客戶之間溝通信息至關(guān)重要。它們包含看似無(wú)限的樣式和數(shù)據(jù)類型的組合,以及看似無(wú)限的文件格式,。通過(guò)所有這些接收信息的方式,以一種為用戶提供上下文以吸收信息的格式準(zhǔn)確地提取信息可能很困難。
原始數(shù)據(jù)提取已經(jīng)存在多年了。然而,隨著人工智能的最新進(jìn)展,,我們現(xiàn)在可以將智能文檔處理 (IDP) 和摘要功能添加到文檔工作流程中,。從軟件開(kāi)發(fā)的角度來(lái)看,,各種文檔樣式和輸入格式需要花費(fèi)數(shù)小時(shí)的人工工作才能考慮在內(nèi)。表格是一個(gè)特別令人關(guān)注的領(lǐng)域,因?yàn)樗鼈兊慕Y(jié)構(gòu)差異很大,。有些有列標(biāo)題,有些有空單元格,,有些則作為文檔中的圖像存在,。借助 IDP,先進(jìn)的 AI 模型可以使這種類型的提取變得微不足道?,F(xiàn)在可以無(wú)論其結(jié)構(gòu)如何,,都能使用邏輯行/列格式(通常以 JSON 或 XML 格式呈現(xiàn))來(lái)使用表格。
除了結(jié)構(gòu)化上下文之外,,大型語(yǔ)言模型可以提供類似于人類對(duì)輸入文檔的摘要,。這可以將數(shù)小時(shí)的閱讀時(shí)間縮短為一段摘要,甚至可以擴(kuò)展到文檔之外,,對(duì)虛擬會(huì)議或其他長(zhǎng)篇內(nèi)容進(jìn)行總結(jié),。檢索增強(qiáng)生成 (RAG) 通過(guò)允許大型語(yǔ)言模型引用超出其原始訓(xùn)練數(shù)據(jù)的來(lái)源來(lái)增強(qiáng)此功能。這提供了一種隨著時(shí)間的推移和信息變化而保持準(zhǔn)確響應(yīng)的方法,。這種摘要加上結(jié)構(gòu)化輸出是現(xiàn)代人工智能在文檔相關(guān)工作流程方面最顯著的優(yōu)勢(shì),。
根據(jù)我的個(gè)人經(jīng)驗(yàn),,我比承認(rèn)的更頻繁地使用像微軟的 Copilot 和 OpenAI 的 ChatGPT 這樣的公共大型語(yǔ)言模型。與普遍的看法相反,,這些 AI 助手無(wú)法為您完成工作,。然而,它們確實(shí)提供了一種極好的能力,,可以將網(wǎng)絡(luò)搜索范圍縮小到僅相關(guān)的資料,,以及簡(jiǎn)化諸如編碼語(yǔ)言之間簡(jiǎn)單的語(yǔ)法差異之類的日常任務(wù)。在出現(xiàn)這種人工智能之前,,開(kāi)發(fā)人員可能會(huì)花費(fèi)數(shù)小時(shí)搜索能夠解答他們問(wèn)題的正確論壇帖子,,或者花費(fèi)數(shù)天時(shí)間解析晦澀的文檔以找到滿足他們想要實(shí)現(xiàn)的要求的特定類/方法。相反,,精心設(shè)計(jì)的提示可以在幾秒鐘內(nèi)輸出完美的答案以及相關(guān)的參考鏈接,。
這些好處伴隨著關(guān)于數(shù)據(jù)隱私和人工智能倫理問(wèn)題的相當(dāng)大的權(quán)衡。大型語(yǔ)言模型必須在使用前進(jìn)行訓(xùn)練,,這需要大量的經(jīng)過(guò)驗(yàn)證的輸入才能獲得準(zhǔn)確的結(jié)果,。這會(huì)產(chǎn)生以下問(wèn)題:這些數(shù)據(jù)來(lái)自哪里?誰(shuí)擁有它,?誰(shuí)驗(yàn)證了它,?可以通過(guò) API 訪問(wèn)的高容量模型可以通過(guò) API 訪問(wèn)可以根據(jù)用戶提示改進(jìn)其結(jié)果。這意味著像代碼片段,、圖像或文檔這樣的輸入數(shù)據(jù)會(huì)被處理,,并可能泄露個(gè)人身份信息 (PII)。開(kāi)發(fā)人員在使用這些資源時(shí)必須格外小心,,以防止意外共享機(jī)密數(shù)據(jù),。
訪問(wèn)這些在線模型從未如此容易。大多數(shù)模型都有一個(gè)免費(fèi)層,,可以使用(幾乎)無(wú)限次,。如今,您甚至可以獲取底層源代碼并創(chuàng)建自己的模型,,使用您提供的數(shù)據(jù)來(lái)訓(xùn)練它們以解決您需要解決的問(wèn)題,。這項(xiàng)技術(shù)可以嵌入到各種類型的應(yīng)用程序中,提供強(qiáng)大的功能和巨大的生產(chǎn)力提升,。然而,,原版蜘蛛俠中的本叔說(shuō)得對(duì),“能力越大,責(zé)任越大”,。數(shù)據(jù)和隱私必須得到保護(hù),。必須制定法規(guī),并遵守準(zhǔn)則,,才能合法且最佳地利用人工智能提供的能力,。 總的來(lái)說(shuō),人工智能是一種強(qiáng)大的工具,,可以提高生產(chǎn)力和效率,,從而帶來(lái)更多收益并節(jié)省更多成本。它填補(bǔ)了文檔數(shù)據(jù)提取方面巨大的空白,,提供可快速分析以制定最佳行動(dòng)計(jì)劃的上下文輸出,。其摘要功能不僅限于文檔,還擴(kuò)展到關(guān)于任何您想了解更多信息的網(wǎng)絡(luò)搜索,。如果了解這項(xiàng)技術(shù)并采取適當(dāng)?shù)念A(yù)防措施,,人工智能將成為任何組織的寶貴資產(chǎn)。
本文在云云眾生(https://yylives.cc/)首發(fā),,歡迎大家訪問(wèn),。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,,版權(quán)歸原作者所有。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1129197.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎,。本資訊不作為投資理財(cái)建議。