




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
王楠JinaAI聯合創始人兼CTO王楠博士,JinaAI的聯合創始人兼首席技術官,博士畢業于德國波鴻大學計算神經科學專業。之后曾在歐洲知名電商Zalando和騰訊公司擔任高級算法工程師,負責搜索和推薦業務,并在這些領域積累了豐富的模型設計、實現和部署經驗。自2020年起創立JinaAI,作為聯合創始人兼CTO,王楠博士領導團隊開發及開源了神經搜索框架jina。作為LinuxFoundationAI&Data基金的TAC成員,他推動DocArray從LinuxFoundationAI&DATA畢業。王楠博士組織開發和開源了多個文本和多模態向量模型,全球累計下載量超過1000萬。王楠博士熱衷于AI技術在搜索領域的實際應用,并且積極推動AI技術的開源發展,他在AI技術領域的杰出貢獻使他榮獲2023年中國開源先鋒33人的稱號演講主題:檢索增強生成RAG的實踐、挑戰與發展JinaAIJinaAIBeijingBerlinHQShenzhenRaisedOfficeMembersAICompany$38MBerlin/Beijing/Shenzhen30+Top-tier●基于檢索結果●●基于檢索結果●保證可解釋性和可回答可以驗證追溯●更新檢索知識庫●支持增刪改查知識可以頻繁更新●●支持本地部署●本地存儲私有數據●不需要微調模型私有數據安全●推理成本低低LLM推理成本有效降低LLM成本長文本大模型不會取代RAGjina-embeddingsjina-embeddings-v22023年10月發布,全球第一個支持8k輸入jina-embeddings-v2●避免英文語料的偏差●避免多語言模型過大的詞表●針對不同任務使用不同的損失函數jina-embeddings-v3●使用LoRA適配不同任務●使用MRL自定義向量維度通用向量模型vs垂類向量模型●微調垂類模型對于RAG整體性能提升有限●企業缺少專業人才訓練垂類向量模型●缺少微調垂類向量模型的數據●計算量介于向量模型和●捕捉query和文本間細顆粒度語義相似jina-reranker-v1●分階段訓練:逐步提升模型排序能力;●遷移學習:將Embedding模型學習到的知識遷移到Reranker模型;●訓練數據:使用和Embedding模型相同來源的訓練數據;jina-reranker-v1-turbo/tiny●使用模型蒸餾技術,平衡準確率和推理速度jina-reranker-v2●針對結構化數據和代碼數據專門優化●使用模型蒸餾和flash-attention優化推理速度重排序-RankGPTPE-Rank●使用embedding作為模型輸入●顯著提升大模型排序效率2006年冬季奧林匹克運動會.txt:焦點單板滑雪-美國選手塞思·韋斯科特(SethWescott)獲得男子技巧賽第一名,在首度成為冬季奧運競賽之一的項目上稱王。冬季兩項-法國女將弗洛倫斯·巴維雷爾-羅貝爾(Baverel-Robert)于7.5公里小項中獲得金牌。銀牌花落瑞典的安娜·卡倫·奧洛夫松(AnnaCarinOlofsson銅牌則由烏克蘭的莉莉婭·葉夫列莫娃捧走。上屆世界杯優勝者德國籍奧運衛冕冠軍凱蒂威廉表現失常,只獲得第七名。北歐兩項-在北歐兩項團體賽項目中,奧地利選手在該項目奪冠。速度滑冰-東道主意大利在男子速度滑冰比賽中戰勝加拿大選手,以2.82秒之差拿下金牌。越野滑雪-愛沙尼亞選手安德魯斯·維爾帕魯在越野滑雪女子傳統技術10公里的比賽中獲得金牌,挪威選手包攬了二到四位。中國選手王春麗獲得18名,這是中國運動員在此項目比賽上花樣滑冰-在花樣滑冰的男單的比賽中俄羅斯“冰王子”普魯申科,以90.66分的個人歷史最高分獲得冠軍。○文本塊過小,上下文背景信息丟失2024年夏季奧林匹克運動會.txt:會徽本屆奧運及帕運首次共享同個會徽,會徽由金牌、火焰與法國人民和革命象征的瑪麗安娜三元素構成。?增加向量的維度?增加向量的維度,可以有效提升向量模型性能○一個固定長度的浮點數數組Chunking)●先計算向量表示●后進行文本切分●解決背景信息丟失問題queryquery:巴黎奧運會的會徽設計有什么含義?2024年夏季奧林匹克運動會.txt:會徽2024年夏季奧林匹克運動會…一般稱為2024巴黎奧運會(英語:Paris2024…本屆奧運及帕運首次共享同個會徽,會徽由金牌、火焰與法國人民和革命象征的瑪麗安娜三元素構成。遲分(latechunking)●查詢時計算query的每個token●與每個Document中token的jina-colbert-v1●第一款支持8k長度的ColBERT模型長文本上效果優于長文本上效果優于ColBERTv2jina-colbert-v2●使用MRL支持最低64維向量GraphRAG●使用LLM構建知識圖譜,通過構建的知識圖譜增強結構化信息GraphRAG○用實體表示不同的語義顆粒度queryquery:中國在奧運會上有哪些重要歷史時刻?2006年冬季奧林匹克運動會.txt:焦點===第六天-2月16日===單板滑雪-美國選手塞思·韋斯科特(SethWescott)獲得男子技巧賽第一名,在首度成為冬季奧運競賽之一的項目上稱王。冬季兩項-法國女將弗洛倫斯·巴維雷爾-羅貝爾(Baverel-Robert)于7.5公里小項中獲得金牌。銀牌花落瑞典的安娜·卡倫·奧洛夫松(AnnaCarinOlofsson銅牌則由烏克蘭的莉莉婭·葉夫列莫娃捧走。上屆世界杯優勝者德國籍奧運衛冕冠軍凱蒂威廉表現失常,只獲得第七名。北歐兩項-在北歐兩項團體賽項目中,奧地利選手在該項目奪冠。速度滑冰-東道主意大利在男子速度滑冰比賽中戰勝加拿大選手,以2.82秒之差拿下金牌。越野滑雪-愛沙尼亞選手安德魯斯·維爾帕魯在越野滑雪女子傳統技術10公里的比賽中獲得金牌,挪威選手花樣滑冰-在花樣滑冰的男單的比賽中俄羅斯“冰王子”普魯申科,以90.66分的個人歷史最高分獲得冠軍。Q:記者有多少時間用于內部會議討論?Q:有多少用戶使用LinkedIn找工jina-CLIP-v1●使用CLIP模型對文本和圖片進行●文本和圖片在同一個向量空間ColPali?文本內容的抽取和解析jina-reader●生產環境下的必備工具○提示詞版本控制?通用文本RAG模型是目前的主流,文本塊切分是RAG的主要問題。X:/nanwang_tGitHub:/nan-wangjina-embeddingsjina-embeddings有監督學習●收集MSMarco,NaturalQuestions,NLI,fever,ESCI(EN)數據集●構造高質量正負樣本三元組共300萬條○針對檢索任務,使用Hardnegativemining○(anchor,positive,negative_1,...,negative_●盡可能增大batchsize○使用activationcheckpoint○基于DeepSpeed○使用MiniBatch○使用gradientc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 病毒肺炎疫情防控知識競賽題庫附答案
- 2025公路工程公司筑機安全生產合同
- 2025設備抵押借款合同范本參考
- 2025個體借款公司合同模板
- 2025健身房轉讓合同范文合同范本
- 2025年秦皇島運輸從業資格證考試技巧
- 蛋白的調控細胞鑒定
- 單組份導熱環氧
- 2025年蘭州貨運從業資格證繼續教育考試題
- 2025年廣州貨運從業考試試題答案大全
- “星耀燕趙”首屆電視舞蹈大賽參賽報名表
- 口服藥篇課件
- 2022年泰州興化市人民醫院醫護人員招聘考試筆試題庫及答案解析
- 復變函數與積分變換完整版課件全套ppt整本書電子講義全書電子課件最全教學教程
- 辦公室平面圖模板
- 分包商資格申請表(全套)
- 三年級數學下冊蘇教版《解決問題的策略-從問題想起》教學反思(區級公開課)
- 計量經濟學期末考試題庫(完整版)及答案
- 移動機器人機械臂的設計
- 高通量測序技術在微生物基因組學中的應用
- 復方地蒽酚軟膏(克顯龍)蒽林軟膏說明書副作用不良反應高低濃度的使用方法
評論
0/150
提交評論