大數據認知_李德毅院士_第1頁
大數據認知_李德毅院士_第2頁
大數據認知_李德毅院士_第3頁
大數據認知_李德毅院士_第4頁
大數據認知_李德毅院士_第5頁
已閱讀5頁,還剩122頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、大數據時代的認知計算大數據時代的認知計算Cognitive Computing in the Petabyte Era一、人類的認知可以一、人類的認知可以“計算計算”嗎?嗎?認知就是認識智慧依據現有知識,計算、分析、聯想、推導或歸納,產生新知。通過意象、直覺、想象、情感、頓悟等,進行直觀、綜合的思考,在創新中起著至關重要的作用。成功成功 = 40% IQ = 40% IQ & & 60% EQ 60% EQ 一元論?二元論?相互作用論? 1956 1956年達特茅斯會議正式使用年達特茅斯會議正式使用“人工智能人工智能”術語,目標是開發像人那樣思維的人工系統。術語,目標是開發像人

2、那樣思維的人工系統。半個世紀以來,人工智能成為認知計算的智力半個世紀以來,人工智能成為認知計算的智力內核,取得的重要成果已經深刻地改變了我們內核,取得的重要成果已經深刻地改變了我們的日常生活。的日常生活。認知是可以認知是可以“計算計算”的的n圖靈機是可計算的,任何形式系統可以是圖靈機是可計算的,任何形式系統可以是圖靈機準確刻畫的機械程序。圖靈機準確刻畫的機械程序。n認知計算是信息處理的過程,存在有符號認知計算是信息處理的過程,存在有符號主義、聯結主義和行為主義等范式,有著主義、聯結主義和行為主義等范式,有著強大的生命力,并走向計算主義。強大的生命力,并走向計算主義。認知是可以認知是可以“計算計

3、算”的的電腦可以具備人腦的智能嗎?電腦可以具備人腦的智能嗎?n半個世紀的人機大戰表明,在與國際象棋領半個世紀的人機大戰表明,在與國際象棋領域具有類似復雜性的問題上,電腦可具有人域具有類似復雜性的問題上,電腦可具有人腦的智能。腦的智能。n5050年人機大戰實質是年人機大戰實質是“人機人機- -機人機人”大戰,大戰,千方百計把人的認知能力放到機器里去和人千方百計把人的認知能力放到機器里去和人對抗。從這個意義上,認知是可以計算的。對抗。從這個意義上,認知是可以計算的。認知不可以認知不可以“計算計算”停機問題、程序驗證問題等都是不可計算的停機問題、程序驗證問題等都是不可計算的數學自身是機器程序不可窮盡

4、的數學自身是機器程序不可窮盡的人腦是否能被物化為電腦的首要問題在于人腦人腦是否能被物化為電腦的首要問題在于人腦能不能夠被形式化能不能夠被形式化可計算性是不依賴于形式系統的選擇的可計算性是不依賴于形式系統的選擇的認知科學的困境用什么方法研究思維和意識用什么方法研究思維和意識人的意識和精神活動是由大腦不同區域共同作用人的意識和精神活動是由大腦不同區域共同作用產生的嗎產生的嗎是由物理和化學規律支配的嗎是由物理和化學規律支配的嗎是由神經元細胞的行為和構成方式、以及影響它是由神經元細胞的行為和構成方式、以及影響它們的原子、離子和分子性質所決定的嗎們的原子、離子和分子性質所決定的嗎?有人甚至認為,人是不可

5、能自己把自己搞清楚的! Nature專刊(2008年9月3日)大數據來源:大數據來源:PB時代對科學的挑戰也是對認知科學的挑戰 !l 自然大數據自然大數據l 生命大數據生命大數據l 社交大數據社交大數據11看病那些事兒看病那些事兒診查就是治療!診查就是治療!DNA測序測序核磁核磁CTX光光心電圖心電圖化驗化驗B超超內鏡內鏡醫學必須越跑越快才能跟上技術發展的步伐!醫學必須越跑越快才能跟上技術發展的步伐!知道知道“是什么是什么”,就知道,就知道“怎么做怎么做”!醫學諾貝爾獎給了誰?醫學諾貝爾獎給了誰?心電圖的發明人心電圖的發明人 :威廉威廉. . 埃因托芬埃因托芬X X射線輻射治療發明人射線輻射治

6、療發明人 :赫爾曼赫爾曼. . 約瑟夫約瑟夫. . 馬勒馬勒核磁共振成像發明人核磁共振成像發明人 :保羅保羅. . 勞特布爾勞特布爾更多的獎給了器械發明人,以及能夠從醫療數據發現價值的人!更多的獎給了器械發明人,以及能夠從醫療數據發現價值的人!因果關聯先導?是什么?是什么?大數據大數據為什么?為什么?怎么做?怎么做?研究對象研究對象科學科學技術技術形而上形而上?形而下形而下大數據大數據 大數據時代認知計算的實大數據時代認知計算的實踐,正在踐,正在倒逼倒逼認知科學前認知科學前行!行!對人類認知而言,歐盟的對人類認知而言,歐盟的“腦科學十年腦科學十年”和和“人類大腦計劃人類大腦計劃”,以及奧巴馬的

7、,以及奧巴馬的“腦腦計劃計劃”可能可能錯錯在哪里?在哪里?大腦細胞類型及統計大腦結構圖大規模神經網絡技術操作神經回路的工具神經細胞與個體行為關系大腦成像技術神經模型和統計的整合人腦數據搜集知識傳播與培訓認知科學難道就是研究生物腦的自然屬性嗎?認知科學難道就是研究生物腦的自然屬性嗎?要研究人類認知的特殊性!要研究人類認知的特殊性! 文字、文明和傳承文字、文明和傳承 人類認知的社會屬性人類認知的社會屬性倒逼什么?倒逼什么?把這兩點作為人類認知科學的切入點!把這兩點作為人類認知科學的切入點! 要研究腦認知的后天屬性。認知還是后天學習和積累的結果,是與社會環境、社會實踐、群體交互等密切相關的,要建立人

8、類認知的成長機制。倒逼什么?倒逼什么?二、大數據時代的自然語言處理 技術正在改變我們的生活 語言是思想的直接現實,是人類思維的載體,是認知科學和認知計算要應對的首要問題。語言和文字在人類走向文明的四個重大里程碑中,語在人類走向文明的四個重大里程碑中,語言和文字占了兩個位置言和文字占了兩個位置語言是外部對象的語言是外部對象的“聲音符號聲音符號”,傳達的,傳達的是是信息信息文字是信息的文字是信息的編碼編碼,有文字才有傳承,有文字才有傳承人類運用自然語言進行交流獲得的效果中:l 講話內容 7%l 強度和語調 38%l 面部表情和肢體動作 55%認知心理學告訴我們認知心理學告訴我們在半個世紀的自然語言

9、理解的研究中,我們對在半個世紀的自然語言理解的研究中,我們對此關注了多少?此關注了多少?自然語言在人類思維中具有不可替代性人們在表達、思考和解決任何問題時,人們在表達、思考和解決任何問題時,通常是定性的,對量的規定性往往是非通常是定性的,對量的規定性往往是非數值的數值的科學研究中,即使人們用對象語言(如:科學研究中,即使人們用對象語言(如:物理、數學、物理、數學、C C語言等)來表述一個特定語言等)來表述一個特定的精確學科,解釋對象語言的的精確學科,解釋對象語言的元語言元語言仍仍然是自然語言然是自然語言自然語言是不可以計算的!自然語言可以計算嗎?自然語言可以計算嗎?在特定語境和語用場合,自然語

10、言理解是可以被形式化表達并進行計算的!腦科學認為:腦科學認為:計算語言學認為:計算語言學認為:如果一個問題不能夠全部形式化,那么,其中的局部問題可不可以形式化?如何讓這個局部問題盡可能地普遍一些?自然語言可以在什么程度上被形式化,取決于能否把不確定性形式化。緊緊抓住自然語言中的概念,研究不確定性。25清華大學 電子工程系 ,吳及9:52:15v以中國移動一個中等規模省級客服中心客服坐席500個平均日通話30萬平均通話時間100秒平均坐席日通話時間16.7小時日通話累計時長約為8333小時月客服數據總量:25萬小時年客服數據總量:300萬小時4kbps壓縮存儲:5.4TB一個人不停說話說上1年如

11、采用人工測聽需1000人引自科大迅飛公司數據引自科大迅飛公司數據是雇用500位客服人員,還是啟用一臺話音機器人?人類如何理解自然語音的? 您好親情話務員,很高興為您服務。我問一下我那個包月的上網套餐現在還能恢復嗎?先生您好您這個套餐是您目前使用的就是一個神州行。免費的,那是贈送流量嗎?免費贈送您三十兆流量的,怎么了您說。我不是把那個GPRS關了嘛。您是說您的功能關閉了是嗎?嗯,開通還要不要扣費啊。需要扣費,有密碼嗎?有密碼,我能開通那個GPRS嗎?是的,您稍后聽到語音提示后輸入一下您的密碼請稍等。噢行。先生您好您的密碼。在半個世紀的自然語言理解的研究中,我們對在半個世紀的自然語言理解的研究中,

12、我們對此關注了多少?此關注了多少?人類如何理解自然語言的? 研表究明,漢字的序順并不定一能影響閱讀,比如當你看完這句話后,才發這現里的字全是都亂的!再回頭仔看細看,真這是樣的。在半個世紀的自然語言理解的研究中,我們對在半個世紀的自然語言理解的研究中,我們對此關注了多少?此關注了多少?區分計算機和人的全自動公共圖靈測試(CAPTCHA)還能維持多久?在半個世紀的語言文本理解的研究中,我們對在半個世紀的語言文本理解的研究中,我們對此關注了多少?此關注了多少?全自動區分計算機和人類的圖靈測試Completely Automated Public Turing test to tell Compute

13、rs and Humans Apart (CAPTCHA)reCAPTCHA,利用大眾對驗證碼的識別,完成掃描儀、OCR軟件,甚至古籍整理者都難以辨識的古老文獻中的字符,精度可以超過99%!群體智能:社會計算的精髓!群體智能:社會計算的精髓!網絡應用網絡應用通訊平臺通訊平臺數字媒體數字媒體機器人能聽會說正在改變我們的生活!在線服務機器人 智能耳機?在線翻譯:文字在線翻譯:文字 文字文字語音合成:文字語音合成:文字 語音語音話者識別:話者識別:語音語音 說話人說話人語音識別:語音語音識別:語音 文字文字不知天高地厚的豪言壯語?“先干掉短信,下一個目標是語音通話!先干掉短信,下一個目標是語音通話!

14、”高級認知活動:創作對聯l唐詩宋詞三百首唐詩宋詞三百首41850首,8萬句,近35萬字l微軟對聯微軟對聯微軟亞洲研究院自然語言計算組研發的計算機自動對聯系統。利用從唐詩宋詞大數據中學習到的概率利用從唐詩宋詞大數據中學習到的概率模型模型,當用戶給定上聯,能自動提供若干下聯; 當用戶確定一副對聯,能生成若干四字橫批。http:/ 李白一生寫詩1010首,把他所有詩句進行“機械切割”,在“悲情”意境下,分別按照平仄規律 仄仄 仄平平仄平平 平平平平 仄仄平平 平平 平仄仄平仄仄 仄仄 仄平平仄平平 把這些切割后的字串構成數據集,并要求仄平平 、仄平 、仄平平 這3類串的韻相同 。表表1 1:(仄起)

15、五絕(首韻):(仄起)五絕(首韻)第一句第一句第二句第二句第三句第三句第四句第四句X1X1X2X2X3X3X4X4X5X5X6X6X7X7X8X81羞玉 2流淚 3窈窕 4雪滿 5月色 6愁空 7浮云 8傷別 9哀苦 0回首1未曾看2斬樓蘭3寄燕然4水生煙5鳳樓酣6暗無邊7繞林間8竟不還9貴鄉還0淚遙傳1燕然2芙蓉3鴛鴦4梅花5江南6春風7佳人8斜陽9西湖0微霜1水月牽2尋岳仙3哀苦寒4覺夜寒5嬉笑牽6獨去閑7上酒船8流淚泉9不可攀0走百川1鳳樓2故情3染香4霧花5水晶6雪恨7落花8卷珠9相思0當年1人不見 2留不住 3追往事 4空悵望 5誰念我 6腸斷處 7多少恨 8空相憶 9凝望久 0都莫

16、問1白玉2夜郎3多苦4一笑5憔悴6無限7寂寞8惟有9疑是0遠憶1晚妝殘 2莫留連 3憩言歡 4望長安 5老紅顏 6醉不眠 7見蒼山 8蔽青天 9涕衣沾 0齒開難仄仄平平平平仄平平平仄仄(非韻)仄仄平平第一句第二句第三句第四句X1X2X3X4X5X6X7X81羞玉 2流淚 3窈窕 4雪滿 5月色 6愁空 7浮云 8傷別 9哀苦 0回首1未曾看2斬樓蘭3寄燕然4水生煙5鳳樓酣6暗無邊7繞林間8竟不還9貴鄉還0淚遙傳1燕然2芙蓉3鴛鴦4梅花5江南6春風7佳人8斜陽9西湖0微霜1水月牽2尋岳仙3哀苦寒4覺夜寒5嬉笑牽6獨去閑7上酒船8流淚泉9不可攀0走百川1鳳樓2故情3染香4霧花5水晶6雪恨7落花8卷

17、珠9相思0當年1人不見 2留不住 3追往事 4空悵望 5誰念我 6腸斷處 7多少恨 8空相憶 9凝望久 0都莫問1白玉2夜郎3多苦4一笑5憔悴6無限7寂寞8惟有9疑是0遠憶1晚妝殘 2莫留連 3憩言歡 4望長安 5老紅顏 6醉不眠 7見蒼山 8蔽青天 9涕衣沾 0齒開難仄仄平平平平仄平平平仄仄(非韻)仄仄平平第一句第一句X1X21 1羞玉羞玉 2流淚 3窈窕 4雪滿 5月色 6愁空 7浮云 8傷別 9哀苦 0回首1未曾看2斬樓蘭3寄燕然4水生煙5鳳樓酣6暗無邊7繞林間8 8竟不還竟不還9貴鄉還0淚遙傳仄仄平平第二句第二句X3X41燕然2芙蓉3鴛鴦4梅花5江南6春風7佳人8斜陽9 9西湖西湖0微

18、霜1水月牽2尋岳仙3 3哀苦寒哀苦寒4覺夜寒5嬉笑牽6獨去閑7上酒船8流淚泉9不可攀0走百川平平仄平第三句第三句X5X61 1鳳樓鳳樓2故情3染香4霧花5水晶6雪恨7落花8卷珠9相思0當年1人不見 2 2留不住留不住 3追往事 4空悵望 5誰念我 6腸斷處 7多少恨 8空相憶 9凝望久 0都莫問平平仄仄(非韻)第四句第四句X7X81白玉2 2夜郎夜郎3多苦4一笑5憔悴6無限7寂寞8惟有9疑是0遠憶1晚妝殘 2莫留連 3憩言歡 4望長安 5老紅顏 6 6醉不醉不眠眠 7見蒼山 8蔽青天 9涕衣沾 0齒開難仄仄平平秀玉竟不還,秀玉竟不還, 西湖哀苦寒。西湖哀苦寒。鳳樓留不住,鳳樓留不住,夜郎醉不眠

19、。夜郎醉不眠。 如,毛澤東的生日18931226 所作的詩是:自然語言理解50年變遷從五筆字型輸入到搜狗拼音輸入從五筆字型輸入到搜狗拼音輸入從千人一面的搜索引擎到個性化搜索從千人一面的搜索引擎到個性化搜索從規則學習到統計學習從規則學習到統計學習從智能計算到情感計算從智能計算到情感計算從形式語言學到野蠻翻譯從形式語言學到野蠻翻譯從確定性認知到不確定性認知從確定性認知到不確定性認知自然語言理解:期待中的舞臺機器人文本、歌曲劇本等 以大數據形態反映的語言、交互和理解,是帶毛的、鮮活的、有情感的原生態數據,體現了認知過程中在語境、語構、語用和語義方面的不確定性,這正是大數據的魅力所在。三、視聽覺認知中

20、的大數據:智能駕駛初步實踐 智能駕駛為什么會火起來? 云計算、移動互聯網、物聯網、大數據和智慧城市建設背景下,人們迫切需要提高移動生活的品質。智能車成為眾目睽睽下的交集!視聽覺認知計算視聽覺認知計算國家自然科學基金委員會十一五重大研究計劃國家自然科學基金委員會十一五重大研究計劃視聽覺認知計算視聽覺認知計算的科學任務的科學任務 在正常的環境下,標準的城市和城際公路上,從北京到天津/深圳,智能車混跡在正常交通流中,表現出駕駛員的駕駛智能駕駛員的視聽覺認知計算能力。國家自然科學基金委員會十一五重大研究計劃國家自然科學基金委員會十一五重大研究計劃視聽覺認知計算視聽覺認知計算(2008 20152008

21、 2015) 耗資1.9億元,歷時8年,資助近百個培育項目、重點項目、集成項目,在原始創新和任務載體(輪式機器人)上取得重大成果。國家自然科學基金委員會十一五重大研究計劃國家自然科學基金委員會十一五重大研究計劃人類的視聽覺人類的視聽覺認知是不可以認知是不可以計算的!計算的!人類的視聽覺認知可以計算嗎?人類的視聽覺認知可以計算嗎?特定情境下,人類的視聽覺認知導致特定的行為,是可以被形式化表達并進行計算的!腦科學認為:機器人學認為:智能駕駛試驗三步走策略智能駕駛試驗三步走策略第一步:第一步:城際道路低智商試驗(城際道路低智商試驗( 2015年)年)第二步:第二步:市區道路中智商試驗(市區道路中智商

22、試驗( 2020年)年)第三步:第三步:特殊道路高智商試驗(特殊道路高智商試驗( 2030年)年)自主駕駛!自主駕駛!360o旋轉的傳旋轉的傳感器掃描百米感器掃描百米范圍高精度立范圍高精度立體景象體景象左后輪上方左后輪上方的傳感器檢的傳感器檢測小位移測小位移安裝在后視鏡部位的攝像頭檢測交通燈,幫安裝在后視鏡部位的攝像頭檢測交通燈,幫助機載計算機識別自行車和行人助機載計算機識別自行車和行人4個測距雷達,個測距雷達,3個在前,一個在后,個在前,一個在后,確定障礙物的位置與距離確定障礙物的位置與距離輪式機器人傳感器大數據輪式機器人傳感器大數據l車載陀螺:車載陀螺:感知車輛自身姿態和位置感知車輛自身姿

23、態和位置l雷達(激光雷達、毫米波雷達、超聲雷達(激光雷達、毫米波雷達、超聲雷達、紅外雷達等)和攝像頭雷達、紅外雷達等)和攝像頭:感知:感知周邊環境周邊環境l傳感器數據常常是海量流數據傳感器數據常常是海量流數據工作工作1小時,一部小時,一部64線激光雷達可產生線激光雷達可產生137GB數據量,數據量,一個高清攝像頭可產生一個高清攝像頭可產生50GB數據量。數據量。駕駛環境地理信息大數據駕駛環境地理信息大數據l數字地圖數據數字地圖數據l定位和導航數據定位和導航數據l云計算:基于位置的服務云計算:基于位置的服務l圍繞位置服務的大量衍生信息圍繞位置服務的大量衍生信息駕駛人行為大數據駕駛人行為大數據l飆

24、車手飆車手l菜鳥菜鳥l正常駕駛員正常駕駛員l駕駛行為人人都不同駕駛行為人人都不同 需不需要研制人造的生需不需要研制人造的生物眼(仿生眼)?物眼(仿生眼)? 重要抉擇:重要抉擇: 需不需要在車上安裝三需不需要在車上安裝三維高精度激光成像雷達維高精度激光成像雷達再現周邊立體場景?再現周邊立體場景? 重要抉擇:重要抉擇:路邊的美女看不看?路邊的美女看不看? 智能駕駛難點:智能駕駛難點: 當汽車在高速行駛時當汽車在高速行駛時需不需要理解所有周邊需不需要理解所有周邊的地理位置信息和交通的地理位置信息和交通指示牌信息?指示牌信息? 智能駕駛難點:智能駕駛難點: 輪式機器人能不能模擬車主輪式機器人能不能模擬

25、車主的駕駛行為,具有個性,具有自的駕駛行為,具有個性,具有自學習功能?學習功能? 智能駕駛難點:智能駕駛難點:l 駕駛員必須在車輛導航、危險檢測、速度駕駛員必須在車輛導航、危險檢測、速度 控制和車道保持之間分配注意力控制和車道保持之間分配注意力l 當駕駛員沒有將注意力在正確的時間分配當駕駛員沒有將注意力在正確的時間分配給正確的對象時,安全受到影響。統計表明,給正確的對象時,安全受到影響。統計表明,注意力疲勞、分散和粗心導致撞車事故注意力疲勞、分散和粗心導致撞車事故l 移動互聯網將使駕駛員的移動生活更豐富移動互聯網將使駕駛員的移動生活更豐富多彩,也更可能分散注意力多彩,也更可能分散注意力 選擇性

26、注意和注意分配選擇性注意和注意分配認知計算中的基礎科學問題:認知計算中的基礎科學問題:遺忘:選擇性記憶遺忘:選擇性記憶l選擇性注意的后續認知是殘留,即記憶。選擇性注意的后續認知是殘留,即記憶。l沒有遺忘,就沒有選擇性記憶。沒有遺忘,就沒有選擇性記憶。l在駕駛員的認知過程中,對已經成為過去的在駕駛員的認知過程中,對已經成為過去的駕駛活動,時間越長,遺忘越快;對刻骨銘駕駛活動,時間越長,遺忘越快;對刻骨銘心的瞬間,長期積累為先驗知識。心的瞬間,長期積累為先驗知識。l對剛剛過去的周邊態勢的記憶,如何表現?對剛剛過去的周邊態勢的記憶,如何表現?認知計算中的基礎科學問題認知計算中的基礎科學問題注意的調節

27、注意的調節認知計算中的基礎科學問題認知計算中的基礎科學問題l 先驗知識優先先驗知識優先l 動目標優先動目標優先l 全局(大尺度)優先全局(大尺度)優先l 差異優先差異優先l 前景優先前景優先l 注意跟蹤和聚焦注意跟蹤和聚焦京津高速公路試驗輪式機器人:雙工雙控智能車 駕駛是快樂的享受,只要車內有人,就不存在絕對的無人駕駛。自動駕駛和人工駕駛可以商量,相互學習,自然轉換,長期并存。 車內乘員和輪式機器人之間的視覺、語音、觸摸、踩踏等多種自然交互形態、以及交互界面的設計,甚至是智能車成功與否的關鍵!自動駕駛和人工駕駛不是簡單的非此即彼!要考慮自自動駕駛和人工駕駛不是簡單的非此即彼!要考慮自動駕駛過程

28、中人工如何自然干預?人工駕駛過程中自動駕駛過程中人工如何自然干預?人工駕駛過程中自動監視如何悄悄地工作?動監視如何悄悄地工作? 人人 工工 駕駕 駛駛 自自 動動 駕駕 駛駛 如何切換?雙如何切換?雙控?控?雙工:人工駕駛和自動駕駛兩種工作方式長期并存雙工:人工駕駛和自動駕駛兩種工作方式長期并存2022-7-671人和輪式機器人雙工:雙工:互為熱備份,不是冷切換雙控:雙控:時刻準備著,實時彌補對方認知中的不智 如果有一天,北京城區出現了如果有一天,北京城區出現了飆車機器人,那靈動的身影、敏捷飆車機器人,那靈動的身影、敏捷的姿態、盡興的奔跑,跑出了自己的姿態、盡興的奔跑,跑出了自己的風格和智能,

29、你還要問:認知可的風格和智能,你還要問:認知可以計算嗎?以計算嗎?四、不確定性認知的物理學方法: 云模型和數據場云 模 型人類思維的載體是自然語言,認知計算人類思維的載體是自然語言,認知計算最基本的任務是自然語言的形式化最基本的任務是自然語言的形式化自然語言的形式化首先是概念的形式化自然語言的形式化首先是概念的形式化概念的形式化要解決不確定性:軟計算概念的形式化要解決不確定性:軟計算和詞計算和詞計算認知計算要解決概念的形式化概念處理單元2011年度圖靈獎得主Judea Pearl教授 加州大學洛杉磯分校的計算機加州大學洛杉磯分校的計算機科學家,將科學家,將貝葉斯網絡和概率方法貝葉斯網絡和概率方

30、法引入人工智能,引入人工智能,為為 iPhone 的的Siri 語音識別和語音識別和 Google無人駕駛汽車無人駕駛汽車奠定了基礎。奠定了基礎。 著作著作 Causality: Models, Reasoning,and Inference創立了因果推理演算法,奠定了處理不確定性信息的計算基創立了因果推理演算法,奠定了處理不確定性信息的計算基礎。礎。Judea Pearl (1936 )美國工程院院士美國工程院院士Lotfi Zadeh1921.2 波蘭科學院院士波蘭科學院院士Zdzislaw Pawlak1926.11.10 2006.4.7模糊集合模糊集合粗糙集合粗糙集合二型模糊集合二型

31、模糊集合美國南加州大學教授美國南加州大學教授Jerry M. Mendel1938.5 l模糊集合模糊集合l模糊邏輯模糊邏輯l模糊規則模糊規則l模糊推理模糊推理l模糊控制模糊控制l模糊信息處理模糊信息處理l模糊問題求解模糊問題求解經典論文:經典論文:Zadeh L A. Fuzzy sets J. Information and Control, 1965,(8):338-353粒化和粒度粒空間粒邏輯粒推理粒分析粒處理粒問題求解概率圖模型(PGM)以圖的方式表達變量間不確定因果關系的模型,從動態、復雜、不確定的信息中提取結構化知識,并進行推理計算。常見的概率圖模型包括:貝葉斯網絡、馬爾科夫隨機

32、場、高斯圖模型、動態不確定因果圖、隱樹模型等。“年輕人年輕人”隸屬區間函數隸屬區間函數“年輕人年輕人”的云模型的云模型一型模糊集合一型模糊集合用用一個精確的一個精確的隸屬函數隸屬函數表達表達變量與定性概變量與定性概念之間的隸屬念之間的隸屬關系的模糊性關系的模糊性“年輕人年輕人”的隸屬函數的隸屬函數二型模糊集合二型模糊集合利用利用上、下隸上、下隸屬函數曲線屬函數曲線限限定模糊范圍,定模糊范圍,表示隸屬度的表示隸屬度的不確定性不確定性云模型云模型利用利用正正向云發生器算向云發生器算法,基于概率法,基于概率測度空間自動測度空間自動生成隸屬度生成隸屬度 22)(2)(EnExxeyFCG(Ex, En

33、, He, n)FCGFCG(20; 3; 0.1; 1,000)在論域U上定義均值為En、標準差為He的高斯隨機變量 , 即的概率密度函數為l在在= 的條件下,定義在論域的條件下,定義在論域U上的隨機變上的隨機變量量X的條件概率密度函數為:的條件概率密度函數為: 隨機變量X的概率密度為稱稱X的概率分布為高斯云分布的概率分布為高斯云分布 。期望l方差(二階中心距)方差(二階中心距)三階中心距l四階中心距四階中心距四階中心矩具有峰度(kurtosis)的含義,峰度是統計中描述分布狀態的一個重要特征值,用以判斷分布曲線相比于正態分布的尖平程度。如果將正態分布視為常峰態,分布曲線的形狀比正態分布更高

34、更瘦的稱為高峰態,否則稱為低峰態。 定義: 隨機變量X稱為是重尾的,如果 ,其中,分別為X的期望和標準差。正態分布的峰度為3,因此該性質被稱為超過或大于峰度。 高斯云是重尾分布,冪律分布也是重尾分布。 高斯云隨著熵的增大,或者階數的增加,云滴的分布更加趨向重尾分布。高階云模型可以在高斯分布和冪律分布之間游走。云模型的數學基礎是概率理論,刻畫的問題是人類認知中概念與數據之間的雙向轉換,實現的手段是計算機算法。云模型給出了定性概念的量的數學表述及其數學性質,用概率和統計的方法解釋了曾經用隸屬度表示的種種模糊概念和模糊理論,但不要求主觀不要求主觀給定確定的隸屬度值,并指出語義不同的概念的確定給定確定

35、的隸屬度值,并指出語義不同的概念的確定度分布,依然具有輪廓的一致性。度分布,依然具有輪廓的一致性。 l 傅里葉變換傅里葉變換l 高斯變換高斯變換l 高斯云變換高斯云變換:依據數據樣本的統計特性,通過高斯變換形成多個概念的期望,通過減少概念含混度確定各個概念的熵和超熵,形成多個不同粒度的概念。l 稀疏高斯云變換稀疏高斯云變換高斯云變換40506070809010000.010.020.030.040.050.060.07年 齡人數分布776名中國工程院院士年齡分布名中國工程院院士年齡分布(2012.4) 40506070809010000.010.020.030.040.050.060.07ag

36、efrequence分成分成5個概念?個概念?40506070809010000.010.020.030.040.050.060.07agefrequence分成分成3個概念?個概念? 根據根據“類內關系強、類間關系弱類內關系強、類間關系弱”的聚的聚類原則,用高斯云變換實現聚類,可減少概類原則,用高斯云變換實現聚類,可減少概念之間的含混度,并念之間的含混度,并體現人類認知中概念的層次和粒度的不確定性。 天空中大量云滴構成的云,遠觀天空中大量云滴構成的云,遠觀有形,近觀無邊,千姿百態,飄逸不有形,近觀無邊,千姿百態,飄逸不定,有時如朵朵棉花,有時一瀉千里,定,有時如朵朵棉花,有時一瀉千里,或淡或

37、濃,或卷或舒,自在灑脫,在或淡或濃,或卷或舒,自在灑脫,在長空中漂浮著,聚散著,變幻著,引長空中漂浮著,聚散著,變幻著,引發人類諸多遐想,造就多少不朽詩句。發人類諸多遐想,造就多少不朽詩句。數 據 場物理場和數據場數據場中的勢 nixxiniiDiemxxx121)()( 空間空間 中的數據對象集中的數據對象集 及其產生的數據場,任一場點及其產生的數據場,任一場點x 處的勢值處的勢值可計算為:可計算為: 為影響因子。為影響因子。12,.,PniDxxxxR 人臉圖像數據場 minjxxijijex112)(人臉圖像數據場 下圖為表情數據庫的一幅標準化人臉圖像及其產生的數據勢場分布(=0.05),可以發現,人臉圖像數據場的高勢區位于臉頰、額頭和鼻梁等灰度值較大的面部區域。 a) 128 128像素像素人臉圖像人臉圖像 b) 數據場等勢線分布數據場等勢線分布 c) 勢場分布的勢場分布的三維視圖三維視圖 場的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論