挖掘技術textmining以提供文獻內容梗概為目的不加評論和補充_第1頁
挖掘技術textmining以提供文獻內容梗概為目的不加評論和補充_第2頁
挖掘技術textmining以提供文獻內容梗概為目的不加評論和補充_第3頁
挖掘技術textmining以提供文獻內容梗概為目的不加評論和補充_第4頁
挖掘技術textmining以提供文獻內容梗概為目的不加評論和補充_第5頁
已閱讀5頁,還剩53頁未讀 繼續免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1 Anexpressofacertain withoutanyexnationsandcomment.It'sunnecessarytoknowwhowritesthesummary.(ANSI)Aconciseandaccurateexpressofthewithoutanyex nationandcomment.Asummaryisindependentontheauthorofthesummary.(ISO214-1976(E))2 性/指示性 以性的形式表述文獻中信息價值較高的部分,而以指示性的形式表述其余部分的。 3SummaryClassifiedbyuser'sGenericSummarizationUser-querySummarizationClassifiedbytext ClassifiedbySummarizationBasedonExtractionSummarizationBasedonUnderstandingClassifiedbyneedSupervisedSummarizationUnsupervisedSummarization4 5ABriefHistoryofDUC,holdbyNIST,fromByMarkT.MayburyandInderjeetMani6 Vivisimo公司 78內部評價方法(IntrinsicMethods):在提供參考的前提下,以參考為基準評價系統的質量。通常情況下,系統摘要與參考越吻合,其質量越高。外部評價方法(ExtrinsicMethods):不需要提供參考,利用文檔代替原文檔夠提高應用性能的被認為是質量好的摘9Evaluation-- 得與目標 (coselectionrate)。 Evaluation-- “。”“:”“;”“!”“?”;為使專家與機械具有可比性,只專家和機械的句子都按照在原文 n

RecallNhm/ PrecisionNhm ? UnderstandingConference(DUC)isaseriesofsummarizationevaluationsthathavebeenconductedbytheNationalInstituteofStandardsandTechnology(NIST)since2001.Itsgoalistofurtherprogressinautomatictextsummarizationandenableresearcherstoparticipateinlarge-scaleexperimentsinboththedevelopmentandevaluationofsummarizationSince2008, DUChasmovedtotheTextysisConference(TAC)QuestionAnswering;RecognizingSummarizationKeyword ymostEasytoHardtoread,poorrepresentationofSentenceExtractkeySummariesoftendon’treadNaturallanguageunderstanding/HardtodoSomethingbetweenthelasttwo SummarizationWebThisis

inText

Content:weight=Sumoftopicterms’weights;Length:weight/=Position:weight*=positionConten;Stigmawords;Stigma:Conten;Stigmawords;Redundancy:weight*=&Repair e.g:Edmundson的 詞(Bonus [Luhn,1958]:能夠指示文章 實詞的個數來計算句子的權值。[V.A.Oswald]主張句子的權值應按其所含 ANES(AutormaticNewsExtractionSystem)作所謂的目次性,這也很受歡統計表明:大部分科技文獻的標題都能基本反映葉句,刪句留主干句的方 (如氣象預報等)。 基于理解的自動常包含語法分析、語義分析、信息提取和生成,作者應屬于此。分層的,理解比低層理解更為手工人員在編制時并不一定通結束語及其論題句,以發現其,再挑選句子并修飾稍加組織生成。文獻,不同用戶點和觀察角度可能不同,的結果應當不同。SentenceSentenceRepresenteachsentenceasafeatureComputescorebasedonPresentinorderinwhichtheyoccurinPostprocessingtomakesummarymoreEliminateredundantDeletesubordinateclauses,SentenceImportance-- [G. Sentence 冗余性消除 ? ? A Sigir95paperonsummarization A TrainablesentenceProposedalgorithmisappliedtoitsowndescription(thepaper)FeatureFixed-phraseCertainphrasesindicatesummary,e.g.“inParagraphParagraphinitial/finalmorelikelytobeThematicwordRepetitionisanindicatorofUppercasewordUppercaseoftenindicatesnamedentities.Sentencelengthcut-Summarysentenceshouldbe>5Hand-labelsentencesintrainingset(good/badsummarysentences)Trainclassifiertodistinguishgood/badsummarysentencesModelused:Na?veCanranksentencesaccordingtoscoreandshowtopntouser. EvaluationofBaseline(choosefirstnsentences):Overallperformance(42-44%)notveryHowever,thereismorethanoneClusteringbasedClustering Sentences 及MMRQuery-SpecificAgenericsummarymakesnoassumptionaboutthereader’sinterests.Query-specificsummariesarespecializedforasingleinformationneed,thequery.Summarizationismucheasierifwehaveadescriptionofwhattheuserwants.Recallfromlast -typeexcerpts–simplyshowincontextMMR le ????? -??1- i 術和IGR(InformationGainRatio)技術結合起來,稱為MMI-MS MMRArgmax[Sim1(Di,Q)-(1-)maxSim2(Di,DjDiR\ DMMI-MSArgmax[Imp(Si)-(1-)maxSimj(Si,SjSiSS\ IGR_sum(w,D) CCset(D

gain_r(w,C(alMarginalRelevance 關方法:MMR-SS(SemanticSimilaritybased alMarginal time-sequence(D

mintime p x2D

*[Pjw

Q(A,B)

i 2x2y2 i

;TypesofMDSingle trackedoveralongtimeElizabethTaylor’sboutwith GiveextraweighttoMayneedto eMultipleeventsofasimilarMarathonrunnersandMorebroadbrush,ignoreAnissuewithrelatedGunIdentifykeyconceptsandselects

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論