翻譯社

第三,淺層措置與深層措置並重,統計與軌則方式並重,構成同化式的系統。

這使得研究員們對此系統相當樂觀,然則,當把這個系統拓展到佈滿了現實世界的含糊與不願定性的環境中時,他們很快損失了信心翻譯

[1] 第一,傳統的基於句法-語義法則的理性主義方法遭到質疑,隨著語料庫扶植和語料庫措辭學的突起,大範圍真實文本的處置成為自然措辭處置的重要計謀目的。

統計自然措辭處置懲罰[

理論上,NLP是一種很吸惹人的人機交互體例。

自然措辭生成系統把較勁爭論機數據轉化為自然說話翻譯自然措辭理解系統把自然說話轉化為較勁爭論機法度更容易於處理的形式。

翻譯社

實際問題[


句法的恍惚性[

天然措辭的文法往往是模稜兩可的,針對一個句子平日可能會理睬(Parse)出多棵剖析樹(Parse Tree),而我們必需要仰賴語意及前後文的資訊才能在此中選擇一棵最為適合的分解樹翻譯

有瑕疵的或不規範的輸入[

例如語音措置時碰著外國口音或地方口音,或在文本的措置中處置懲罰拼寫,語法或光學字元識別(OCR)的弊端翻譯在書寫上,

說話行為與規劃[

句子常常其實不只是字面上的意思;例如,「翻譯公司能把鹽遞過來嗎」,一個好的回答應當是著手把鹽遞曩昔;在大大都上下文情形中,「能」將是糟糕的答複,固然說回覆「不」或者「太遠了天成翻譯社拿不到」也是可以接收的。
  • 句子「天成翻譯社們把香蕉給山公,因為(牠們)餓了」和「我們把香蕉給猴子,因為(它們)熟透了」有一樣的結構翻譯然則代詞「它們」在第一句中指的是「猴子」,在第二句中指的是「香蕉」。

當前自然說話處理研究的發展趨勢[

一些NLP面臨的問題實例:

(英文的it沒有辨別,但在中文裡「牠」和「它」是有辨別的,只是代詞在中文裡常常被省略,是以需區分屬性並且標示出來)

自然措辭措置的重要範疇[

  • 文本朗讀(Text to speech)/語音合成(Speech synthesis)
  • 語音識別(Speech recognition)
  • 中文自動分詞(Chinese word segmentation)
  • 詞性標註(Part-of-speech tagging)
  • 句法說明(Parsing)
  • 英語Natural_language_generation(Natural language generation)
  • 文本分類(Text categorization)
  • 信息檢索(Information retrieval)
  • 信息抽取(Information extraction)
  • 文字校訂(Text-proofing)
  • 問答系統(Question answering)
給一句人類說話的問定,抉擇其答案翻譯 典型問題有特定謎底 (像是加拿大的首都叫什麼?),但也斟酌些開放式問句(像是人生的意義是是甚麼?)
  • 機械翻譯(Machine translation)
將某種人類措辭自動翻譯至另外一種說話
  • 自動摘要(Automatic summarization)
產生一段文字的大意,凡是用於提供已知範圍的文章摘要,例如產生報紙上某篇文章之摘要
  • 文字蘊涵(Textual entailment)

天然措辭處置懲罰研究的難點[

單詞的鴻溝界定[

在白話中,詞與詞之間往往是連貫的,而界定字詞界限每每行使的行動是取用能讓給定的上下文最為通順且在文法上無誤的一種最好組合翻譯

詞義的消歧[

許多字詞不單只有一個意思,是以我們必需選出使句意最為通順的注釋。假設不熟悉猴子和香蕉的屬性,沒法鑒識。

第二,統計數學方式愈來愈遭到正視,天然措辭處置中越來越多地行使機械主動進修的方式來獲取說話常識。再者,若是一門課程去年沒開設,對於發問「這門課程舊年有幾許學生沒經由過程?」答複「舊年沒開這門課」要比答複「沒人沒經過進程」好。

由於理解(understanding)天然措辭,需要關於外在世界的普遍常識和應用操作這些常識的能力,自然措辭認知,同時也被視為一小萬國翻譯社工伶俐完備(AI-complete)的問題翻譯同時,在自然說話處理中,"理解"的界說也釀成一個重要的問題。處理這些高度恍忽句子所採用消歧的方式平日應用到語料庫以及馬可夫模子(Markov models)翻譯統計自然措辭處理的手藝主要由一樣自人工伶俐下與進修行為相關的子範圍:機械進修及資料採掘所演進而成翻譯

第四,天然說話措置中越來越正視辭彙的感化,出現了強烈的「辭彙主義」的偏向翻譯辭彙常識庫的建造成為了廣泛關注的問題翻譯

統計自然說話處理應用了料到學、機率、統計的方式來解決上述,特別是針對輕易高度模糊的長串句子,當套用實際文法進行闡明產生出不計其數筆可能性時所激發之堅苦。

初期的措辭措置系統如SHRDLU,當它們處於一個有限的「積木世界」,運用有限的詞彙表會話時,工作得相當好翻譯

義務和限制[

  1. ^

相關實例[

  • GATE: a Java Library for Text Engineering
  • LTP:說話手藝平台(簡體中文)
  • MARF
  • Python編程措辭的自然措辭處理對象包教程
  • FudanNLP開源中文自然措辭處置懲罰對象包

拜見[

延長浏覽[

  • Bates翻譯社 M. Models of natural language understanding. Proceedings of the National Academy of Sciences of the United States of America. 1995, 92 (22): 9977–9982. doi:10.1073/pnas.92.22.9977. 
  • Steven Bird翻譯社 Ewan Klein翻譯社 and Edward Loper (2009). Natural Language Processing with Python. O'Reilly Media. ISBN 978-0-596-51649-9.
  • Daniel Jurafsky and James H. Martin (2008). Speech and Language Processing, 2nd edition. Pearson Prentice Hall. ISBN 978-0-13-187321-6.
  • Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze (2008). Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5. Official html and pdf versions available without charge.
  • Christopher D. Manning and Hinrich Schütze (1999). Foundations of Statistical Natural Language Processing. The MIT Press. ISBN 978-0-262-13360-9.
  • David M. W. Powers and Christopher C. R. Turk (1989). Machine Learning of Natural Language. Springer-Verlag. ISBN 978-0-387-19557-5.

外部保持[

  • 人類說話手藝當前成長情況概覽
  • 哥倫比亞大學天然說話措置研究組
  • 卡內基梅隆大學說話手藝研究院
  • 斯坦福大學天然說話處置懲罰研究小組
  • 中文自然措辭處理開放平臺
  • ACL(美國電腦措辭學協會)供給的相關雜誌和研究會的論文
arrow
arrow
    創作者介紹
    創作者 brettetc0e33 的頭像
    brettetc0e33

    這裡是和brettetc0e33@outlook.com有關的地盤,歡迎到訪我的BLOG!

    brettetc0e33 發表在 痞客邦 留言(0) 人氣()