行業(yè)資訊

人工智能基礎(chǔ)篇1——計算機處理自然語言的一些問題

2018/12/27 13:53:24

首先我們需要了解信息是如何傳播的。

事實上，即使現(xiàn)在的通信方式比之原始社會先進得多，而從傳播原理上講，卻是并沒有差別的，即

將信息源所要傳播的信息進行編碼，接收者從信息通道獲得編碼后的信息并將其解碼，從而獲得信息源所要傳播的信息。

信息經(jīng)過了編碼——傳播——解碼，實現(xiàn)了信息的傳播。

我們可以認(rèn)為，任何一種語言都是一種對信息的一種編碼的方式，而語言的語法規(guī)則便是編解碼的算法。當(dāng)我們將一個所要表達的信息通過一種語言表達出來之時，便已經(jīng)進行了一次編碼，而編碼的結(jié)果便是這種語言表達的一串文字。信息接收者如果懂得這種語言，那么他便可以將這串文字解碼，從而獲得這串文字所代表的信息。這便是人類語言的本質(zhì)。

我們要研究智能問題，那么首先就要面對以下問題：

問題一：計算機能否處理自然語言。

計算機科學(xué)之父阿蘭圖靈（Alan Turing）在他的一篇論文中提出了一種驗證機器是否有智能的方法，這種方法也被稱為圖靈測試（Turing Test）：

讓人和機器進行交流，如果人無法判斷自己交流的對象是人還是機器，就說明這個機器有智能。

當(dāng)然，計算機能否處理自然語言，無論是真實情況還是出于假設(shè)，這個答案必然是能，這是研究下去的前提。

問題二:計算機如何處理自然語言。

對于這個問題，人們的第一反應(yīng)便是，計算機像人類一樣處理自然語言，換句話說，便是讓計算機理解自然語言，再深入一層，便是計算機擁有如人類大腦一般的智能。那么這種想法是否可行？

從二十世紀(jì)五十年代到七十年代，研究智能的科學(xué)家都抱著這種想法，然而二十年的成果幾近為零。如何理解自然語言，在于分析語句和獲取語義。

分析語句，如“我看書?！币晕姆ㄒ?guī)則重寫出來，便是

句子→主謂賓句號

主語→名詞謂語→動詞賓語→名詞句號→。

名詞→我動詞→看名詞→書

我們可以看到，即使是如此簡單的一句話，也需要八條文法規(guī)則，那么如果是一個更為復(fù)雜的句子，如“一向自信的他一直認(rèn)為他自己做的一切都是無可辯駁的。”其中的文法規(guī)則便復(fù)雜得多了。

那么這其中便出現(xiàn)了一個無法解決的問題，想要通過文法規(guī)則覆蓋所有自然語言的語法規(guī)則，數(shù)量至少達到十萬以上，而且為了語義準(zhǔn)確，還必須說明每個規(guī)則規(guī)定的使用環(huán)境，到最后每增加一個新句子，就要加入一些新的文法規(guī)則。

即便假設(shè)上面的問題能夠解決，在獲取語義上也出現(xiàn)了另一個無法解決的問題。那就是無論在哪一種自然語言里，要理解一個句子的意思，往往要聯(lián)系上下文，這個問題直接導(dǎo)致了自然語言處理研究的停滯。

所以，讓計算機理解自然語言至少目前是不可行的。學(xué)者們也就將該想法稱為“鳥飛派”，即以為模仿鳥便能造出飛機，而不需要知道空氣動力學(xué)。

那么計算機是如何處理自然語言的呢？

答案是使用基于統(tǒng)計的方法，即為自然語言上下相關(guān)的特性建立數(shù)學(xué)模型。一開始因為計算能力不足和數(shù)據(jù)量少的問題，基于統(tǒng)計的方法智能處理簡單的自然語言，但近幾十年來，計算機的硬件更新和數(shù)據(jù)量的不斷增加，讓通過統(tǒng)計模型完成精確復(fù)雜的句法分析變得越加可行。

JIZZ国产丝袜18老师女人生|亚洲欧美AV亚洲精品|久久精品一区二区三区无码观看|97热久久精品中文字幕一区|

行業(yè)資訊