首先我們需要了解信息是如何傳播的。
事實(shí)上,即使現(xiàn)在的通信方式比之原始社會(huì)先進(jìn)得多,而從傳播原理上講,卻是并沒有差別的,即
將信息源所要傳播的信息進(jìn)行編碼,接收者從信息通道獲得編碼后的信息并將其解碼,從而獲得信息源所要傳播的信息。
信息經(jīng)過了編碼——傳播——解碼,實(shí)現(xiàn)了信息的傳播。
我們可以認(rèn)為,任何一種語(yǔ)言都是一種對(duì)信息的一種編碼的方式,而語(yǔ)言的語(yǔ)法規(guī)則便是編解碼的算法。當(dāng)我們將一個(gè)所要表達(dá)的信息通過一種語(yǔ)言表達(dá)出來之時(shí),便已經(jīng)進(jìn)行了一次編碼,而編碼的結(jié)果便是這種語(yǔ)言表達(dá)的一串文字。信息接收者如果懂得這種語(yǔ)言,那么他便可以將這串文字解碼,從而獲得這串文字所代表的信息。這便是人類語(yǔ)言的本質(zhì)。
我們要研究智能問題,那么首先就要面對(duì)以下問題:
問題一:計(jì)算機(jī)能否處理自然語(yǔ)言。
計(jì)算機(jī)科學(xué)之父阿蘭圖靈(Alan Turing)在他的一篇論文中提出了一種驗(yàn)證機(jī)器是否有智能的方法,這種方法也被稱為圖靈測(cè)試(Turing Test):
讓人和機(jī)器進(jìn)行交流,如果人無法判斷自己交流的對(duì)象是人還是機(jī)器,就說明這個(gè)機(jī)器有智能。
當(dāng)然,計(jì)算機(jī)能否處理自然語(yǔ)言,無論是真實(shí)情況還是出于假設(shè),這個(gè)答案必然是能,這是研究下去的前提。
問題二:計(jì)算機(jī)如何處理自然語(yǔ)言。
對(duì)于這個(gè)問題,人們的第一反應(yīng)便是,計(jì)算機(jī)像人類一樣處理自然語(yǔ)言,換句話說,便是讓計(jì)算機(jī)理解自然語(yǔ)言,再深入一層,便是計(jì)算機(jī)擁有如人類大腦一般的智能。那么這種想法是否可行?
從二十世紀(jì)五十年代到七十年代,研究智能的科學(xué)家都抱著這種想法,然而二十年的成果幾近為零。如何理解自然語(yǔ)言,在于分析語(yǔ)句和獲取語(yǔ)義。
分析語(yǔ)句,如“我看書。”以文法規(guī)則重寫出來,便是
句子→主謂賓句號(hào)
主語(yǔ)→名詞 謂語(yǔ)→動(dòng)詞 賓語(yǔ)→名詞 句號(hào)→。
名詞→我 動(dòng)詞→看 名詞→書
我們可以看到,即使是如此簡(jiǎn)單的一句話,也需要八條文法規(guī)則,那么如果是一個(gè)更為復(fù)雜的句子,如“一向自信的他一直認(rèn)為他自己做的一切都是無可辯駁的?!逼渲械奈姆ㄒ?guī)則便復(fù)雜得多了。
那么這其中便出現(xiàn)了一個(gè)無法解決的問題,想要通過文法規(guī)則覆蓋所有自然語(yǔ)言的語(yǔ)法規(guī)則,數(shù)量至少達(dá)到十萬以上,而且為了語(yǔ)義準(zhǔn)確,還必須說明每個(gè)規(guī)則規(guī)定的使用環(huán)境,到最后每增加一個(gè)新句子,就要加入一些新的文法規(guī)則。
即便假設(shè)上面的問題能夠解決,在獲取語(yǔ)義上也出現(xiàn)了另一個(gè)無法解決的問題。那就是無論在哪一種自然語(yǔ)言里,要理解一個(gè)句子的意思,往往要聯(lián)系上下文,這個(gè)問題直接導(dǎo)致了自然語(yǔ)言處理研究的停滯。
所以,讓計(jì)算機(jī)理解自然語(yǔ)言至少目前是不可行的。學(xué)者們也就將該想法稱為“鳥飛派”,即以為模仿鳥便能造出飛機(jī),而不需要知道空氣動(dòng)力學(xué)。
那么計(jì)算機(jī)是如何處理自然語(yǔ)言的呢?
答案是使用基于統(tǒng)計(jì)的方法,即為自然語(yǔ)言上下相關(guān)的特性建立數(shù)學(xué)模型。一開始因?yàn)橛?jì)算能力不足和數(shù)據(jù)量少的問題,基于統(tǒng)計(jì)的方法智能處理簡(jiǎn)單的自然語(yǔ)言,但近幾十年來,計(jì)算機(jī)的硬件更新和數(shù)據(jù)量的不斷增加,讓通過統(tǒng)計(jì)模型完成精確復(fù)雜的句法分析變得越加可行。