當前位置: 半夏小說 玄幻奇幻 重生學神有系統 第383章 超大規模集成神經網路

《重生學神有系統》第383章 超大規模集成神經網路

之所以會出現碼,這是因為DOS系統本,並不支持漢字顯示的緣故。

解決這個問題的途徑有很多。

比如打造一個CCDOS、UCDOS之類的漢字作系統……

這樣可以一勞永逸,但工程量十分浩大。

所以江寒琢磨了一下,決定採用一種臨時的解決方案。

他先退出了虛擬空間,上網找到了一份IMG格式的UCDOS系統盤映像。

下載、解之後,將HZK16和HZK16F提取了出來,並傳到了虛擬空間里的286電腦中。

這兩個文件是UCDOS的字型檔文件,前者是簡中文字型檔,後者則支持繁中文。

隨後,江寒再次進虛擬空間,在自己製作的字典程序里添加了一小段代碼,使其擁有了漢字顯示功能。

基本原理是據漢字的碼,在字型檔文件中找到對應的點陣信息,然後一個像素、一個像素地畫到屏幕上。

然而,在286這麼落後的電腦上,如果不使用一點技巧,直接畫點的話,每秒鐘大概只能顯示5~6個漢字。

這樣的速度自然遠不能讓人滿意。

為了提高顯示速度,遠古的編程高手們,開發出了一種做「直接寫屏」的技,將像素信息直接寫到「顯示緩衝區」中去。

「顯示緩衝區」是一塊特別的存區域,寫其中的數據,會馬上顯示在屏幕上。

使用了「直接寫屏」技,理論上來說,顯示速度可以接近機能的上限。

這種技也有缺點,那就是各種顯示卡、顯示模式,所使用的「顯示緩衝區」,位置並不一樣。

Advertisement

例如CGA顯卡的「顯示緩衝區」,起始地址就是B800h……

這樣一來,就對程序的兼容提出了挑戰。

好在江寒只需要支持自己的這臺286就行,其他機型完全不需要考慮。

江寒寫完這個程序,調試、編譯功了以後,他的個人專用英漢電子詞典,終於可以正常使用了。

看看時間已經不早,他就退出了虛擬空間。

今晚先到這裡,好好睡上一覺,剩下的事,明晚再說……

第二天一早。

江寒起床后,剛洗完臉,手機忽然響了起來,拿過來一看,竟然是小蚊子打來的。

江寒接了起來:「這麼早?」

靳雪雯嘻嘻一笑:「江寒哥哥早!嗯……對了,我這麼早就給你打電話,有沒有打擾到你和雨菲姐姐的好夢啊?」

江寒:「……」

最多打擾到自己,怎麼可能打擾到小媳婦?

不過這個就不需要跟解釋了……

「有事說事,沒事我吃飯了。」江寒邊說邊下樓。

靳雪雯嘟了嘟,抱怨了一聲:「江寒哥哥一點也不溫……」

江寒笑而不語。

對你這個小丫頭,還用得著那麼小心翼翼嗎?

咱的溫只留給小媳婦就行了……

也沒用江寒哄,靳雪雯很快就自己調整好了心態,歡快地說:「對了,江寒哥哥,CARC正賽還有不到一個月了,你要不要參加啊?「

上次在魔都,倆人參加的那個機人比賽,只是中國青年機人競賽(CARCP)的預選賽。

而1月下旬,還有一場規模更大的正賽,在帝都舉行。

Advertisement

只有預賽的前三名,或者在其他賽事中名列前茅的選手,才會得到組辦方的邀請。

江寒笑了笑:「當然。」

別的不說,沖著提高學力等級的機會,他也不可能錯過這場盛會。

」那咱們再組一次隊,好不好?」靳雪雯的語氣里充滿了希冀。

江寒微微一笑:「沒問題,你願意的話,還可以再帶一個人進隊,我這邊已經找到兩個了。」

正賽採用的是類似LOL的MOBA賽制,每組最需要五臺機人,選手數量則限制在3~5人之間。

江寒已經決定了,到時候會帶上方源和小魚兒,讓他們兩個也長長見識。

這樣一來,算上靳雪雯,隊伍就接近滿員,最多只能再塞進來一個人了……

靳雪雯很開心:「一言為定!」

兩人說完這件事後,約好了到時候再聯絡,然後就掛斷了電話。

江寒和夏雨菲母一起吃完早餐后,就照常去上學。

整個上午,他都在用心研讀《數學理方程》,等到中午放學時,就差不多把這本書讀了。

中午吃完飯,江寒將夏雨菲哄睡之後,就拿出筆記本電腦,開始編寫程序。

他昨天就打算好了,做一個實用一點的OCR

界面部分可以放在以後再弄,今天先把最難搞的核心演算法寫出來。

畢竟人工神經網路,需要大量的時間訓練……

OCR的技要點,關鍵在於識別演算法。

列印字的識別,比手寫識別簡單多了,畢竟計算機常用的字,也就那麼幾種。

江寒先從網路上,將各種字文件全都下載了一遍。

Advertisement

然後設計了一個程序,調用這些字,生了許多小圖片。

每張圖片都是一個漢字、數字、字母,或者特殊符號。

江寒使用數據擴充演算法,將每張圖片略微變形、變、位移、旋轉……

得到了數以十倍的樣本圖片。

並且,在生圖片的同時,還順便生了一一對應的標籤。

這樣江寒就擁有了海量的訓練數據。

接下來,他又綜合運用已經掌握的機學習知識,設計了一個龐大的集式機學習演算法。

其中不可避免地,用到了CNN,也就是最新開發出來的「卷積神經網路」。

為了最大限度地提高識別正確率,整個網路包括了許多層級不同的子網路。

每個圖塊輸到網路中后,先由第一級網路進行分類。

將輸的圖片,劃分漢字、數字、英文字母、特殊符號這四個大類,然後分門別類地送四個子網路中。

如果第一級識別的結果是數字,那麼就會送進一個類似於手寫數字識別的小型網路中,進一步分類,看看屬於0~9中哪一個數字。

英文和特殊符號的理,也和數字差不多,只是輸出結果的類別數,稍微大了那麼一點點。

但如果經過第一級網路的識別,判斷歸屬於漢字大類,那麼理起來就稍微複雜一些了。

江寒將5000個左右的常用漢字,劃分了4000個子集。

然後使用自組織聚類神經網路(SOM),設計了一個擁有4000個輸出的分類

部分子集只含有一個元素,意味著分類到這些子集中的漢字,可以直接輸出識別結果。

大部分子集里含有2~30個元素,這意味著還需要送第三級網路,進一步進行分類。

如果該子集中的元素,只有2~3個,那麼就送進一個單字分類中,識別出最終結果。

多於3的話,就送細分類網路模塊(RNM),進一步分類。

循環進行前兩步,直到每個子集的元素個數都小於等於3,然後逐一送單字分類中,輸出最後的結果。

這就是這個集網路的整個工作流程,其中使用了數百個中型神經網路。

這些神經網路在設計上,基本大同小異,所以編程難度並不高。

麻煩的是,每個神經網路,都得單獨訓練,而這需要大量的算力。

好在他早就在高新區地下的機房裡,準備好了十幾臺高能伺服

江寒將程序設計出來,然後連同訓練數據,一起上傳到了那些伺服中。

十幾臺伺服全力運轉,差不多一兩天就能完訓練。。

猜你喜歡

分享

複製如下連結,分享給好友、附近的人、Facebook的朋友吧!
複製鏈接

問題反饋

反饋類型
正在閱讀: