之所以會出現碼,這是因爲DOS系統本,並不支持漢字顯示的緣故。
解決這個問題的途徑有很多。
比如打造一個CCDOS、UCDOS之類的漢字作系統……
這樣可以一勞永逸,但工程量十分浩大。
所以江寒琢磨了一下,決定採用一種臨時的解決方案。
他先退出了虛擬空間,上網找到了一份IMG格式的UCDOS系統盤映像。
下載、解之後,將HZK16和HZK16F提取了出來,並傳到了虛擬空間裡的286電腦中。
這兩個文件是UCDOS的字庫文件,前者是簡中文字庫,後者則支持繁中文。
隨後,江寒再次進虛擬空間,在自己製作的字典程序裡添加了一小段代碼,使其擁有了漢字顯示功能。
基本原理是據漢字的碼,在字庫文件中找到對應的點陣信息,然後一個像素、一個像素地畫到屏幕上。
然而,在286這麼落後的電腦上,如果不使用一點技巧,直接畫點的話,每秒鐘大概只能顯示5~6個漢字。
這樣的速度自然遠不能讓人滿意。
爲了提高顯示速度,遠古的編程高手們,開發出了一種做“直接寫屏”的技,將像素信息直接寫到“顯示緩衝區”中去。
“顯示緩衝區”是一塊特別的存區域,寫其中的數據,會馬上顯示在屏幕上。
使用了“直接寫屏”技的件,理論上來說,顯示速度可以接近機能的上限。
這種技也有缺點,那就是各種顯示卡、顯示模式,所使用的“顯示緩衝區”,位置並不一樣。
例如CGA顯卡的“顯示緩衝區”,起始地址就是B800h……
這樣一來,就對程序的兼容提出了挑戰。
好在江寒只需要支持自己的這臺286就行,其他機型完全不需要考慮。
江寒寫完這個程序,調試、編譯功了以後,他的個人專用英漢電子詞典,終於可以正常使用了。
看看時間已經不早,他就退出了虛擬空間。
今晚先到這裡,好好睡上一覺,剩下的事,明晚再說……
第二天一早。
江寒起牀後,剛洗完臉,手機忽然響了起來,拿過來一看,竟然是小蚊子打來的。
江寒接了起來:“這麼早?”
靳雪雯嘻嘻一笑:“江寒哥哥早!嗯……對了,我這麼早就給你打電話,有沒有打擾到你和雨菲姐姐的好夢啊?”
江寒:“……”
最多打擾到自己,怎麼可能打擾到小媳婦?
不過這個就不需要跟解釋了……
“有事說事,沒事我吃飯了。”江寒邊說邊下樓。
靳雪雯嘟了嘟,抱怨了一聲:“江寒哥哥一點也不溫……”
江寒笑而不語。
對你這個小丫頭,還用得著那麼小心翼翼嗎?
咱的溫只留給小媳婦就行了……
也沒用江寒哄,靳雪雯很快就自己調整好了心態,歡快地說:“對了,江寒哥哥,CARC正賽還有不到一個月了,你要不要參加啊?“
上次在魔都,倆人蔘加的那個機人比賽,只是中國青年機人競賽(CARCP)的預選賽。
而1月下旬,還有一場規模更大的正賽,在帝都舉行。
只有預賽的前三名,或者在其他賽事中名列前茅的選手,纔會得到組辦方的邀請。
江寒笑了笑:“當然。”
別的不說,衝著提高學力等級的機會,他也不可能錯過這場盛會。
”那咱們再組一次隊,好不好?”靳雪雯的語氣裡充滿了希冀。
江寒微微一笑:“沒問題,你願意的話,還可以再帶一個人進隊,我這邊已經找到兩個了。”
正賽採用的是類似LOL的MOBA賽制,每組最需要五臺機人,選手數量則限制在3~5人之間。
江寒已經決定了,到時候會帶上方源和小魚兒,讓他們兩個也長長見識。
這樣一來,算上靳雪雯,隊伍就接近滿員,最多隻能再塞進來一個人了……
靳雪雯很開心:“一言爲定!”
兩人說完這件事後,約好了到時候再聯絡,然後就掛斷了電話。
江寒和夏雨菲母一起吃完早餐後,就照常去上學。
整個上午,他都在用心研讀《數學理方程》,等到中午放學時,就差不多把這本書讀了。
中午吃完飯,江寒將夏雨菲哄睡之後,就拿出筆記本電腦,開始編寫程序。
他昨天就打算好了,做一個實用一點的OCR件。
界面部分可以放在以後再弄,今天先把最難搞的核心算法寫出來。
畢竟人工神經網絡,需要大量的時間訓練……
OCR的技要點,關鍵在於識別算法。
打印字的識別,比手寫識別簡單多了,畢竟計算機常用的字,也就那麼幾種。
江寒先從網絡上,將各種字文件全都下載了一遍。
然後設計了一個程序,調用這些字,生了許多小圖片。
每張圖片都是一個漢字、數字、字母,或者特殊符號。
江寒使用數據擴充算法,將每張圖片略微變形、變、位移、旋轉……
得到了數以十倍的樣本圖片。
並且,在生圖片的同時,還順便生了一一對應的標籤。
這樣江寒就擁有了海量的訓練數據。
接下來,他又綜合運用已經掌握的機學習知識,設計了一個龐大的集式機學習算法。
其中不可避免地,用到了CNN,也就是最新開發出來的“卷積神經網絡”。
爲了最大限度地提高識別正確率,整個網絡包括了許多層級不同的子網絡。
每個圖塊輸到網絡中後,先由第一級網絡進行分類。
將輸的圖片,劃分漢字、數字、英文字母、特殊符號這四個大類,然後分門別類地送四個子網絡中。
如果第一級識別的結果是數字,那麼就會送進一個類似於手寫數字識別的小型網絡中,進一步分類,看看屬於0~9中哪一個數字。
英文和特殊符號的理,也和數字差不多,只是輸出結果的類別數,稍微大了那麼一點點。
但如果經過第一級網絡的識別,判斷歸屬於漢字大類,那麼理起來就稍微複雜一些了。
江寒將5000個左右的常用漢字,劃分了4000個子集。
然後使用自組織聚類神經網絡(SOM),設計了一個擁有4000個輸出的分類。
部分子集只含有一個元素,意味著分類到這些子集中的漢字,可以直接輸出識別結果。
大部分子集裡含有2~30個元素,這意味著還需要送第三級網絡,進一步進行分類。
如果該子集中的元素,只有2~3個,那麼就送進一個單字分類中,識別出最終結果。
多於3的話,就送細分類網絡模塊(RNM),進一步分類。
循環進行前兩步,直到每個子集的元素個數都小於等於3,然後逐一送單字分類中,輸出最後的結果。
這就是這個集網絡的整個工作流程,其中使用了數百個中型神經網絡。
這些神經網絡在設計上,基本大同小異,所以編程難度並不高。
麻煩的是,每個神經網絡,都得單獨訓練,而這需要大量的算力。
好在他早就在高新區地下的機房裡,準備好了十幾臺高能服務。
江寒將程序設計出來,然後連同訓練數據,一起上傳到了那些服務中。
十幾臺服務全力運轉,差不多一兩天就能完訓練。
本是普通大學生的林海,在微信更新後,被拉入了天庭的朋友圈,從此生活變得多姿多彩。王母娘孃的麵膜用完了?拿10個蟠桃來換,不講價。太上老君想抽軟中華?十顆天地造化丹,概不賒賬。紅孩兒想喝哇哈哈?三昧真火拿過來,趕緊的。秦廣王想要輛新款跑車?等等,這是又連上地府了?生死簿拿來,把哥的名字劃了先……
洪荒、上古、中古每一個時代,強者橫行天地,永存萬界。不死不滅的殭屍祖,卻隕落了。一個弱小生靈,成為殭屍的一刻,解開萬古的秘密,也隨之而來。天地玄黃,不服就干!
【重磅力薦,爆爽玄幻:本書單女主,極度熱血、燃、殺伐果斷,絕對不憋屈!】少年葉炎,訂婚之日被身懷圣體的未婚妻云飛月嘲諷:圣凡兩別,你不過是凡間一條狗!隨后當眾撕碎婚書,更毀掉葉炎父親所留下的唯一遺物靈劍,將葉家尊嚴踐踏在腳下。劍碎之時,葉炎…