0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

斯坦福大學(xué)獲得全球史上最大的現(xiàn)代中國信息技術(shù)收藏品

hl5C_deeptechch ? 來源:DeepTech深科技 ? 作者:DeepTech深科技 ? 2021-06-08 16:45 ? 次閱讀

“把它們送回自己的祖國!”

近日,斯坦福大學(xué)的中國歷史教授托馬斯·穆拉尼(Thomas Mullaney)在 Tik Tok 上收到這樣一則信息

前不久,他在 Tik Tok 上發(fā)視頻表示,斯坦福大學(xué)獲得了全球史上最大的現(xiàn)代中國信息技術(shù)收藏品,這些檔案收藏在斯坦福大學(xué)圖書館中,館藏檔案 2500 余件。

當(dāng)?shù)貢r間 6 月 6 日,托馬斯·穆拉尼在《南華早報》英文版,發(fā)表了題為“Why is the world’s largest collection on China’s modern IT history in the US?”《為什么世界上最大的中國現(xiàn)代 IT 歷史合集在美國》的文章,并成為該網(wǎng)站當(dāng)天的頭版頭條。

他表示,斯坦福大學(xué)圖書館館藏藏品中,包括幾十臺珍稀的中文打字機、文字處理器電腦,以及中文電報、打字機、油印、圖書制作、大型機、編碼系統(tǒng)、軟件、操作系統(tǒng)、打印機、顯示器、字體、照排、輸入系統(tǒng)、文字處理器、個人電腦等。

托馬斯·穆拉尼的個人首頁顯示,他從 20 世紀(jì) 90 年代開始研究東亞文化,并出版過多本和中國漢字發(fā)展相關(guān)的書籍。

當(dāng)?shù)貢r間 5 月 31 日,《麻省理工科技評論》英文版獨家發(fā)表了托馬斯·穆拉尼撰寫的文章“Behind the painstaking process of creating Chinese computer fonts”《制作中文電腦字體的艱辛背后過程》。

這篇文章并未體現(xiàn)他的全部研究領(lǐng)域,但卻最具有科技特征。可以說,目前你正在閱讀的這篇文章,離不來幾十年前中文電腦字體設(shè)計師們的辛勤付出。以下為該文章的譯文,個別地方有改動:

幾十年前,畢業(yè)于麻省理工學(xué)院的 Photography Systems 公司創(chuàng)始人路易斯?羅斯布魯姆(Louis Rosenblum),接到了位于馬薩諸塞州劍橋市的圖形藝術(shù)研究基金會(GARF)的一個訂單。

在該項目中,設(shè)計師們通過手工畫圖和編輯了數(shù)以千計的字符,使得中文的打字和印刷成為可能。

回憶最初他曾表示,其兒子布魯斯·羅森布魯姆(Bruce Rosenblum)打開了他的蘋果二代,此時電腦先是發(fā)出了一個高音的 F 音,然后是軟驅(qū)又發(fā)出了咔噠聲。

在一連串 “砰砰” 的按鍵聲后,12 英寸的三洋顯示器終于開始反應(yīng):在最開始的開機畫面上,顯示屏上出現(xiàn)了一個綠色的網(wǎng)格,寬 16 個單位,高 16 個單位。

而這個綠色的網(wǎng)格,就是 “Gridmaster”,這是羅森布魯姆建立的全球首批中文數(shù)字字體之一,也是用 BASIC 編程語言編寫的一個程序。

當(dāng)時,他的任務(wù)是為一臺名為 Sinotype III 的實驗性機器開發(fā)字體,Sinotype III 機器也是史上首批能處理中文輸入和中文輸出的個人電腦之一。

在 20 世紀(jì) 70 年代末和 80 年代初,中國還沒有個人電腦。因此,為了制造一臺能處理 “中文” 的個人電腦,羅森布魯姆團隊需要對蘋果二代電腦進(jìn)行重新編程,以便用中文操作。

這項任務(wù)十分艱巨,他必須從頭開始對一個操作系統(tǒng)進(jìn)行編譯,因為蘋果 II 的 DOS 3.3 根本無法操作中文。同時,他還必須對中文文字處理器本身進(jìn)行編程。就這樣,羅森布魯姆不知疲倦地工作了幾個月。

盡管在今天看來,Gridmaster 是一個簡單的程序,但它當(dāng)時要處理的任務(wù)是創(chuàng)建成千上萬個漢字的數(shù)字位圖,在那時面臨的設(shè)計挑戰(zhàn)極大。

Sinotype III 機器是由圖形藝術(shù)研究基金會開發(fā)的機器。在 Sinotype III 身上,創(chuàng)建字體所用的時間遠(yuǎn)超計算機編程的時間,因為沒有字體,就沒有辦法在屏幕上顯示漢字,也沒有辦法在機器的點陣打印機上輸出漢字。

對于每個漢字的設(shè)計,設(shè)計師都必須親自決定如何將漢字安排在由 256 個像素組成的位圖中。也就是說,對于每個漢字都需要做出 256 個決定。

位圖是一種數(shù)字存儲圖像的方式,每一個符號和圖像都是由許多像素填充的網(wǎng)格所組成的,目前常見的圖片存儲格式如 JPEG、GIF、BMP 等都屬于位圖存儲方式。因此,如果每個漢字需要 256 個決定,就要設(shè)計數(shù)以千計的漢字,相當(dāng)于設(shè)計師需要在在兩年多的開發(fā)過程中作出數(shù)十萬個決定。

不過,事后羅森布魯姆回想到 Gridmaster 編程程序時,他卻將其描述為 "頂多是個笨拙的能用的程序",但就是靠著這個笨拙的程序,他的父親路易斯·羅森布魯姆(Louis Rosenblum)和圖形藝術(shù)研究基金會,得以讓數(shù)據(jù)輸入臨時人員遠(yuǎn)程創(chuàng)建并保存新的漢字位圖。

對設(shè)計人員來說,只需擁有一臺 Apple II 電腦,通過在軟盤上運行 Gridmaster 程序,數(shù)據(jù)錄入員就能遠(yuǎn)程創(chuàng)建和保存新的漢字位圖。一旦這些漢字的位圖被創(chuàng)建和存儲好,羅森布魯姆就能通過他設(shè)計的另一個程序,將設(shè)計好的漢字和它們相應(yīng)的輸入代碼植入系統(tǒng)的數(shù)據(jù)庫,這樣就能把新設(shè)計好的漢字的數(shù)字位圖安裝到 Sinotype III 機器上。

盡管 Sinotype III 機器從未作為商業(yè)產(chǎn)品發(fā)布過。但是,為開發(fā)該系統(tǒng)所進(jìn)行的艱苦工作內(nèi)容比如開發(fā)位圖中文字體,卻正是一個需要全球共同努力才能解決的問題,而這一問題就是:如何使計算機能夠處理地球上使用最廣泛的語言之一 —— 中文。

當(dāng)給西方字體做計算機和文字處理設(shè)計時,工程師和設(shè)計師們約定,在一個 5 乘 7 的位圖網(wǎng)格上,來創(chuàng)建一種低分辨率的數(shù)字英語字體。這樣,每個符號只需要五個字節(jié)的內(nèi)存。

在美國信息交換標(biāo)準(zhǔn)代碼(ASCII)中存儲所有 128 個低分辨率字符,只需要640字節(jié)的內(nèi)存,而且這 128 個字符已包括所有英語字母、數(shù)字 0 到 9 以及常見的標(biāo)點符號。640 字節(jié)即使對于當(dāng)時的蘋果 II 來說,也只是其 64 千字節(jié)板載內(nèi)存的很小的部分。

與英文不同的是,漢字不僅在數(shù)目上以萬計,而且對于結(jié)構(gòu)復(fù)雜的漢字來說,5 乘 7 的網(wǎng)格太小,很難讓這些漢字清晰可辨。設(shè)計人員發(fā)現(xiàn),每個漢字需要 16 乘 16 或者更大的網(wǎng)格,這就要求每個字符至少有 32 字節(jié)的內(nèi)存(256 比特)。

這種情況下,要想研發(fā)一個擁有 70000 個低分辨率漢字的字體庫,需要超過兩兆字節(jié)的內(nèi)存量。即使對一個只包含 8000 個最常見的漢字的字體庫,僅存儲位圖就需大約 256 千字節(jié)的內(nèi)存。對于 20 世紀(jì) 80年代初大多數(shù)個人電腦來說, 這已是電腦總內(nèi)存容量的四倍。

盡管漢字字體庫給電腦內(nèi)存帶來了巨大挑戰(zhàn),但在當(dāng)時更難的是如何把低分辨率的中文字體制作得美觀又好認(rèn)。在 Gridmaster 這樣的程序被發(fā)明之前,大部分的設(shè)計工作都用筆、紙和修正液完成的。

為此,設(shè)計師們花了數(shù)年時間,以期設(shè)計出既能滿足低內(nèi)存、又能保持一定書法美感的字體位圖。凌煥銘(Lily Huan-Ming Ling)和艾倫·迪·喬瓦尼(Ellen Di Giovanni)是創(chuàng)建這套字符集的人,他們通過手繪特定漢字的位圖草稿,并使用 Gridmaster 將其數(shù)字化。

對設(shè)計師們來說,最核心的問題是如何在兩種完全不同的中文書寫方式之間切換:一種是用鋼筆或毛筆書寫的手繪字,另一種是用排列在網(wǎng)格中的、由像素陣列書寫的位圖字。設(shè)計師們必須決定如何創(chuàng)造手寫中文的某些特征,比如入口筆畫、筆畫漸變和出口筆畫。

慶幸的是,把 Sinotype III 字體設(shè)計成低分辨率中文位圖的全過程得以記錄下來。其中最吸引人的檔案資料之一,是一個裝滿格子圖的冊子,這些手繪的散點符號就是漢字位圖的草稿圖。

每一個漢字都經(jīng)過了精心設(shè)計,從手繪中也可看到,大多數(shù)情況下設(shè)計師都對圖形做了多次修改,路易斯·羅森布魯姆和圖形藝術(shù)研究基金會的設(shè)計師們,還會用修正液擦掉專業(yè)漢字編輯不同意的那些 "位"。

最初的標(biāo)記是綠色的,紅色標(biāo)記的才算是 "最終" 草案。只有經(jīng)過最終確認(rèn),才能開始數(shù)據(jù)輸入工作。

考慮到團隊需要設(shè)計的字體的字?jǐn)?shù)龐大,至少需要設(shè)計 3000 個以上的基本漢字。人們可能會猜測,設(shè)計師們會不會使用一些可以簡化設(shè)計工作的方法。

比如,通過復(fù)制中文偏旁部首來簡化設(shè)計,這樣當(dāng)不同的字有同樣的偏旁時比如“女”字旁,就無需再次設(shè)計 “女” 字旁,而是直接復(fù)制之前設(shè)計好的 “女” 字旁。

但是,筆者從當(dāng)時設(shè)計的檔案資料中,并未發(fā)現(xiàn)設(shè)計師們使用了任何類似上面所說的工作機制。與此相反,路易斯·羅森布魯姆堅持讓設(shè)計師親自對漢字的每一個細(xì)節(jié)進(jìn)行設(shè)計和調(diào)整,為的是保證每個漢字的筆畫部首在整個漢字中的協(xié)調(diào),盡管這種協(xié)調(diào)通常以十分細(xì)微、甚至難以察覺的調(diào)整來實現(xiàn)。

例如,在同樣包含了 “女” 字旁的 “娟”字和 “娩” 字的字體位圖中,這兩個字的 “女” 字旁部首并不完全一樣。在 “娟” 字中,“女” 字旁的寬度為 6 個像素,而在 “綿” 字中,“女” 字旁的寬度僅為 5 個像素。此外,在 “娩” 字中,“女” 字旁的右下角的筆畫向外延伸了一個像素,而在 “娟” 字中,該筆畫并沒有延伸。

在整個字體庫中,這種程度的精確度的要求十分常見,并非特例。當(dāng)我們把位圖草稿和它們的最終形式放在一起對比時,就會發(fā)現(xiàn)更多有趣的變化。

比如,在 “羅” 字的草稿中,左下角的最后一撇是以一個 45° 角向下延伸的。但在最終版本中,這一撇被 "拉平" 了一些,先以 45° 開始向下,但之后這一撇的傾斜角度變小了一些,并且變得更平了。

盡管設(shè)計師的設(shè)計空間似乎很小,僅僅是 16 乘 16 的網(wǎng)格,但他們必須在小小的網(wǎng)格中做出數(shù)量驚人的決定。而這些決定中的每一個,都會影響到他們?yōu)樘囟h字所做的其他決定,因為即使增加一個像素,也會改變整個漢字的水平和垂直平衡。

網(wǎng)格尺寸的無情限制,以其意想不到的方式影響了設(shè)計師的工作。這一點在為了實現(xiàn)對稱性這一“魔鬼”問題時表現(xiàn)最為明顯。

比如,在漢字中經(jīng)常見到的對稱布局,在低分辨率的框架中卻尤其難以表現(xiàn),因為根據(jù)數(shù)學(xué)規(guī)則,創(chuàng)造對稱性需要奇數(shù)的空間區(qū)域。

但偶數(shù)尺寸的位圖網(wǎng)格的局限(如 16 乘 16 的網(wǎng)格)讓對稱性變得不可能。在許多情況下,圖形藝術(shù)研究基金會通過只使用整個網(wǎng)格的一部分來實現(xiàn)對稱性:比如說在 16 乘 16 的網(wǎng)格中只使用 15 乘 15 的區(qū)域來設(shè)計,但這也進(jìn)一步減少了可用空間的數(shù)量。

而當(dāng)我們對比不同公司或不同創(chuàng)作者為不同項目創(chuàng)造的位圖字體時,情況變得更加復(fù)雜,差異也更多。

比如說下圖中出現(xiàn)在 Sinotype III 字體中的三點水偏旁:“氵”,與另一種由 H.C. Tien創(chuàng)造的早期中文字體中的三點水偏旁的對比。H.C. Tien 是一位華裔美國心理治療師和企業(yè)家,他曾在在 20 世紀(jì) 70 年代和 80 年代嘗試過漢字的計算機字體設(shè)計。

盡管上述例子看起來與本文的關(guān)系看上去不大,但從以上所說的每一個例子,我們能看出無論是在起草階段還是在數(shù)字化階段,圖形藝術(shù)研究基金會的設(shè)計團隊必須做出的一個又一個決定。

當(dāng)然,漢字字體的分辨率并沒有長期保持在 "低" 的水平。計算技術(shù)的進(jìn)步使得漢字的字體設(shè)計能使用越來越密集的位圖、越來越快的處理速度、以及越來越低的內(nèi)存成本。

而在如今這個 4K 分辨率、視網(wǎng)膜顯示器等的時代,可能很難體會到早期中國位圖字體創(chuàng)作中的藝術(shù)性 —— 包括美學(xué)和技術(shù)上的。但是,正是通過這些人的艱苦工作和不含糊的解決問題的方式,使得全球六分之一的人口現(xiàn)今能夠使用計算機、新媒體和互聯(lián)網(wǎng),而且非?;钴S。

原文標(biāo)題:2500余件中國IT技術(shù)收藏品“驚現(xiàn)”斯坦福大學(xué),獨家解密中文電腦字體研發(fā)全過程

文章出處:【微信公眾號:DeepTech深科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • IT
    IT
    +關(guān)注

    關(guān)注

    2

    文章

    840

    瀏覽量

    63404
  • 編程
    +關(guān)注

    關(guān)注

    88

    文章

    3544

    瀏覽量

    93469

原文標(biāo)題:2500余件中國IT技術(shù)收藏品“驚現(xiàn)”斯坦福大學(xué),獨家解密中文電腦字體研發(fā)全過程

文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    RISC-V在中國的發(fā)展機遇有哪些場景?

    RISC-V在中國的發(fā)展機遇廣泛存在于多個場景,這主要得益于其開源、開放、簡潔、靈活等特性,以及中國作為全球最大的數(shù)據(jù)大國和信息技術(shù)市場的重
    發(fā)表于 07-29 17:14

    開源鴻蒙人才儲備再升級!全國大學(xué)生網(wǎng)絡(luò)與信息技術(shù)大賽總決賽圓滿落幕

    7月21日,2024年全國信息通信技術(shù)大賽——第八屆全國大學(xué)生網(wǎng)絡(luò)與信息技術(shù)賽項全國總決賽在成都信息工程
    的頭像 發(fā)表于 07-23 08:33 ?682次閱讀
    開源鴻蒙人才儲備再升級!全國<b class='flag-5'>大學(xué)</b>生網(wǎng)絡(luò)與<b class='flag-5'>信息技術(shù)</b>大賽總決賽圓滿落幕

    數(shù)字視野:巴基斯坦技術(shù)飛躍

    ,突顯了技術(shù)在塑造巴基斯坦未來經(jīng)濟和社會進(jìn)步中的重要性。謝里夫與華為董事長梁華舉行了會晤,并見證了巴基斯坦信息技術(shù)部和華為簽署框架合同,為轉(zhuǎn)型伙伴關(guān)系奠定了基礎(chǔ)。 謝里夫訪問華為展覽中
    的頭像 發(fā)表于 06-10 17:53 ?594次閱讀

    谷歌Gemini Ultra模型訓(xùn)練成本近2億美元

    斯坦福大學(xué)與研究巨頭Epoch AI聯(lián)合揭示了云計算時代下AI模型訓(xùn)練成本的飛速增長。最新研究結(jié)果顯示,AI巨頭OpenAI的GPT-4訓(xùn)練成本高達(dá)7840萬美元,這一數(shù)字令人咋舌。
    的頭像 發(fā)表于 06-07 09:36 ?520次閱讀

    斯坦福團隊抄襲國產(chǎn)大模型,主要責(zé)任人失聯(lián)

    電子發(fā)燒友網(wǎng)報道(文/吳子鵬)近日,斯坦福大學(xué)AI團隊主導(dǎo)的Llama3-V開源模型被證實套殼抄襲國內(nèi)清華與面壁智能的開源模型“小鋼炮”MiniCPM-Llama3-V 2.5。該事件引起了業(yè)界
    的頭像 發(fā)表于 06-05 00:10 ?2516次閱讀

    斯坦福大學(xué)研發(fā)全新AI輔助全息成像技術(shù)

    據(jù)最新消息,斯坦福大學(xué)的研究人員成功研制出全新AI輔助全息成像技術(shù),其薄度、重量及質(zhì)量均超過了當(dāng)前方案,有望推動增強現(xiàn)實(AR)眼鏡領(lǐng)域的發(fā)展。
    的頭像 發(fā)表于 05-10 14:48 ?503次閱讀

    斯坦福發(fā)布《2024 AI指數(shù)報告》

    近日,斯坦福大學(xué)以人為本人工智能研究所(StanfordHAI)發(fā)布了《2024年人工智能指數(shù)報告》(ArtificialIntelligenceIndexReport2024)。據(jù)
    的頭像 發(fā)表于 04-18 08:28 ?712次閱讀
    <b class='flag-5'>斯坦福</b>發(fā)布《2024 AI指數(shù)報告》

    斯坦福AI報告:中國工業(yè)機器人領(lǐng)域領(lǐng)先全球

    在工業(yè)機器人領(lǐng)域,中國同樣表現(xiàn)出色。自2013年超越日本成為全球最大的工業(yè)機器人安裝國后,中國與其他競爭對手的差距日益加大。2013年,中國
    的頭像 發(fā)表于 04-17 16:59 ?674次閱讀

    基于視覺的微型觸覺傳感器DIGIT Pinki助力醫(yī)療行業(yè)發(fā)展

    據(jù)麥姆斯咨詢報道,近日,Meta AI、斯坦福大學(xué)(Stanford University)、德累斯頓工業(yè)大學(xué)(Technische Universit?t Dresden)聯(lián)合德國癌癥研究中心
    的頭像 發(fā)表于 04-16 09:19 ?616次閱讀
    基于視覺的微型觸覺傳感器DIGIT Pinki助力醫(yī)療行業(yè)發(fā)展

    斯坦福繼Flash Attention V1和V2又推出Flash Decoding

    斯坦福大學(xué)此前提出的FlashAttention算法,能夠在BERT-large訓(xùn)練中節(jié)省15%,將GPT訓(xùn)練速度提高2/3。
    的頭像 發(fā)表于 03-13 15:23 ?672次閱讀

    英偉達(dá)CEO黃仁勛:競爭對手的芯片免費也難以比肩英偉達(dá)GPU

    根據(jù)斯坦福經(jīng)濟政策研究所在會上發(fā)布的視頻,美國斯坦福大學(xué)Charles R. Schwab榮譽經(jīng)濟學(xué)教授John Shoven向黃仁勛提問: “貴公司是否能造出最尖端的芯片?
    的頭像 發(fā)表于 03-11 10:08 ?551次閱讀

    NVIDIA首席科學(xué)家Bill Dally:深度學(xué)習(xí)硬件趨勢

    Bill Dally于2009年1月加入NVIDIA擔(dān)任首席科學(xué)家,此前在斯坦福大學(xué)任職12年,擔(dān)任計算機科學(xué)系主任。Dally及其斯坦福團隊開發(fā)了系統(tǒng)架構(gòu)、網(wǎng)絡(luò)架構(gòu)、信號傳輸、路由和同步技術(shù),在今天的大多數(shù)大型并行計算機中都可
    的頭像 發(fā)表于 02-25 16:16 ?960次閱讀
    NVIDIA首席科學(xué)家Bill Dally:深度學(xué)習(xí)硬件趨勢

    維修斯坦福SR560可編程濾波器燒了overload

    近日某院校送修一臺斯坦福可編程濾波器SR560,客戶反饋儀器燒了 overload,對儀器進(jìn)行初步檢測,確定與客戶描述故障一致。本期將為大家分享本維修案例。 下面就是斯坦福-SR560維修情況
    的頭像 發(fā)表于 01-09 15:58 ?385次閱讀
    維修<b class='flag-5'>斯坦福</b>SR560可編程濾波器燒了overload

    可以用光子芯片計算下一代無線系統(tǒng)的最佳光形嗎?

    光學(xué)無線技術(shù)可能不再有任何障礙。米蘭理工大學(xué)與比薩圣安娜高等學(xué)院、格拉斯哥大學(xué)斯坦福大學(xué)共同進(jìn)行的一項研究使創(chuàng)建光子芯片成為可能,該芯片可以通過數(shù)學(xué)計算出光的最佳形狀,以最好地穿過任
    的頭像 發(fā)表于 12-01 09:49 ?329次閱讀

    美媒:美公司研發(fā)用鉆石改造傳感器,可避免雷達(dá)過熱

    為了解決過熱問題,雷神公司正在尋求將實驗室制造的鉆石與軍用晶體管和電路結(jié)合起來,因為鉆石以極高的導(dǎo)熱性著稱。該公司正與美國海軍研究實驗室、斯坦福大學(xué)和美國“鉆石鑄造”公司合作,生產(chǎn)特定結(jié)構(gòu)或晶格的人造鉆石。
    的頭像 發(fā)表于 11-30 16:54 ?701次閱讀