2、標簽也可以說是關鍵詞標簽,有利於搜索和查找。但是tag也不同於普通的關鍵詞。用關鍵詞搜索時,只能找到文章中提到的關鍵詞,而tag可以標記文章中根本沒有的關鍵詞。比如我可以把上面這篇文章貼上“數據”或者“歷史”的標簽,當然更多時候貼上的是“物理”的標簽。然而,如果我用“數據”來標記它,我可以將所有信息豐富的文章聯系起來。
參考:真的,踩網不著痕跡
那麽,什麽是標簽呢?很簡單,往下看;
經典信息結構模式;
在傳統的網頁構成中,我們通常使用分類法來總結、整理和存儲我們的信息。圖書館就是壹個很好的例子。所有的信息都是從壹個點出發,形成樹狀的分類,從而形成壹個完整的、相互關聯的邏輯體系。
這個系統從壹開始就是人工分類形成的,當我們需要搜索的時候,幾乎不需要太大的努力;
【舉例】比如我們的博客,先有壹個主標題,然後分成幾個類別,實際的文章分類存放在這些不同的類別中;壹般情況下,我們不允許壹篇文章同時存在於多個類別中,這樣便於我們的管理和檢索的唯壹性;
在互聯網上,dmoz和wiki就是典型的、眾所周知的例子。
分散等級的信息合成模式;
看似無序的浩如煙海的信息,大部分是用“語言”來描述的,語言顯示了這些信息的方向性,所以我們可以通過提取這些語言(文字和文本)的相同部分來獲取相關信息;這些信息在平時是完全松散的,互不關聯的,只有在我們提取的時候才呈現出相對緊湊的組織結構。即便如此,與經典的分類結構相比,這種結構仍然足夠分散。
【舉例】妳可能想到了,谷歌。目前大部分搜索引擎都依賴於此,所以對分詞的研究壹直是這些搜索引擎的重點和痛點。拋開其他,僅邏輯實證主義和普通語言哲學這兩個當代流派,就足以讓他們折騰到下個世紀。
舉個惡搞的例子:當我說“fuck”的時候,壹個只搜索關鍵詞而不關心其在日常語言中的實際使用的搜索引擎怎麽知道我是在咒罵還是在陳述壹個屬性化的事實?更有甚者,我們經常會在谷歌上面對成千上萬的搜索結果,這些結果與關鍵詞原本的語義要求完全不同。
[簡介]
邏輯實證主義:認為人類日常語言充滿謬誤,需要徹底拉平,重建數學那樣完美的邏輯語言體系;
普通語言哲學:他認為人類的日常語言是非常合理和現實的,“完美”的邏輯語言是不存在的,不符合現實的;唯壹的問題是,人們在使用日常語言時存在壹些方法論問題,需要我們關註和研究。
(後者是我傾向於認同的結論。)
符合未來發展的信息構成模式;
現在,當我們綜合考察上述兩種在日常生活中日益重要的信息構成模式時,會發現它們各有利弊。
對於前者來說,語言表達和內涵的思想是粗放的,簡單的分類邏輯無法解讀和識別壹篇文章設計的所有重點,而復雜的分類則會陷入無限的微觀悖論邏輯;
對於後者,除了分詞的麻煩,谷歌或許還希望肩負起教大家重建日常語言學分的重任,要求大家達到維特根斯坦的高度。
路德維希·維特斯坦根?順便說壹下,這終於回到了我們的觀點。
維特根斯坦本人先後是邏輯實證主義和普通語言哲學的創始人,在他後期的日常語言思想中,提出了壹個比較熟悉的觀點:家族相似性。
這裏引用壹段話作為壹般性解釋:
維特根斯坦站在“反本質主義”的立場上反對詞的定義。本質主義者認為同類事物之所以成為這樣的事物,是因為它們具有相同的本質(* * *相),定義就是規定事物的這種本質。而維特根斯坦則認為事物根本沒有* * *性質,只有“家族相似性”。所謂“家族相似”並不是* * *的相似,而是在某壹方面或另壹方面的不完全相似。例如,壹個家庭的壹些成員有相似的眼睛,壹些有相似的表情,壹些有相似的臉。所以維特根斯坦堅持壹種唯名論的立場,認為人們在日常生活中使用壹般的名詞概念只是為了方便,本質和* * *等形而上的東西是不存在的。如果妳把這些東西誤認為存在,妳就會得壹種“哲學病”。
好吧,看到了嗎?那些相似點就是標簽(tag);本質、反本質、家族相似在上面的引語中隨處可見,我們可以把它們作為範疇、碎片、標簽隨處閱讀和理解。
Tags表明了傳統分類學的立場,就像普通語言哲學對黑格爾體系的看法壹樣,要求將古典哲學所追求的目標,如普遍性、統壹性、唯壹性等解體,用碎片化的結構取而代之。這些片段之間的聯系只存在於人們需要的時候。
標簽,具有碎片的語義色彩和哲理的戰鬥力,是主動而非被動形成的,是主動聚合而非等待被動檢索的,形成過程經過了人工篩選,相對更符合日常語言的正常使用;比如全世界關於“SMTH”的信息,雖然有些文章沒有寫壹個人物涉及SMTH,但它描述的事實確實與此有關。
如果脫離哲學,Tag其實和傳統的分類、搜索關鍵詞有著相同的特點,同時也消除了它們各自方面相當壹部分的缺點和弱點。
需要指出的是,從現有的應用和理論分析來看,分類、標註和無序關鍵詞有不同的應用範疇;對於微觀的、少量的信息,分類就夠我們用了;對於海量的、無邊無際的無序信息,關鍵詞可能是現階段應用最廣泛、被普遍接受的組織模式;兩者之間,對於足夠大的信息群,系統性要求和準確性要求較高的,Tag可能是最佳選擇。
在博客中使用標簽?
如果有人惡意使用標簽,會讓標簽變得毫無意義,類似於mata標簽中強行添加無數與網頁本身完全無關的關鍵詞的無聊之舉,以及後來到處散布冗余鏈接的小P孩;當然,在壹個開放且受歡迎的論壇中使用標簽在技術上沒有問題,但這可能不是壹個好主意,尤其是在中國。
相對而言,博客的擁有者對自己的博客更負責,可以對自己博客上發布的信息進行仔細的篩選,或者進行評論和傳播,因此在博客上構造標簽對信息進行排序具有積極的意義;
但對於個人博客來說,Tag意義不大——因為作為個人發布源的信息容量太小;如果壹個博客需要壹個標簽,它必須針對廣泛的用戶。適合的情況有兩種:壹種是擁有數萬用戶的多用戶博客網站,壹種是基於XML的聚合網站;
無論如何,Tag針對的是大信息容量的排序問題,有助於用戶在這些龐大的庫存中準確定位符合語義信息的節點,而不是針對個人博客信息的排序問題;
標簽,無序信息,標簽和分類,上面的分析可以算是哲學領先於科技的典型例子,至少看國內的應用,沒有相關的開發項目;
BXNA的博客聚合還是靠分類,據說是嘗試進入分詞領域,但這確實對BXNA聚合的信息存疑;其他標簽服務提供商不直接支持博客;
誰能吃這麽大的蛋糕?作為先鋒技術領導者?博客程序的提供者?還是首都的主人?我個人認為,擁有廣泛用戶基礎的聚合服務提供商或博客提供商,首先會發布基於Tag的主動聚合平臺或基於TrackBack的被動聚合平臺,或許在未來,自然會成為資本的擁有者。
最後,Tag的具體開發和管理技術超出了本文的範圍。請參考其他相關文章。