论文部分内容阅读
垃圾郵件常包含產品名稱與價格資訊,或是夾帶名人的名字,本論文探討專有名詞詞彙辨識在垃圾郵件偵測上的運用,利用專有名詞辨識技術搭配資料探勘工具,探討對垃圾郵件偵測的影響。本論文利用英文、繁體中文及簡體中文等3種文字內容的電子郵件樣本,統計240個出現頻率較高的詞彙作為特徵(屬性),另外加上7種專有名詞作為特徵(屬性),包括:人(人名)、時(時間)、地(地點)、物(產品、物品)、百分比(%)、錢($)及數字(number)等專有名詞。搭配資料探勘工具,分析垃圾郵件辨識之正確率。