第一作者簡介:
孫銳,男,云南昆明(1986~)農藝師,云南煙草公司麗江市公司古城分公司,研究方向:?市場營銷、用戶畫像分析
1、云南煙草公司麗江市公司古城分公司
2、云南煙草公司麗江市公司
摘要:伴隨中國經濟高速發展人民生活水平也快速提升, 煙草作為重要支柱產業,產品結構與消費方式也在快速升級迭代。雪茄是消費方式升級中重要 的一種產品形態。本文以 “雪茄”為關鍵詞對 2017 年-2020 年微博數據進行抓取,?通過 Jieba 分詞以及 TF-IDF 關鍵詞提取方式,借助 word2vec 將關鍵詞進行向量表示, 融入時間維度分析微博用戶對雪茄產品關注熱點的時空演化,分析出社交網絡中對雪茄產品、體驗以及關注領域的變化。借助 SnowNLP以及 Sentiment Analysis?工具進行情感分析,反映出 2017-2020 年主要社交媒體中關于消費者對雪茄的情感走向、產品關注變化特征。
關鍵詞:雪茄、關注熱點、社會化網絡、時空演化
0引言
在消費升級的演化階段,消費者更傾向于選擇有文化內涵、 高品質、可融入自我標簽的商品。具備全葉型煙草的產品特征、品鑒儀式感強的雪茄, 為消費者帶來品味和身份的象征。從社交媒體中了解雪茄的消費關注熱點, 可了解我國目前市場的消費現狀和發展趨勢。楊春曉等人[1]通過構建卷煙在線評論情感辭典,進行卷煙在線評論的文本情感分析, 研究表明, 基于文本情感分析的情感傾向判斷和情感指數建立能夠起到動態監測消費者情感變化的作用。 金吉瓊等人[2]采用文本挖掘技術對我國電子煙產品的消費者關注熱點進行研究, 為煙草企業設計和優化電子煙產品提供支持。目前基于大數據對雪茄這一商品的情緒調查和分享偏好分析鮮見。
1958 年,Luhn[3]第一次開啟了以詞頻為特征的統計標引方法, 隨后關于情感分析的應用研究蓬勃發展。卓佳怡等人[4]在研究公文用戶畫像時, 進行了 TF-IDF算法提取關鍵詞, 根據用戶已處理的公文內容, 對處理文本進行相關性分析。曾小芹等人[5]首先運用 Selenium 爬蟲抓取評論文本,通過 Jieba 分詞工具對文本進行分詞、詞性標注及關鍵詞詞云的生成 ,再選用適用于中文文本處理的snowNLP 庫對評論文本進行情感計算和結果可視化。陳興蜀等人[6]基于分布式爬蟲技術、 SnowNLP 情感分析模型以及 KMeans 文本聚類算法,對與“新冠肺炎疫情”相關話題展開輿情分析, 可視化地展現疫情事件中網絡輿情的時空演化過程。
近年來關于社會網絡分析的相關研究正逐步進入成熟階段,社會網絡分析方法被廣泛應用到社交網絡、文獻計量、在線教育、輿情分析、社會資本、城市網絡等領域。黎耀奇,謝禮珊[7]指出社會網絡理論不是對管理學理論的批判與取代,而是一種建設性的深化與補充。?Word2Vec 是被廣泛使用的詞向量模型,李明超等人[8]基于自然語言處理技術,引入 Attention 機制對 Word2vec?技術加以改進,提出了一種智能高效的水利水電工程專業詞識別提取與分析方法。
本文從互聯網媒體平臺當中的信息挖掘開始,結合圖片和文本情感分析平臺, 發掘出檢索文本當中的情感因素, 喜好因素以及品牌因素, 將情感分析與時間變化結合,獲得了在一定時間刻度變化內人們對于雪茄情感變化的線上反映,最后綜合人們在社交媒體上展現的基于雪茄關鍵詞反映出來的特征, 為當下的雪茄消費環境以及消費趨勢評估提供了新視角以及分析方法。
1研究方法與手段
1.1方法流程
圍繞2017 年-2020 年的“雪茄”關鍵詞原創微博數據進行抓取,將數據進行文本清洗后存入數據庫,通過 Jieba?分詞以及 TF-IDF?關鍵詞提取,借助word2vec?將關鍵詞進行向量表示, 創建雪茄關鍵詞網絡矩陣,融入時間維度分析微博用戶對于雪茄產品的關注度變化情況, 得出對于雪茄產品、體驗以及關注領域變化。借助 SnowNLP 以及 Sentiment Analysis 工具對微博數據進行情感分析, 將微博用戶對于雪茄的情感變化與產品、體驗和關注領域進行關聯, 得出微
博用戶 2017-2020 年關于雪茄的情感走向、產品關注變化特征, 尋求中式雪茄精準的切入點。
1.2數據采集
通過算法來優化數據爬取的方式, 使用廣度優先搜索策略, 以最短路徑分析深層次的資源數據,減少數據搜集成本。具體過程是首先確定少部分 URL 作為 子結點, 存儲在待抓取的 URL 隊列中, 然后到對應的 URL 站點下載相應的頁面數據信息, 當這些 URL 被抓取成功后, 把它們放入已經抓取的 URL 隊列中, 然后再抽出新的鏈接地址,進行頁面數據挖掘。
1.3研究方法
文本聚類,TF-IDF?(termfrequency–inversedocumentfrequency) 是一種用于
資訊檢索與文本挖掘的常用加權技術。以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正
比增加, 但同時會隨著它在語料庫中出現的頻率成反比下降。 TF-IDF 加權的各種形式 常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。
2研究結果
2.1社交媒體平臺上關于“雪茄”語句的情緒部分
使用 SnowNLP?將抓取得來的數據進行標記以及數值標定, 在情感詞語標定的結果為-1 時,情感較為負面,在情感詞語標定結果為 0 時,情感偏向于無感,情感詞語標定的結果為 1 時,情感較為正面。將研究時間段(2017 年 1 月 1 日-2020 年 6 月 16 日) 按照季度進行分隔,得到正向、中立、負面的情緒所占比例,將所得到的的情感變化趨勢進行圖形化表現,結果如圖 2 所示。
2.1.1整體情緒
在情感分析數值圖中可以看出,整體接受情況較為樂觀, 所有帶有“雪茄” 關鍵詞的微博條目當中,表示負面情緒的微博條目比較穩定,從 2017 年 1 月 1日-2010 年 6 月 16 日,大眾的情緒表示中性的部分占 57.24%,情緒表示正面的部分占 33.01%,情緒表示負面的部分占 9.75%。從微博情緒反應來看, 目前的雪茄輿論環境較為穩定,整體偏向正面。
2.1.2情緒波動
數據呈現 2019 年第三季度有過負面情緒增長, 從 2019 年 Q2 的 11.21%增長到2019 年 Q3 的 13.31%。配合當時中立情緒以及正面情緒的下跌,說明在 2019年第三季度, 在雪茄關鍵詞的微博輿論當中有過一次行業事件發生, 配合文本聚類方法,發現有部分負面事件引發熱議,多家媒體進行跟進報道,配合 2019 年的控煙政策以及對于網絡媒體當中煙草內容的控制,引發了當時情緒的短暫波動。?熱度平息后, 雪茄微博輿論在下一季度歸于正常。 2019 年 Q4 雪茄的負面情緒回歸到?9.79%,回歸均值。 從社交媒體整體輿論波動來看, 當前雪茄消費體量較小、討論度較弱, 缺乏對雪茄消費方式的正確分享, 同時, 雪茄作為煙草制品受到輿論監督,雪茄消費更需要有正確、合理的培育。
2.2社交媒體平臺上關于雪茄“味道”的關注變化
使用文本聚類方法, 將雪茄詞語設置為關鍵詞語, 從關聯詞語當中挑選出與味道、味道形容詞相關的 67 個味道關聯詞, 形成味道詞庫。之后從味道詞庫當中按照時間順序進行匹配,得到 2017 年 1 月 1 日-2020 年 6 月 16 日的味道變化。
2.2.1整體味道表示
含有雪茄關鍵詞的社交媒體詞句當中, 出現最多的詞語順序如圖 3 所示。其中咖啡、威士忌、巧克力是前三位關鍵詞。咖啡的關注熱度為 7.28%,在味道的配伍性上, 咖啡與雪茄有高“味道配伍性”,在場景上有 “場景配合度”。威士忌的關注熱度為 4.52%。數據顯示兩個關鍵詞在關注話題中交替式出現,出現“威士忌”的場景通常不出現“咖啡”。香味的關注熱度是 4.30%, ?“香味”與其他具體香型描述引出對雪茄味道的認知。雪茄作為嗜好品, 味道是雪茄客在分享雪茄相關語句時最主要的屬性詞語, 也是消費者的關注熱點維度。鑒于“咖啡”以及“威士忌”出現的頻率占比和詞語的特殊性, 選擇用文本聚類的方式針對這兩個詞語進行進一步的關聯性分析。具體關聯性分析可反映雪茄客的消費場景以及 味道喜好度。
2.2.2“咖啡”的二級關鍵詞分析
咖啡通常與味道的搭配詞語一同出現, 帶有咖啡的語句當中, 關鍵詞呈現主要分為兩個部分: 雪茄產品描述關鍵詞以及味道描述關鍵詞。雪茄產品描述關鍵詞偏向于味道、尺寸、產地、口感、濃度等,味道描述詞語偏向于奶油、濃郁、胡椒、巧克力、可可、混合等。這兩種詞語的高頻出現,展現出咖啡的配伍性,無論是雪茄客在社交媒體上談論雪茄產品的本身,或者是談論雪茄的味道配伍,可與雪茄產生高頻次的關聯。數據顯示也說明咖啡與雪茄有消費場景與消費熱點的關聯。
2.2.3“威士忌”的二級關鍵詞分析
威士忌通常與生活當中的情感詞語搭配出現, 帶有威士忌的語句當中, 出現最多的是麥芽, 強調威士忌的香味屬性, 其次出現的關鍵詞僅為與生活屬性關聯的情感相關。帶有威士忌的語句當中,出現更多的詞語為:麥芽、人生、分享、旅行、酒吧、感覺、音樂、點燃、葡萄酒、搭配、口感。 當出現威士忌時, 雪茄客們更樂于談論關于雪茄產品之外的事物, 更加在意場景, 更加在意自身的愉悅。這也顯現出威士忌與咖啡決然不同的表達方式, 具體表現為在詞語的描述當中咖啡與威士忌互相補充。
2.3社交媒體平臺上關于雪茄“地域”的關注變化
使用文本聚類方法, 將雪茄詞語設置為關鍵詞語, 從關聯詞語當中挑選出與地域形容詞相關的 30 個味道關聯詞,形成地域詞庫。之后從味道詞庫當中按照時間順序進行匹配,得到 2017 年 1 月 1 日-2020 年 6 月 16 日的地域變化。 ?在所有帶有雪茄關鍵詞地獄特征的語句當中, 主要出現的地域名詞以古巴、美國以及中國為主。其中的特征為:
(1) “古巴” 31.99%熱度比: ?“古巴”是雪茄討論當中最常見詞語。在關聯詞當中, 古巴處于關聯詞的中心地帶。 與古巴優質雪茄煙葉的消費認知有一致性,說明雪茄原料與消費文化傳承仍是消費的關鍵關注熱點。
(2) “美國” 6.19%熱度比: ?“美國”是第二提及的詞語, 與中國、上海、尼加拉瓜、北京、俄羅斯、法國組成第二梯隊。在關聯性當中處于外圍地帶, 有部分雪茄描繪詞語與之關聯。
(3) 中國相關地域關鍵詞 4.83%熱度比:“上海”作為一個地域關鍵詞,頻率超過“尼加拉瓜”,成為緊跟中國出現的地域關鍵詞。 推測判斷上海作為國際金融中心, 消費者對于雪茄的認知水平及消費能力較國內其他城市較好, 也顯示當下雪茄消費文化受外來文化影響較大。而 “中國”這一整體地域在提及中國的語句當中, 沒有出現雪茄產品品類以及香味品類的關聯詞語, 中國雪茄在社交媒體上的討論還沒有形成規模,處于等待開發的狀態。
2.4社交媒體平臺上關于雪茄語句的“生活追求”部分
使用文本聚類方法, 將雪茄詞語設置為關鍵詞語, 從關聯詞語當中挑選出與生活追求相關的 30 個味道關聯詞,形成生活追求詞庫。之后從生活追求詞庫當中按照時間順序進行匹配, 得到 2017 年 1 月 1 日-2020 年 6 月 16 日的生活追求討論變化。 在涉及到生活品質的討論當中, 主要呈現出的是雪茄客在社交媒體當中對于生活品質以及生活追求方向的展示,僅以特征出現作為討論。
雪茄產品類: 強調雪茄的手工卷制屬性, 在意雪茄的型號區別, 注重雪茄的頂級品質, 強調雪茄的收藏屬性, 同時也對定制版雪茄產生了濃厚的興趣。生活追求類: 在意生活品質, 在意產品的文化, 樂于分享, 追求完美, 喜歡高雅的事務,?喜歡文玩, 經常在高檔酒店出沒, 喜歡頂級以及高端的東西, 追求精致, 喜歡收藏, 喜歡自己的俱樂部。職業方面: 以律師和攝影師為主, 暫沒有出現其他的職業類別。
2.5社交媒體平臺上關于“雪茄”語句的國產雪茄部分
使用文本聚類方法, 將雪茄詞語設置為關鍵詞語, 從關聯詞語當中挑選出與國產雪茄相關的 30 個味道關聯詞,形成國產雪茄詞庫。之后從國產雪茄詞庫當中按照時間順序進行匹配, 得到 2017 年 1 月 1 日-2020 年 6 月 16 日的國產雪茄討論變化。
2.5.1國產雪茄在社交媒體上的關注熱度
在當前的社交媒體討論當中, 國產雪茄出現的次數相較于雪茄的數據體量而言較弱。當前活躍在社交媒體上的雪茄客對國產雪茄的討論較少。在國產雪茄的討論當中,“長城”雪茄的關注度較高,其他國產雪茄品牌的關注熱點脫離出0.2%的基準線。整體來看, 國產雪茄的討論數量依然偏少, 國產雪茄社交媒體討論還有很大的發展空間。
2.3.2.1國產雪茄討論熱度的增長趨勢
從 2017 年-2020 年,國產雪茄的討論發展當中 “長城” 品牌有較大的增長,其他的國產品牌討論熱度變化較小,均小于 1% 。“長城”之外的國產雪茄并未形成討論, 輿論基礎尚未形成。 “長城”品牌已經開始逐漸發力, 與其余國產雪茄品牌拉開較大差距,且增長趨勢較好,未來發展空間較大。
3研究結論
本文采用了分布式爬蟲對于在社交媒體當中帶有“雪茄”關鍵詞的原創語句進行爬取,利用關鍵詞段去重的方式進行了初步的清洗,利用jieba 分詞器進行 分詞,使用 IF-TDF算法進行聚類,并且使用 word2vec 對聚類后的文本進行向量表示,后優化 SnowNLP對文本進行情感分析,最后將得到的詞語分類為五個部 分, 配合上時間段的變化, 分析出雪茄客在社交媒體當中, 對于以“雪茄”為關鍵詞里, 對于不同呈現板塊的情緒變化以及關注點轉移情況。研究發現的意義主要有以下幾個方面:
(1) 雪茄客在社交媒體當中發布的語句類型,可以歸類于以下五種:地域類、生活追求類、香型類、雪茄產品類以及國產雪茄部分。這五個部分結合分析呈現出消費者對雪茄認知的整體情緒。數據顯示目前人們對于雪茄行業的情緒整體較為正面且相對比較穩定,目前的情緒利于雪茄消費市場增長及雪茄品牌的培育。
(2) 通過聚類算法的分析, 分析出目前雪茄客們對于雪茄香味的搭配上的喜好 程度, 按照高低排名分別是“咖啡”、“威士忌”以及“巧克力”。咖啡以及威士忌與雪茄具有高度的味道配伍性, 是場景搭配當中出現最多的單品; 在地域上,仍以古巴為主, 大部分的雪茄討論都會帶上古巴的地域標簽, 關于中國的地域討的國產雪茄還未形成討論習慣,只有長城品牌被少數提及并出現一定討論熱度; 在生活品質類, 雪茄客們呈現出在意生活品質, 在意產品的文化, 樂于分享, 顯現出生活品質消費場景的升級趨勢; 在雪茄產品的討論上, 更趨于關注手工雪茄,并專注于雪茄的產品細節與生活場景的匹配度特征。
(3) 通過增加時間維度進行的變化特征來看, 在香味的變化上, 咖啡的熱度持續高昂表現出其與雪茄味道的強匹配度,而威士忌味道的持續增加表明對于雪茄的追捧正在逐漸往高品質化以及場景化變遷; 在地域的變化上, 古巴雖然占據很大的討論熱度比, 卻已經呈現出持續下降的趨勢, 消費者對于雪茄產地的興趣已經持續減弱; 在國產雪茄討論熱度的變化上, 長城品牌的線上討論熱度正在持續發力, 其他三家品牌尚待培育; 在生活品質的討論中,雪茄消費人群的高品質追求特征并沒有隨著時間而變化,一直維持在追求生活品質的特征維度。
(4) 麗江作為國際旅游城市,開放包容的消費文化與旅游文化為雪茄消費提供發展空間。隨著國產雪茄當下亟待發展的產業環境,麗江為例的獨有特征旅游城市具備國產雪茄品牌培育的基礎條件。
[1]楊春曉,張鶴馨,黃家雯,萬江平.卷煙在線評論的文本情感分析[J].中國煙草 學報,2020,26(02):92-100.? ?
[2]金吉瓊,劉鴻,鄭賽晶.基于在線評論文本挖掘技術的電子煙市場消費熱點分?析[J].煙草科技,2019,52(12):106-114.
[3]LuhnHP.Theautomaticcreationofliteratureabstracts[J]. IBM Journalofresearchanddevelopment,1958,2(2):159-165. ??????????????
[4]卓佳怡,于勁松,張力文,王浩然,吳聰,張舒,宋悅.基于 TF-IDF 算法的公文用?戶畫像[J].辦公自動化,2020,25(17):61-64.
[5] 曾小芹,余宏.基于 Python?的商品評論文本情感分析[J]. 電腦知識與技?術,2020,16(08):181-183.? ? ? ?
[6]陳興蜀,常天祐,王海舟,趙志龍,張杰.基于微博數據的“新冠肺炎疫情”輿?情演化時空分析[J].四川大學學報(自然科學版),2020,57(02):409-416.? ? ??
[7]黎耀奇,謝禮珊.社會網絡分析在組織管理研究中的應用與展望[J].管理學?報,2013,10(01):146-154.
[8]李明超,田丹,沈揚,JonathanShi,韓帥.融入 Attention 機制改進 Word2vec技 術?的 水 利 水 電 工 程 專 業 詞 智 能 提 取 與 分 析 方 法 [J]. 水 利 學報,2020,51(07):816-826.
2025中國雪茄(四川)博覽會暨第七屆“中國雪茄之都”全球推介之旅