企业面向微博客采集竞争对手情报的策略研究-需求-火龙果软件工程

企业面向微博客采集竞争对手情报的策略研究

来源：论文工厂发布于 2015-11-12

次浏览

摘要：从企业竞争对手情报采集与微博客使用相联系的角度出发，分析了竞争对手情报的基本类型以及在微博客上的数据信息模块，在此基础上构建了企业面向微博客采集竞争对手情报的系统框架，提出了企业面向微博客采集竞争对手情报的主要模式和具体采集策略，以期为企业在利用现代互联网社区采集竞争情报方面提供理论支持和实践指导。

关键词：企业；微博客；竞争情报；竞争对手；采集策略

微博客是一种基于用户关系，能够实现即时信息交互的社会化网络服务。微博客利用无线网络、有线网络、通信技术实现全方位通信，即可实现 Web 页面、手机、IM接收和发送信息。微博客作为网络时代的一种新兴产物，以其通俗、简易、方便、快捷等特殊优势，已经成为继社交网站、博客之后的又一大互联网社区交流平台，也让人们的网络生活实现了质的飞跃。

根据中国互联网络信息中心（ CNNIC）发布的《第29 次中国互联网络发展状况统计报告》提供的最新数据显示，截至 2011 年 12 月底，我国网民规模已达到 5. 13亿。美通社发布的《2011 中国企业新媒体应用调查报告》显示，77%以上的受访企业已开设官方微博客，其中半数获得认证。目前，大多数企业利用微博客进行产品营销、人才招聘、企业形象宣传方面的服务，微博客网站成为信息和情报的汇聚点，可以看到，微博客的出现开辟了一条采集企业竞争情报的新渠道。

通过对竞争情报的采集分析，企业不仅可以对竞争对手的综合实力进行评估，还可以掌握竞争对手的战略规划与最新动态，及时对竞争对手的行为作出预测，为企业制定战略提供依据，为企业快速应对竞争对手经营策略提供指导。因此，如何使用微博客对竞争对手情报进行采集分析是企业面临的一项艰巨而紧迫的新课题。

2006 年全球第一个微博客网站 Twitter 正式出现，2009 年新浪微博的上线则被普遍认为是我国微博客正式运营的成功标志，由此也展开了国内外对微博客的研究和关注。B. J. Jansen 和 M. Zhang 等人通过对 Twitter 中 15 万条微博信息的分析发现，大约 3. 8% 的微博信息对品牌表达了具有感情色彩的评价。研究认为，微博客网站可以被企业视为市场营销、客户关系管理以及口碑传递的有效平台。E. Fischer 和 Reuber 讨论了社会化交互的运行机制和影响因素，发现通过使用 Twitter 这样的社交媒介能够影响企业家的行为，使他们对现有的市场机会进行重新认识和评估。H. Rui，A. Whinston 和 E. Winkler 通过对Twitter 上关于产品信息的关注，可以帮助企业预测产品销量并对产品做出适当及时的改进。国内学者对这一领域的研究刚刚涉猎，研究的内容主要围绕在微博客营销与微博客的媒体传播力两个方面，已取得了一些探索性研究成果，如金永生与王睿等对于企业微博客营销的效果进行了评估，并提出了将企业微博运营作为长期品牌建设的战略。王金礼、魏文秀对微博、媒介、公众的议程互动进行了探索性研究。李林荣、黎薇探讨了微博的文化特性及传播价值等。这些研究成果为这一领域的深入探讨奠定了良好的理论基础。但应该看到，关于企业面向微博客采集竞争对手情报的具体策略研究尚未引起关注，基于以上研究背景和不足，笔者选择面向微博客采集企业竞争对手情报的策略进行研究，以期在理论和实践上进一步丰富和完善企业竞争情报采集的策略与方法。

1 竞争对手情报的类型与信息模块解析

1. 1 竞争对手情报基本类型竞争对手情报是有关企业竞争对手的信息，主要包括竞争对手在新产品研发、产品价格、分销策略、促销方案、财务状况、技术水平、业务伙伴及网络建设和使用等方面的信息。

本文根据企业所需竞争对手情报的内容，将竞争对手情报划分为以下几种类型：竞争阈、竞争对手目标、竞争战略、竞争能力、竞争行为预测 5 个方面，如图1 所示。

竞争阈是指由于竞争对手所处的竞争环境和竞争优势的不同，竞争对手会存在于现实和潜在两种形态阈中，对竞争阈的界定可以采用行业分析和价值增值链分析的方法，通过竞争对手对逆向供应链和正向终端使用者之间的垂直整合程度以及价值链中外包活动的分析，识别现实和潜在的竞争对手以及所处行业。竞争对手目标包括长期目标与短期目标，这里所提及的目标指竞争对手的目标组合，主要包括企业的利润目标、市场份额增长、现金流量、获利能力、技术领先、服务领先以及其他目标的相对权重。竞争战略包括明确战略与游离战略，明确战略是指企业能够通过对竞争对手各个方面的言行加以确认的战略（如生产战略、销售战略、财务战略等） ; 游离战略是指那些并未明确表述或难以明确界定分类，介于游离状态且有着重要作用的战略。竞争对手能力包括现金储备能力、留存借贷能力、新产品的研发能力、成本管理能力、复杂产品的管理能力、成长能力、快速反应能力以及融资能力等，这些能力虽然也是基于企业各节点的表现而衍生，但可能在竞争对手的价值链分析中却难以直观体现。这就要求我们用广度的信息关注企业各方面的能力表现。竞争行为预测是对竞争对手的反应模式进行估计和判断，对竞争对手的行为方式和应变反应作出预测，可以帮助企业辨识竞争环境，从而有针对性地采取有效措施。

竞争对手情报在微博客上以一定的信息元形态存在，基于微博客承载信息资源的独特性，其主要表现如下： ①文本。它是微博客信息的主要表现形式，也是微博客上竞争对手情报的主要载体，微博客上对于文本的字数一般限定在 200 字以内，使其更加类似于手机短信的编辑，因此，微博客的文本情报具有很强的时效性与真实性。②图像。是一种直观与生动的观点、态度的情报表达方式，较之文本形式的表现形式来说，在意蕴的表达上较为含蓄，是一种具有特殊功能的视觉信息。③音频。是一种强烈的情感诉求的表达方式，以声音为载体，在微博客中它倾向于体现信息发布者的情感诉求。④视频。是包含文本、图像、声音等技术的小容量的具有动态播放效果的信息形式，信息内容更为丰富并有效地突破微博客对字符的限制。⑤超链接。从某种程度上讲，它是一种包括文本、图像以及视频、音频等情报在内的简易化的情报表现形式，对于有一定的关联性情报源，超链接能够将其有效地联系在一起，成为一种桥梁与纽带。

1. 2 竞争对手情报采集信息模块以微博客为载体，以信息元为基本单位的数据信息模块，根据竞争对手情报采集和分析的需求，本文将数据信息分为以下 3 类模块。

1）博主信息模块。博主信息模块由基本信息、扩展信息、关注信息和博文信息 4 部分组成。①基本信息。指博主的身份标识信息，如用户 ID、是否经过认证、用户编号或用户域名、城市、用户链接、个人描述等，这些信息对用户有标识作用，是竞争对手情报分析的信息借口，尤其对现实竞争对手的识别具有显著的作用。用户编号对于非实名认证用户与用户域名作用相同，对于实名认证用户，则通过用户编号实现用户页面跳转。②扩展信息。企业信息、签名档、博客地址、邮件地址、标签、粉丝数等。③关注信息。博主关注的其他用户账号、关注数量、关注话题以及与博主保持交互关系（指设定期限内与博主相互评论、转发行为）的好友信息等。④博文信息。指微博正文、微博附属信息（如发布渠道、时间、回复、转发和评论次数、引用信息等）。这是竞争对手情报分析的核心，通过微博正文和微博附属信息解析，可以构建出企业竞争对手的社会互动网络，辨识现实和潜在竞争对手。

2）粉丝信息模块。粉丝信息模块指关注博主的用户信息，由基本信息、扩展信息和博文信息三部分组成。

基本信息。粉丝的用户 ID、是否经过认证、真实姓名等。②扩展信息。企业信息、签名档、博客地址、粉丝数量邮件地址、标签、关注的话题、发文数量等。③博文信息。粉丝的微博正文信息（包括转发、回复、评论等）。

3）追踪信息模块。根据企业采集情报的特定主题和目标，确定关键词，通过调用微博客 API 进行实时和多关键词组合搜索，并利用设定的参数对搜索结果进行排序显示。追踪信息包括基本信息和博文信息两部分。①基本信息。通过关键词和话题搜索找到的列表用户的标识信息，如用户 ID、用户编号或用户域名、用户链接等。②博文信息。通过关键词和话题搜索找到的完整博文。

2 采集竞争对手情报的系统框架与主要模式

2. 1 采集竞争对手情报的系统框架根据企业面向微博客采集竞争对手情报的实际战略规划，本文设计了采集竞争对手情报的系统框架，系统共分为 3 层，即数据层、采集层和存储层（如图 2 所示）。

数据层，即企业采集竞争对手情报的数据信息模块，这是企业情报采集的基础。以文本、图像、音频、视频以及超链接等信息元所形成的微博客海量数据，由博主信息模块、粉丝信息模块和追踪信息模块组成，信息模块中蕴含着企业所需的竞争对手情报，企业通过甄别具体情报的数据特征，对信息模块进行监控、采集。

采集层，即企业采集竞争对手情报的基本程序和模式。通过对目标主体、信息模块的权重、信息元的种类等进行综合评判，从而选择数据采集的具体模式。采集的基本程序为：首先获取信息资源，其次对网页进行解析，最后进行情报数据的聚类，将加工后的数据放入存储层。

存储层，即将加工过的情报数据进行存储的数据库，以备后续决策使用和分析。

2. 2 采集竞争对手情报的主要模式目前由于企业自主开发微博客服务平台受到技术、资金以及知名度等不利因素的限制，因此短时期来看，企业自主开发微博客还不具有现实性与可行性。从我国的实际运行情况来看，借助主流的微博客平台（如新浪、腾讯、网易、搜狐等）进行情报搜集将是企业的明智选择。根据本文对微博客数据信息模块的分类和采集系统框架的设计，采集竞争对手情报将主要有两种模式可供企业选择。

2. 2. 1 交互式主动采集模式交互式主动采集模式是指企业根据自身对于竞争对手情报的需求情况，借助微博客上建立起来的人际与社会网络，以手机、即时通信工具和外部 API 接口为交互手段，通过积极主动引导的方式采集竞争对手情报。这种情报采集模式基于微博社区的非正式交流网络的结构特点以及存在的信息非对称性，通过 “关注模式”和 “对话模式”进行互动，例如企业通过对竞争阈的主体进行关注，组建 “微博客群”、发布具有吸引力的 “微话题”等方式，及时与微博客 “粉丝”进行互动，有目的地引导他们对于竞争对手相关情况做出回应。

为了使搜集的情报更加真实与全面，企业可以从企业官方微博客与员工个人微博客两个角度同步进行竞争对手情报的采集。这种采集模式的数据内容大多以博主信息模块和粉丝信息模块为主，以追踪信息模块为辅，具有很强的针对性与集中性，能够使企业以最低的成本、最快捷的方式获得情报，从而及时掌握竞争对手的市场反应度以及消费群体的消费反馈，做出相应的战略调整。交互式主动采集模式要求企业情报采集人员必须能够有效利用微博客的标签等功能建立并不断拓展交际网络，通过情报联系，建立一种比较松散的契约关系，从而为彼此所用，但是，情报采集人员必须对企业自身可供交互的情报底线予以明确。

这种情报采集模式要求情报采集人员采取相应的策略提高微博客的受关注度，通过微博客的标签功能识别目标群体，发布的 “微话题”既要能满足企业需要又能够吸引目标群体关注，并且要及时关注与回复消费者对主题的回应，进行即时互动和引导。

2. 2. 2 定向式被动采集模式定向式被动采集模式是指情报采集人员通过对竞争对手情报主要来源的目标主体（如竞争对手、主要消费者群体以及品牌代言明星等）进行锁定，利用既有的快捷工具采集竞争对手情报的模式。

这种采集模式的数据内容以追踪信息模块为核心，以博主信息模块和粉丝信息模块为辅，采集范围广泛，能够使企业全面了解竞争对手的情况，而且在采集过程中经常会获得竞争对手的边缘情报，从而使企业及时掌握竞争对手的最新动态。例如使用微博客的搜索功能和智能订阅等方式，进行目标主体行为的常规监测、跟踪与分析。这种模式采集的竞争对手情报包括他人（包括竞争对手、消费者等）发布的竞争对手相关 “微话题”、竞争对手微博客主页、微博客口碑、微博客招聘、微广告等情报。定向式被动采集模式要求情报采集人员能够熟练使用微博客支持的快捷工具，关注知名度与活跃度高、会员数量多的微博客，并且对于热点问题进行准确把握和追踪，明辨具有采集价值的竞争对手情报。情报采集人员必须明确竞争对手情报的数据类型，准确锁定与跟踪情报源。

3 基于采集程序的采集策略

3. 1 订阅式智能采集与自主采集的结合策略微博客非结构化的信息特点使企业进行信息采集时，应优先考虑利用全球近百个 Web Archive 项目实施网络数据采集。Web Archive 是一项系统工程，需要大量的人力、物力和财力投入，且实施过程中对技术要求比较高，限于企业技术能力和资金的限制，应该首先考虑采用订阅式智能采集策略，选择一定组织和企业提供的相关服务，如Internet Archive 推出的 Archive-it 服务满足信息采集的需求。这种智能化订阅可以自动地定期从信息源中采集竞争对手基础信息，采集到的信息可以由企业直接管理。订阅式采集策略不需要企业建立自己的存储设备，而是由 In-ternet Archive 负责保存，省去了技术方面的顾虑，它比通用的收藏更加专深，能满足企业个性化的需要。由于订阅式智能采集策略具有一定的延时性，而微博客各种数据信息更新迅速，信息呈现碎片化和去逻辑化，裂变式传播造成海量数据中会存在大量的无效和冗余数据，为了增强信息采集的导向性和专题性，因此，在以订阅式智能采集为主的同时，信息采集小组成员可以适时的采用自主采集为辅的策略。采集小组成员对微博客上原始信息的分布特征和表现形式具有清晰的认识，对热点信息、特定主题的信息关联模块进行判断，筛选出有价值的原始信息模块，从中提取效用信息，企业据此生成竞争对手的社交网络图，从而对竞争形势进行判断。订阅式智能采集与自主采集相结合的信息采集方针，可以使企业在微博客上采集到具有时效性、针对性的有效数据资源。

3. 2 广度优先的分布式系统获取策略企业进行竞争对手情报分析的前提就是获取适合的信息源。微博客承载的竞争对手情报信息元富含文本、图像、音频、视频以及超链接，数据量庞大，数据源更新频繁。为了与竞争对手情报采集的数据需求相匹配，竞争情报数据的获取实际上可以看作是一个基于 Web 的网络爬虫策略的选择问题。面对微博客的海量数据资源，情报数据获取不可能采集到所有的网页资源，所以采集的原则是内容优先的重要网页。已有相关研究证明：在优先采集重要网页数据资源方面，广度优先搜集策略要比深度优先搜集策略具有显著的优势。出于个性化的数据信息需求，微博客的采集范围相对有限，从采集时效性和可操作性角度考量，可以采用分布式系统采集策略，设置多个 Web信息采集器在某种机制的协调下共同采集，多个数据采集器并行处理，可以极大地提高数据抓取的速度，适应微博客数据源的特点。分布式系统可以看作由多个集中式系统组合而成，各个节点间协作完成，所以情报获取的效率远远优于集中式策略，更匹配于微博客数据源的特点，同时分布式系统策略具有良好的可靠性和可扩展性，使其面对海量数据的计算能力大为增强。

分布式系统采集到的微博客网页数据源都属于非结构化的信息，为了便于进一步存储和分析，要对采集到的信息网页去噪，利用标识符滤除噪音，去除页面中的注释、脚本、样式表、广告栏、导航条等冗余信息，净化数据，以便下一步的数据解析和加工。广度优先的分布式系统策略保证了企业进行竞争对手情报分析时，可以采集到质量相对比较高的数据源。

3. 3 基于主题的迭代聚类加工策略对情报数据进行加工，首先要进行页面解析。根据竞争对手情报在微博客上的信息元，首先将页面划分为若干单元块，具体包括文本块、图像块、音频块、视频块、超链接块等，这是 Web 页面解析工作中一项基础而又重要的环节。然后根据语义对各单元块数据进行细致区分，如从文本块中分出版权、广告等非关键信息块；从超链接块中区分导航链接块、广告链接块等。经过页面解析后，情报数据被初步划分为细粒度信息块，从而为进一步情报数据聚类奠定基础。

情报数据聚类是竞争对手情报采集的重要环节。微博客上的情报信息元主要是中文网络短文本，中文网络短文本具有关键词词频低、存在大量变形词等特点，利用适合的聚类方法不仅可以挖掘数据存在的共性，也便于把数据集依据竞争对手情报分析的需求划分为不同的类别进行存储。本文基于微博客数据源特点和竞争对手情报分析的效果方面考量，采用基于主题的二次特征提取和聚类的方法，具体做法：一是抽取信息块文本，根据特定主题（如竞争对手情报类别），确定关键词，利用词条的频率特性进行第一次特征选择和向量空间的降维，运用密度算法和K 近邻准则实现第一次聚类；二是对上述聚类结果进行二次特征选择，实现二次文本迭代聚类；最后对聚类结果进行综合性评估。使用二次特征提取和聚类的方法，不仅使主题特征被有效区分，同时也实现了高质量的文本归类。

这种聚类方法从微博客数据中，既找出与给定主题相关又对给定主题表达了观点评论的信息内容，为竞争对手情报分析奠定了良好的基础。经过数据聚类后，这些具有很高商业价值和分析基础的情报将进入竞争对手情报数据库进行存储。

4 结束

语笔者出于企业采集工作的迫切需求，在对竞争对手情报进行分类的基础上，设计了采集的数据信息模块，并提出了情报采集的系统框架与主要模式，在此基础上，提出了基于采集程序的具体采集策略。本文的研究在理论和实践上为企业充分运用微博客这一新兴信道资源，有效甄别竞争对手，由此适应动态竞争环境提供有益的参考和借鉴。而企业面向微博客的情报采集效果综合评价将成为进一步细化的研究方向。

次浏览