摘要随着21世纪以来信息技术的发展,网络自媒体也越来越成为网民记录生活,表达见解的方式,而微博已经成为了现在中国境内使用量最大的网络自媒体,而且使用量还在不断上升。目前,微博已经成为了网络舆情的指南针。然而由于微博的种种特性,对微博信息的采集,分析比较困难,难以得到足够的数据进行统计和分析。

本文在研究现有软件框架的基础上,针对微博的一些特性,自行设计了一个可以持续进行微博爬取,关键词跟踪的舆情分析平台。可以大规模的获得微博语料,半实时的监控微博动向,同时为其他后续分析提供数据支持。78636

毕业论文关键词  微博  网络爬虫 舆情分析

毕业设计说明书外文摘要

Title    A public opinion analysis platform based on Weibo spider and burst event detection           

Abstract Along with the information technology development in 21st century, user-operated media is becoming a popular way for cyber citizen to record their life and express their opinions。 And SINA WEIBO is becoming the most famous user-operated media in china mainland, yet the number of its user is still increasing。 For the time being, WEIBO is the wind vane of public opinion。 But because of some special character of WEIBO, the data collection and analyzing is pretty difficult, so we can't get enough data to do the statistics and analysis work。

Based on the study of existing software framework, and focus on some of character of WEIBO, I designed a public opinion analysis platform which can scrawl tweets from WEIBO and follow some keyword continuously。 This platform can get linguistic data of large scale, monitor WEIBO half-real-time, and provide data for the following data mining。

Keywords  WEIBO; NetworkSpider; Public opinion 

目   次

1 绪论 1

1。1 课题的背景和意义 1

1。2 国内外研究现状 1

1。3 研究内容和论文结构 1

2 微博爬虫设计 3

2。1 微博爬虫概述 3

2。2 微博爬虫基本组成和架构简介 3

2。2。1 爬虫实例 3

2。2。2 调度器 4

2。2。3 账号登陆模块 4

2。2。4 数据收集器 4

2。2。5 跟踪和展示平台 4

2。2。6 RabbitMQ 5

2。2。7 架构图解 5

2。3 微博的爬取和解析 5

2。3。1 会话保持 5

2。3。2 验证码处理 6

2。3。3 微博网页获取和解析 6

2。3。4 微博的内部数据结构定义 7

2。3。5 AJAX加载的爬取 8

2。3。6 错误处理 8

2。4 存储的设计 8

2。4。1 原始HTML存储 8

2。4。2 关系型数据的存储 8

2。5 调度和通信 10

上一篇:图像的偏色检测及校正
下一篇:大数据智能系统的功能自动化测试用例生成方法研究

Android手机考勤平台的设计与实现

基于android的环境信息管理系统设计

java+mysql班级评优系统的设计实现

Python+mysql宠物领养平台的设计与实现

ASP.NET飞翔租贷汽车公司信...

基于激光超声检测金属材...

多频激励下典型非线性系统的振动特性研究

基于Joomla平台的计算机学院网站设计与开发

浅论职工思想政治工作茬...

酵母菌发酵生产天然香料...

压疮高危人群的标准化中...

提高教育质量,构建大學生...

浅谈高校行政管理人员的...

上海居民的社会参与研究

AES算法GPU协处理下分组加...

从政策角度谈黑龙江對俄...

STC89C52单片机NRF24L01的无线病房呼叫系统设计