基于socket的网络数据采集系统设计文献综述
2020-04-10 16:22:10
文 献 综 述
计算机技术和网络技术的日益成熟,使以数据处理为中心的数据库开发技术得到特别的重视,特别是随着WWW系统和数据库分布系统网络化的日益成熟,作为信息服务的基础,Web在支持数据库系统上具有及时、友好、易用性、实用性的特点和广阔的信息发布途径,提供了海量信息在Internet上广泛快速传播和交互共享的平台,从而极大地推动了Internet的发展。可见,Web和数据库的结合是WWW信息服务技术和分布式数据库技术发展的大势所趋。Web技术发展到今天,已经可以把数据库技术引入到Web系统中,使Web技术与数据库技术完美的融合,集中二者的优点,形成基于Web模式的数据库应用系统Web数据库,充分发挥数据库高效的数据存储和管理能力,为Internet用户提供使用简便、内容丰富的动态服务。
”网络数据采集”是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。 目前网络数据采集采用的技术基本上是利用垂直搜索引擎技术的网络蜘蛛(或数据采集机器人)、分词系统、任务与索引系统等技术进行综合运用而完成;随着互联网技术的发展和网络海量信息的增长,对信息的获取与分拣成为一种越来越大的需求。人们一般通过以上技术将海量信息和数据采集回后,进行分拣和二次加工,实现网络数据价值与利益更大化、更专业化的目的。 现阶段在国内从事”海量数据采集”的企业很多,大多是利用垂直搜索引擎技术去实现,还有一些企业还实现了多种技术的综合运用。本课题是要解决由下位机WIFI数据采集系统连接路由器将数据发送到服务器,作为服务器端程序将数据接收。
网络数据采集的系统特点:支持自定义表单、自适应采集、集群采集、各种报表导出;支持仿人工式的随机采集数据、自定义阅读模板及登陆、代理采集;支持各种列表分页采集、各种内容分页采集、各种排重过滤;各种采集日志和采集源日志监控;支持采集网站、采集源管理及采集图片、附件、音频,视频等文件或附件,附件与正文自动映射与关联;支持对采集来的信息进行二次加工、采集内容的自动排版;真正的多用户采集系统,每个操作都要记录操作内容、操作人以及操作时间;软件实用、易用、功能强大 ;可移植、可扩展、可定制等。
网络数据采集具有很重要的应用价值,主要体现在如下方面:1、应用于搜索引擎与垂直搜索平台搭建与运营;2、应用于综合门户与行业门户、地方门户、专业门户网站数据支撑与流量运营;3、应用”电子政务”与”电子商务平台”的运营;4、应用于知识管理与知识共享;5、应用于”企业竞争情报系统”的运营;6、应用于”BI商业智能系统”;7、应用于”信息咨询与信息增值”;8、应用于”信息安全和信息监控”等。
该系统使用asp.net(C#语言)和SQL Server2008数据库开发。是基于socket通信,主要实现对网络数据的采集和存储。
所谓Socket通常也称作”套接字”,应用程序通常通过”套接字”向网络发出请求或者应答网络请求。根据连接启动的方式以及本地套接字要连接的目标,套接字之间的连接过程可以分为三个步骤:服务器监听,客户端请求,连接确认。
服务器监听:是服务器端套接字并不定位具体的客户端套接字,而是处于等待连接的状态,实时监控网络状态。
客户端请求:是指由客户端的套接字提出连接请求,要连接的目标是服务器端的套接字。为此,客户端的套接字必须首先描述它要连接的服务器的套接字,指出服务器端套接字的地址和端口号,然后就向服务器端套接字提出连接请求。
连接确认:是指当服务器端套接字监听到或者说接收到客户端套接字的连接请求,它就响应客户端套接字的请求,建立一个新的线程,把服务器端套接字的描述发给客户端,一旦客户端确认了此描述,连接就建立好了。而服务器端套接字继续处于监听状态,继续接收其他客户端套接字的连接请求。