package com.test;
import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class TestHttp {
public static void main(String[] args) throws Exception {
String urlString = "http://www.baidu.com";
HttpURLConnection urlConnection = null;
URL url = new URL(urlString);
urlConnection = (HttpURLConnection) url.openConnection();
urlConnection.setRequestMethod("GET");
urlConnection.setDoOutput(true);
urlConnection.setDoInput(true);
urlConnection.setUseCaches(false);
InputStream in = urlConnection.getInputStream();
BufferedReader bufferedReader = new BufferedReader(
new InputStreamReader(in));
StringBuffer temp = new StringBuffer();
String line = bufferedReader.readLine();
while (line != null) {
temp.append(line);
line = bufferedReader.readLine();
}
bufferedReader.close();
String ecod = urlConnection.getContentEncoding();
if (ecod == null)
ecod = "UTF-8";
String result = new String(temp.toString().getBytes(), ecod);
System.out.println(result);
}
}
分享到:
相关推荐
很多朋友多问过我如何抓取网页的内容,其实并不难,但是对于网页的分析却不是很简单,以前我接触正则表达式比较少,就自己去分析页面,结果是要么抓到的数据不准,要么就根本抓不到。 现在写了两个类给朋友们用,...
如果下载成功,则将内容存入内容列。如果不成功,内容列仍为空,作为是否再次下载的依据之一,如果反复不成功,则进程将于达到重试次数(对应该地址被申请的次数,用户可设)后,申请下一个Url地址。主要的代码如下...
2.能够抓取网页的内容; 3.能够提取关键信息; 该程序是一个简单的网络爬虫,使用Java的Jsoup库来抓取指定网页的标题和链接,并根据用户输入的关键词提取包含关键词的标题和链接。程序的主要功能如下: 1.提示并获取...
本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考,具体如下: 使用模块: import urllib2 import urllib 普通抓取实例: #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2 url = ...
请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则...
ineed, 网页抓取和HTML后处理 简单的方法 网页抓取和html后处理。 简单的方法。ineed 允许你使用简单的API从网页收集有用的数据。 让我们从 http://google.com 收集图像,超链接,脚本和样式表:var ineed = require...
类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 在Python中,我们使用urllib2这个组件来抓取网页。 urllib2是Python的一个获取URLs(Uniform Resource ...
本文将介绍如何使用Python抓取网页数据并解析。 1. Python抓取网页数据的基本流程 首先,我们需要明确一下Python抓取网页数据的基本流程。通常情况下,我们需要完成以下三个步骤: (1)发送HTTP请求获取网页数据...
用三种方法实现抓取网页,java语言实现,简单实用,可以运行。
可以用来抓取文档类型的网站安装 $ go get github.com/jmjoy/website-fetcher用法最简单的 $ website-fetcher [URL] 比如下载W3C的教程: $ website-fetcher http://www.w3school.com.cn/帮助 $ website-fetcher ...
Linux抓取网页,简单方法是直接通过curl或wget两种命令。curl和wget命令,目前已经支持Linux和Windows平台,后续将介绍。curl支持http,https,ftp,ftps,scp,telnet等网络协议,详见手册mancurlwget支持http,...
使用CSS选择器和基于HTTP的简单API抓取任何网站 Skrapa允许您轻松设置公开API的服务器,该API可用于提取(也称为抓取)网站中包含的信息。 依靠Node.js和几个Node.js库(尤其是jsdom),一切皆有可能。 设计 使用CSS...
Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的... Fiddler 要比其他的网络调试器要更加简单,因为它不仅仅暴露http通讯还提供了一个用户友好的格式
本文以一个非常简单的实例讲述了Winform实现抓取web页面内容的方法,代码简洁易懂,非常实用!分享给大家供大家参考。 具体实现代码如下: WebRequest request = WebRequest.Create(...
不少网站的网页连接是类似[removed]openwin('1234')这样的特殊网址,不是通常的http://开头的,网站万能信息采集器也能自动识别抓到内容 5.采集过滤重复 导出过滤重复 有些时候网址不同,但是内容一样,万能采集器...
这里实现了一个最简单的爬虫,抓取静态非登录类型的网页图片,这里以慕课网python专题页面为例实现,并将抓取到的图片保存到项目根目录下,适合对爬虫有一点了解的同学,也可以看更基础的代码: ...
很不错的抓包工具 捕包选项 1、选择好捕包网卡,左连还有一些其它捕包条件供选择,如果当所选网卡不支持“杂项接收”功能,系统会提示相应信息,出现该情况时您将无法获取与本网卡无关的数据包,换言之,您无法获取...
环境搭建 准备工具:pyton3.5,selenium,phantomjs 我的电脑里面已经装好了python3.5 安装Selenium pip3 install selenium 安装Phantomjs 按照系统环境下载...driver.get('http://www.baidu.com') #加载网页 da
主要介绍了go语言实现一个简单的http客户端抓取远程url的方法,实例分析了Go语言http操作技巧,具有一定参考借鉴价值,需要的朋友可以参考下