`

简单HTTP抓取网页内容

阅读更多
package com.test;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class TestHttp {

	public static void main(String[] args) throws Exception {

		String urlString = "http://www.baidu.com";

		HttpURLConnection urlConnection = null;
		URL url = new URL(urlString);
		urlConnection = (HttpURLConnection) url.openConnection();
		urlConnection.setRequestMethod("GET");
		urlConnection.setDoOutput(true);
		urlConnection.setDoInput(true);
		urlConnection.setUseCaches(false);
		InputStream in = urlConnection.getInputStream();
		BufferedReader bufferedReader = new BufferedReader(
				new InputStreamReader(in));
		StringBuffer temp = new StringBuffer();
		String line = bufferedReader.readLine();
		while (line != null) {
			temp.append(line);
			line = bufferedReader.readLine();
		}
		bufferedReader.close();
		String ecod = urlConnection.getContentEncoding();
		if (ecod == null)
			ecod = "UTF-8";
		String result = new String(temp.toString().getBytes(), ecod);
		System.out.println(result);
	}
}

分享到:
评论

相关推荐

    小偷程序(模拟请求,抓取网页内容)

    很多朋友多问过我如何抓取网页的内容,其实并不难,但是对于网页的分析却不是很简单,以前我接触正则表达式比较少,就自己去分析页面,结果是要么抓到的数据不准,要么就根本抓不到。 现在写了两个类给朋友们用,...

    c#多线程抓取网页内容

    如果下载成功,则将内容存入内容列。如果不成功,内容列仍为空,作为是否再次下载的依据之一,如果反复不成功,则进程将于达到重试次数(对应该地址被申请的次数,用户可设)后,申请下一个Url地址。主要的代码如下...

    一个可以抓取网页特定内容的爬虫

    2.能够抓取网页的内容; 3.能够提取关键信息; 该程序是一个简单的网络爬虫,使用Java的Jsoup库来抓取指定网页的标题和链接,并根据用户输入的关键词提取包含关键词的标题和链接。程序的主要功能如下: 1.提示并获取...

    Python简单实现网页内容抓取功能示例

    本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考,具体如下: 使用模块: import urllib2 import urllib 普通抓取实例: #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2 url = ...

    支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块.zip

    请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则...

    ineed, 网页抓取和HTML后处理 简单的方法.zip

    ineed, 网页抓取和HTML后处理 简单的方法 网页抓取和html后处理。 简单的方法。ineed 允许你使用简单的API从网页收集有用的数据。 让我们从 http://google.com 收集图像,超链接,脚本和样式表:var ineed = require...

    零基础写python爬虫之使用urllib2组件抓取网页内容

    类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。 在Python中,我们使用urllib2这个组件来抓取网页。 urllib2是Python的一个获取URLs(Uniform Resource ...

    python抓取网页上想要的任何数据.txt

    本文将介绍如何使用Python抓取网页数据并解析。 1. Python抓取网页数据的基本流程 首先,我们需要明确一下Python抓取网页数据的基本流程。通常情况下,我们需要完成以下三个步骤: (1)发送HTTP请求获取网页数据...

    java抓取网页三种方式

    用三种方法实现抓取网页,java语言实现,简单实用,可以运行。

    website-fetcher:简单的静态网站抓取器

    可以用来抓取文档类型的网站安装 $ go get github.com/jmjoy/website-fetcher用法最简单的 $ website-fetcher [URL] 比如下载W3C的教程: $ website-fetcher http://www.w3school.com.cn/帮助 $ website-fetcher ...

    Linux抓取网页实例

    Linux抓取网页,简单方法是直接通过curl或wget两种命令。curl和wget命令,目前已经支持Linux和Windows平台,后续将介绍。curl支持http,https,ftp,ftps,scp,telnet等网络协议,详见手册mancurlwget支持http,...

    skrapa:使用CSS选择器和基于HTTP的简单API抓取任何网站

    使用CSS选择器和基于HTTP的简单API抓取任何网站 Skrapa允许您轻松设置公开API的服务器,该API可用于提取(也称为抓取)网站中包含的信息。 依靠Node.js和几个Node.js库(尤其是jsdom),一切皆有可能。 设计 使用CSS...

    Fiddler很好用的抓包工具

    Fiddler是一个http协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的http通讯,设置断点,查看所有的... Fiddler 要比其他的网络调试器要更加简单,因为它不仅仅暴露http通讯还提供了一个用户友好的格式

    Winform实现抓取web页面内容的方法

    本文以一个非常简单的实例讲述了Winform实现抓取web页面内容的方法,代码简洁易懂,非常实用!分享给大家供大家参考。 具体实现代码如下: WebRequest request = WebRequest.Create(...

    网站万能信息采集器2.6破解版

    不少网站的网页连接是类似[removed]openwin('1234')这样的特殊网址,不是通常的http://开头的,网站万能信息采集器也能自动识别抓到内容 5.采集过滤重复 导出过滤重复 有些时候网址不同,但是内容一样,万能采集器...

    python3.4.4利用爬虫技术抓取网页图片

    这里实现了一个最简单的爬虫,抓取静态非登录类型的网页图片,这里以慕课网python专题页面为例实现,并将抓取到的图片保存到项目根目录下,适合对爬虫有一点了解的同学,也可以看更基础的代码: ...

    抓包工具 捕包

    很不错的抓包工具 捕包选项 1、选择好捕包网卡,左连还有一些其它捕包条件供选择,如果当所选网卡不支持“杂项接收”功能,系统会提示相应信息,出现该情况时您将无法获取与本网卡无关的数据包,换言之,您无法获取...

    python+selenium+PhantomJS抓取网页动态加载内容

    环境搭建 准备工具:pyton3.5,selenium,phantomjs 我的电脑里面已经装好了python3.5 安装Selenium pip3 install selenium 安装Phantomjs  按照系统环境下载...driver.get('http://www.baidu.com') #加载网页 da

    go语言实现一个简单的http客户端抓取远程url的方法

    主要介绍了go语言实现一个简单的http客户端抓取远程url的方法,实例分析了Go语言http操作技巧,具有一定参考借鉴价值,需要的朋友可以参考下

Global site tag (gtag.js) - Google Analytics