简单HTTP抓取网页内容 - 只想靠两手，向理想挥手 - ITeye博客

`

onlyOneToOne

浏览: 200056 次
性别:
来自: 黑龙江

最近访客更多访客>>

sunearlier

wenjiefeng

huangxinyu_it

chm00d339

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

等待时候： info.addStringPermissions( role ...
Apache Shiro 整合Spring 进行权限验证以及在Freemarker中使用shiro标签
hvang1988： shoringchow 写道刚才的图没有弄好，如下索引中虽然有 ...
Solr 4.10.2整合IKAnalyzer 2012FF_hf1 智能分析与细粒度分析配置useSmart
shoringchow：刚才的图没有弄好，如下索引中虽然有”九阳豆浆机DJ13B-D6 ...
Solr 4.10.2整合IKAnalyzer 2012FF_hf1 智能分析与细粒度分析配置useSmart
shoringchow：楼主你好，我也使用IK分词，但是目前遇到一个无解的问题，如下： ...
Solr 4.10.2整合IKAnalyzer 2012FF_hf1 智能分析与细粒度分析配置useSmart
ll_wang11：
Spring AOP与log4j做简单的异常日志处理

简单HTTP抓取网页内容

博客分类：

JTOEE

阅读更多

package com.test;

import java.io.BufferedReader;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class TestHttp {

	public static void main(String[] args) throws Exception {

		String urlString = "http://www.baidu.com";

		HttpURLConnection urlConnection = null;
		URL url = new URL(urlString);
		urlConnection = (HttpURLConnection) url.openConnection();
		urlConnection.setRequestMethod("GET");
		urlConnection.setDoOutput(true);
		urlConnection.setDoInput(true);
		urlConnection.setUseCaches(false);
		InputStream in = urlConnection.getInputStream();
		BufferedReader bufferedReader = new BufferedReader(
				new InputStreamReader(in));
		StringBuffer temp = new StringBuffer();
		String line = bufferedReader.readLine();
		while (line != null) {
			temp.append(line);
			line = bufferedReader.readLine();
		}
		bufferedReader.close();
		String ecod = urlConnection.getContentEncoding();
		if (ecod == null)
			ecod = "UTF-8";
		String result = new String(temp.toString().getBytes(), ecod);
		System.out.println(result);
	}
}

分享到：

linux日记（一） | 大规模网站架构

2011-05-13 09:21
浏览 811
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

小偷程序（模拟请求，抓取网页内容）: 很多朋友多问过我如何抓取网页的内容，其实并不难，但是对于网页的分析却不是很简单，以前我接触正则表达式比较少，就自己去分析页面，结果是要么抓到的数据不准，要么就根本抓不到。现在写了两个类给朋友们用，...

c#多线程抓取网页内容: 如果下载成功，则将内容存入内容列。如果不成功，内容列仍为空，作为是否再次下载的依据之一，如果反复不成功，则进程将于达到重试次数（对应该地址被申请的次数，用户可设）后，申请下一个Url地址。主要的代码如下...

一个可以抓取网页特定内容的爬虫: 2.能够抓取网页的内容； 3.能够提取关键信息；该程序是一个简单的网络爬虫，使用Java的Jsoup库来抓取指定网页的标题和链接，并根据用户输入的关键词提取包含关键词的标题和链接。程序的主要功能如下： 1.提示并获取...

Python简单实现网页内容抓取功能示例: 本文实例讲述了Python简单实现网页内容抓取功能。分享给大家供大家参考，具体如下：使用模块： import urllib2 import urllib 普通抓取实例： #!/usr/bin/python # -*- coding: UTF-8 -*- import urllib2 url = ...

支持抓取javascript渲染的页面的简单实用高效的python网页爬虫抓取模块.zip: 请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...

ineed, 网页抓取和HTML后处理简单的方法.zip: ineed, 网页抓取和HTML后处理简单的方法网页抓取和html后处理。简单的方法。ineed 允许你使用简单的API从网页收集有用的数据。让我们从 http://google.com 收集图像，超链接，脚本和样式表：var ineed = require...

零基础写python爬虫之使用urllib2组件抓取网页内容: 类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。在Python中，我们使用urllib2这个组件来抓取网页。 urllib2是Python的一个获取URLs(Uniform Resource ...

python抓取网页上想要的任何数据.txt: 本文将介绍如何使用Python抓取网页数据并解析。 1. Python抓取网页数据的基本流程首先，我们需要明确一下Python抓取网页数据的基本流程。通常情况下，我们需要完成以下三个步骤：（1）发送HTTP请求获取网页数据...

java抓取网页三种方式: 用三种方法实现抓取网页，java语言实现，简单实用，可以运行。

website-fetcher:简单的静态网站抓取器: 可以用来抓取文档类型的网站安装 $ go get github.com/jmjoy/website-fetcher用法最简单的 $ website-fetcher [URL] 比如下载W3C的教程： $ website-fetcher http://www.w3school.com.cn/帮助 $ website-fetcher ...

Linux抓取网页实例: Linux抓取网页，简单方法是直接通过curl或wget两种命令。curl和wget命令，目前已经支持Linux和Windows平台，后续将介绍。curl支持http，https，ftp，ftps，scp，telnet等网络协议，详见手册mancurlwget支持http，...

skrapa:使用CSS选择器和基于HTTP的简单API抓取任何网站: 使用CSS选择器和基于HTTP的简单API抓取任何网站 Skrapa允许您轻松设置公开API的服务器，该API可用于提取（也称为抓取）网站中包含的信息。依靠Node.js和几个Node.js库（尤其是jsdom），一切皆有可能。设计使用CSS...

Fiddler很好用的抓包工具: Fiddler是一个http协议调试代理工具，它能够记录并检查所有你的电脑和互联网之间的http通讯，设置断点，查看所有的... Fiddler 要比其他的网络调试器要更加简单，因为它不仅仅暴露http通讯还提供了一个用户友好的格式

Winform实现抓取web页面内容的方法: 本文以一个非常简单的实例讲述了Winform实现抓取web页面内容的方法，代码简洁易懂，非常实用！分享给大家供大家参考。具体实现代码如下： WebRequest request = WebRequest.Create(...

网站万能信息采集器2.6破解版: 不少网站的网页连接是类似[removed]openwin('1234')这样的特殊网址，不是通常的http://开头的，网站万能信息采集器也能自动识别抓到内容 5.采集过滤重复导出过滤重复有些时候网址不同，但是内容一样，万能采集器...

python3.4.4利用爬虫技术抓取网页图片: 这里实现了一个最简单的爬虫，抓取静态非登录类型的网页图片，这里以慕课网python专题页面为例实现，并将抓取到的图片保存到项目根目录下，适合对爬虫有一点了解的同学，也可以看更基础的代码： ...

抓包工具捕包: 很不错的抓包工具捕包选项 1、选择好捕包网卡，左连还有一些其它捕包条件供选择，如果当所选网卡不支持“杂项接收”功能，系统会提示相应信息,出现该情况时您将无法获取与本网卡无关的数据包，换言之，您无法获取...

python+selenium+PhantomJS抓取网页动态加载内容: 环境搭建准备工具：pyton3.5,selenium,phantomjs 我的电脑里面已经装好了python3.5 安装Selenium pip3 install selenium 安装Phantomjs　按照系统环境下载...driver.get('http://www.baidu.com') #加载网页 da

go语言实现一个简单的http客户端抓取远程url的方法: 主要介绍了go语言实现一个简单的http客户端抓取远程url的方法,实例分析了Go语言http操作技巧,具有一定参考借鉴价值,需要的朋友可以参考下

Global site tag (gtag.js) - Google Analytics