여기저기 참조해서 개발했음
다음에 쓸일 있을까봐 참조용으로 올림
// 글 내용에 url 있는지 검사
String url = "[(http(s)?):\\/\\/(www\\.)?a-zA-Z0-9@:%._\\+~#=]{2,256}\\.[a-z]{2,6}\\b([-a-zA-Z0-9@:%_\\+.~#?&//=]*)";
Pattern p = Pattern.compile(url);
Matcher matcher = p.matcher( 글내용 ); // 게시글 내용이 들어있는 변수 넣으세요
if( matcher.find() ) {
int startIndex = matcher.start();
int endIndex = matcher.end();
String exportUrl = 글내용.substring(startIndex , endIndex); // 게시글 내용이 들어있는 변수에서 url만 짜르기
try {
Document doc = null;
doc = Jsoup.connect(exportUrl).header("User-Agent" , "Mozilla/5.0").get();
doc.select("meta[property=og:title]").attr("content"); // 제목
doc.select("meta[property=og:description]").attr("content"); // 내용
doc.select("meta[property=og:image]").attr("content"); // 이미지
} catch (Exception e) {
logger.error("Open Graph Error :" , e.getMessage());
}
}
pom,xml 에 추가할꺼
org.jsoup
jsoup
1.8.3
참조한 사이트
Bot Detection / 크롤러 차단 / 크롤러 우회 #1
에이, 너가 그런거 아니지? 그냥 좋은 로직으로 크롤링만 하면 만사인줄 알았는데, 고비가 하나 더 있었다. CLI 환경에서 죽어라 크롤러를 돌리는데 자꾸 이상한 타이밍에서 Response를 못받아오거나, Connection..
pcmc.tistory.com
https://jamong-icetea.tistory.com/90
스프링(Spring) 개발 - (28) 날씨정보 크롤링하기
1. 날씨정보 크롤링하기 이번엔 크롤링을 해볼 예정이다. 크롤링이란 Web상에 존재하는 내용(Contents)를 수집하는 행위이다. 고객이 필요한 외부 정보를 수집하고 수집한 정보를 내부에 출력하여 제공한다. 이번..
jamong-icetea.tistory.com
JAVA, Android에서 문자열에서 URL추출하기 (정규식)
프로젝트 작업중에 문자열들에서 url을 뽑아야하는 문제가 있었다 두가지의 신경쓸게 있었다. http, https로 시작하지 않아도 잘되야한다 ex) aaa.com 빨라야한다 처음에 자바의 스트링기능을 사용했다 짧은글은..
story.dkserver.wo.tc
알림 푸시용 배치서버 플로우 (0) | 2020.01.15 |
---|---|
java 모바일 푸시 (0) | 2020.01.15 |
javascript 메일 , url 에 자동 링크 걸기 (0) | 2020.01.15 |
넷플릭스겸 티비 알아보는중 후보들 계쏙 추가중 (2) | 2020.01.06 |
통삼겹살 - 에어프라이어 (2) | 2019.05.22 |