- 세상의 모든 계산기 자유(질문) 게시판 일반 ()
(Nginx) "웹 크롤러 request 순위 확인" 스크립트 (우분투)
#!/bin/bash # monip.sh # Nginx access 로그에서 상위 25개 IP를 분석하여 # - Bot (Crawler)인 경우: User-Agent 문자열로 Bot 종류를 추출 # - User인 경우: whois 명령으로 Organization Name 조회 # 그리고 IP별 국가 정보(geoiplookup)를 추가하여 출력함 LOG_FILE="/var/log/nginx/access.log" if [ ! -f "$LOG_FILE" ]; then echo "로그 파일이 존재하지 않습니다: $LOG_FILE" exit 1 fi awk ' # Bot의 종류를 판별하는 함수 function get_bot_type(ua, ua_lower) { ua_lower = tolower(ua) if(ua_lower ~ /googlebot/) return "Googlebot" if(ua_lower ~ /bingbot/) return "Bingbot" if(ua_lower ~ /slurp/) return "Yahoo Slurp" if(ua_lower ~ /duckduckbot/) return "DuckDuckBot" if(ua_lower ~ /baiduspider/) return "Baiduspider" if(ua_lower ~ /yandex/) return "YandexBot" return "Unknown Bot" } # User-Agent 문자열을 바탕으로 사용자 종류를 판별 function classify_user_agent(ua) { if(ua == "" || ua == "-") return "알 수 없음" ua_lower = tolower(ua) if(ua_lower ~ /bot|crawl|spider|slurp|mediapartners/) return "Bot (Crawler)" return "User" } # geoiplookup 명령을 사용하여 IP의 국가 정보를 가져오는 함수 function get_country(ip, cmd, result, arr, country) { cmd = "geoiplookup " ip " 2>/dev/null" if ((cmd | getline result) > 0) { # 예: "GeoIP Country Edition: US, United States" split(result, arr, ":") if(length(arr) > 1) { country = arr[2] gsub(/^[ \t]+|[ \t]+$/, "", country) } else { country = "Unknown" } } else { country = "조회 실패" } close(cmd) return country } { # Combined log format 예제: # 127.0.0.1 - - [14/Feb/2025:12:00:00 +0000] "GET / HTTP/1.1" 200 612 "-" "Mozilla/5.0 ..." regex = "([^ ]*) - ([^ ]*) \\[([^\\]]*)\\] \"([^\"]*)\" ([^ ]*) ([^ ]*) \"([^\"]*)\" \"([^\"]*)\"" if(match($0, regex, arr)) { ip = arr[1] referer = arr[7] ua_str = arr[8] count[ip]++ # IP별 요청 횟수 집계 ua_stats[ip, ua_str]++ # IP별 User-Agent 빈도 집계 ref_stats[ip, referer]++ # (참고용) 리퍼러 집계 } } END { # gawk의 asorti() 함수로 요청 횟수 기준 내림차순 정렬 n = asorti(count, sorted, "@val_num_desc") # 헤더 출력 (순서: 순위 | IP | 국가 | Requests | 사용자 종류 | 기타정보) printf("| %-2s | %-15s | %-18s | %-10s | %-17s | %-21s |\n", "순위", "IP", "국가", "Requests", "사용자 종류", "기타정보") print("|------|-----------------|----------------------|------------|------------------------|-------------------------|") limit = (n < 25 ? n : 25) for(i = 1; i <= limit; i++){ ip = sorted[i] req_count = count[ip] # 해당 IP의 가장 많이 등장한 User-Agent 선택 max_ua = "" max_ua_count = 0 for(key in ua_stats) { split(key, parts, SUBSEP) if(parts[1] == ip) { if(ua_stats[key] > max_ua_count) { max_ua_count = ua_stats[key] max_ua = parts[2] } } } user_type = classify_user_agent(max_ua) extra = "" if(user_type == "User") { # User인 경우: whois 명령으로 Organization Name 조회 cmd = "whois " ip " 2>/dev/null | grep -i -m 1 \"orgname:\"" org = "" if((cmd | getline org) > 0) { sub(/^[ \t]+/, "", org) split(org, a, ":") if(length(a) > 1) { org = a[2] gsub(/^[ \t]+/, "", org) } } else { org = "조회 실패" } close(cmd) extra = org } else if(user_type == "Bot (Crawler)") { extra = get_bot_type(max_ua) } else { extra = "없음" } # 각 IP의 국가 정보 추가 country = get_country(ip) printf("| %-4d | %-15s | %-20s | %-10d | %-22s | %-25s |\n", i, ip, country, req_count, user_type, extra) } } ' "$LOG_FILE"
사용 방법
- 스크립트를 파일에 저장 후 실행 권한 부여:
chmod +x monip.sh
- 스크립트 실행 (필요한 경우 sudo로):
sudo ./monip.sh
결과
세상의모든계산기 님의 최근 댓글
낮에 TV에서 영화 '말모이' 해주더라구요. 그래서 한번 물어 봤습니다. 2025 10.10 마지막 발언이 마지막 힌트이자 문제의 핵심이군요. 처음 들은 달이 8월이었다면 (15일인지 17일인지 확신할 수 없어서) 마지막 대사를 할 수 없지만, 처음 들은 달이 7월이었다면 (선택지가 16일 하나라서 확신이 가능하므로) 마지막 대사를 할 수 있다. 대사를 했으니 7월이다. 이제 이해되었습니다. 지금 보니까 이해가 되는데, 당시에는 왜 이해가 안됐을까요? 세가지 전제 하에 문제를 풀면 A는 마지막 대화 2줄만으로 C의 생일을 알 수 없어야 정상인데, 무슨 이유에서인지 "그럼 나도 앎!"이라고 선언해 버립니다. 알게 된 이유를 대화 속에서 찾을 수는 없습니다. 이 편견에 사로잡혀 빠져나오지 못하고 다른 길로 계속 샜나봅니다. 2025 10.09 원래 식이 풀어진 상태에서는 두번째 인수 v가 분모, 분자에 섞여 있어서 계산기가 처리하지 못하는 듯 합니다. 이 때는 위에서와 반대로 분모 부분만 다른 문자(w)로 치환한 다음 completesquare(,v^2) 처리를 하면 일부분은 묶이는 듯 합니다. 하지만 여기서 처음 모양으로 더 이상 진행되진 않네요. 2025 10.08 전체 식에서 일부분(분모, 루트 내부)만 적용할 수는 없습니다. 번거롭더라도 해당 부분만 따로 끄집어 내서 적용하셔야 합니다. https://allcalc.org/30694#comment_30704 2025 10.08 분수의 분모 아닌 v만 w로 치환해 놓고, 결과를 completesquare 돌리면 앞부분은 묶이는 듯 합니다. 2025 10.08