- 세상의 모든 계산기 자유(질문) 게시판 일반 ()
(Nginx) "웹 크롤러 request 순위 확인" 스크립트 (우분투)
#!/bin/bash
# monip.sh
# Nginx access 로그에서 상위 25개 IP를 분석하여
# - Bot (Crawler)인 경우: User-Agent 문자열로 Bot 종류를 추출
# - User인 경우: whois 명령으로 Organization Name 조회
# 그리고 IP별 국가 정보(geoiplookup)를 추가하여 출력함
LOG_FILE="/var/log/nginx/access.log"
if [ ! -f "$LOG_FILE" ]; then
echo "로그 파일이 존재하지 않습니다: $LOG_FILE"
exit 1
fi
awk '
# Bot의 종류를 판별하는 함수
function get_bot_type(ua, ua_lower) {
ua_lower = tolower(ua)
if(ua_lower ~ /googlebot/) return "Googlebot"
if(ua_lower ~ /bingbot/) return "Bingbot"
if(ua_lower ~ /slurp/) return "Yahoo Slurp"
if(ua_lower ~ /duckduckbot/) return "DuckDuckBot"
if(ua_lower ~ /baiduspider/) return "Baiduspider"
if(ua_lower ~ /yandex/) return "YandexBot"
return "Unknown Bot"
}
# User-Agent 문자열을 바탕으로 사용자 종류를 판별
function classify_user_agent(ua) {
if(ua == "" || ua == "-") return "알 수 없음"
ua_lower = tolower(ua)
if(ua_lower ~ /bot|crawl|spider|slurp|mediapartners/) return "Bot (Crawler)"
return "User"
}
# geoiplookup 명령을 사용하여 IP의 국가 정보를 가져오는 함수
function get_country(ip, cmd, result, arr, country) {
cmd = "geoiplookup " ip " 2>/dev/null"
if ((cmd | getline result) > 0) {
# 예: "GeoIP Country Edition: US, United States"
split(result, arr, ":")
if(length(arr) > 1) {
country = arr[2]
gsub(/^[ \t]+|[ \t]+$/, "", country)
} else {
country = "Unknown"
}
} else {
country = "조회 실패"
}
close(cmd)
return country
}
{
# Combined log format 예제:
# 127.0.0.1 - - [14/Feb/2025:12:00:00 +0000] "GET / HTTP/1.1" 200 612 "-" "Mozilla/5.0 ..."
regex = "([^ ]*) - ([^ ]*) \\[([^\\]]*)\\] \"([^\"]*)\" ([^ ]*) ([^ ]*) \"([^\"]*)\" \"([^\"]*)\""
if(match($0, regex, arr)) {
ip = arr[1]
referer = arr[7]
ua_str = arr[8]
count[ip]++ # IP별 요청 횟수 집계
ua_stats[ip, ua_str]++ # IP별 User-Agent 빈도 집계
ref_stats[ip, referer]++ # (참고용) 리퍼러 집계
}
}
END {
# gawk의 asorti() 함수로 요청 횟수 기준 내림차순 정렬
n = asorti(count, sorted, "@val_num_desc")
# 헤더 출력 (순서: 순위 | IP | 국가 | Requests | 사용자 종류 | 기타정보)
printf("| %-2s | %-15s | %-18s | %-10s | %-17s | %-21s |\n", "순위", "IP", "국가", "Requests", "사용자 종류", "기타정보")
print("|------|-----------------|----------------------|------------|------------------------|-------------------------|")
limit = (n < 25 ? n : 25)
for(i = 1; i <= limit; i++){
ip = sorted[i]
req_count = count[ip]
# 해당 IP의 가장 많이 등장한 User-Agent 선택
max_ua = ""
max_ua_count = 0
for(key in ua_stats) {
split(key, parts, SUBSEP)
if(parts[1] == ip) {
if(ua_stats[key] > max_ua_count) {
max_ua_count = ua_stats[key]
max_ua = parts[2]
}
}
}
user_type = classify_user_agent(max_ua)
extra = ""
if(user_type == "User") {
# User인 경우: whois 명령으로 Organization Name 조회
cmd = "whois " ip " 2>/dev/null | grep -i -m 1 \"orgname:\""
org = ""
if((cmd | getline org) > 0) {
sub(/^[ \t]+/, "", org)
split(org, a, ":")
if(length(a) > 1) {
org = a[2]
gsub(/^[ \t]+/, "", org)
}
} else {
org = "조회 실패"
}
close(cmd)
extra = org
} else if(user_type == "Bot (Crawler)") {
extra = get_bot_type(max_ua)
} else {
extra = "없음"
}
# 각 IP의 국가 정보 추가
country = get_country(ip)
printf("| %-4d | %-15s | %-20s | %-10d | %-22s | %-25s |\n", i, ip, country, req_count, user_type, extra)
}
}
' "$LOG_FILE"
사용 방법
- 스크립트를 파일에 저장 후 실행 권한 부여:
chmod +x monip.sh - 스크립트 실행 (필요한 경우 sudo로):
sudo ./monip.sh
결과

세상의모든계산기 님의 최근 댓글
fx-570 CW 는 아래 링크에서 https://allcalc.org/56026 2025 10.24 불러오기 할 때 변수값을 먼저 확인하고 싶을 때는 VARIABLE 버튼 【⇄[x]】목록에서 확인하고 Recall 하시면 되고, 변수값을 이미 알고 있을 때는 바로 【⬆️SHIFT】【4】로 (A)를 바로 입력할 수 있습니다. 2025 10.24 fx-570 CW 로 계산하면? - 최종 확인된 결과 값 = 73.049507058478629343538 (23-digits) - 오차 = 6.632809104889414877 × 10^-19 꽤 정밀하게 나온건 맞는데, 시뮬레이션상의 22-digits 와 오차 수준이 비슷함. 왜 그런지는 모르겠음. - 계산기중 정밀도가 높은 편인 HP Prime CAS모드와 비교해도 월등한 정밀도 값을 가짐. 2025 10.24 HP Prime 에서 <Home> 73.0495070344 (12-decimal-digits) // python 시뮬레이션과 일치 <CAS> 21자리까지 나와서 이상하다 싶었는데, Ans- 에서 자릿수를 더 늘려서 빼보니, 뒷부분 숫자가 아예 바뀌어버림. 버그인가? (전) 73.0495070584718691243 (21-digits ????) (후) 73.0495070584718500814401 (24-digits ????) 찾아보니 버그는 아니고, CAS에서는 십진수가 아니라 2진수(bit) 단위로 처리한다고 함. Giac uses 48 bits mantissa from the 53 bits from IEEE double. The reason is that Giac stores CAS data (gen type) in 64 bits and 5 bits are used for the data type (24 types are available). We therefore loose 5 bits (the 5 low bits are reset to 0 when a double is retrieved from a gen). 출처 : https://www.hpmuseum.org/cgi-bin/archv021.cgi?read=255657 일단 오차를 놓고 보면 16-decimal-digits 수준으로 보임. 2025 10.23 khiCAS 에서 HP 39gII 에 올린 khiCAS는 254! 까지 계산 가능, 255! 부터는 ∞ fx-9750GIII 에 올린 khiCAS는 factorial(533) => 425760136423128437▷ // 정답, 10진수 1224자리 factorial(534) => Object too large 2025 10.23