eBPF: بازشکل‌دهی زیرساخت Linux در مقیاس بزرگ

مشکل روش قدیمی

دهه‌ها بود که اگر می‌خواستید نحوه پردازش بسته‌ها، فیلتر کردن syscall‌ها یا ردیابی گلوگاه‌های عملکردی در کرنل Linux را تغییر دهید، تنها دو گزینه داشتید: یا یک kernel patch ارسال کنید و سال‌ها منتظر بمانید تا در توزیع‌ها اعمال شود، یا یک kernel module بنویسید. Kernel module‌ها قدرتمندند اما خطرناک. یک باگ در یک ماژول، کل سیستم را از پا در می‌آورد. آن‌ها به نسخه خاصی از کرنل وابسته‌اند، به طوری که ماژولی که برای 5.15 ساخته شده روی 6.1 کار نمی‌کند. استقرار آن‌ها روی یک ناوگان ناهمگون یعنی نگهداری ده‌ها build مجزا. برای شرکتی که صدها هزار سرور اداره می‌کند، این دیگر یک مشکل مهندسی نیست — بلکه یک بار مسئولیت است.

eBPF این مشکل را حل می‌کند. این فناوری به شما اجازه می‌دهد منطق سفارشی را — برای شبکه، امنیت یا observability — به‌صورت ایمن، قابل حمل و بدون ریبوت کردن هیچ چیز، درون کرنل در حال اجرا تزریق کنید.

eBPF در واقع چیست

BPF (Berkeley Packet Filter) در سال ۱۹۹۲ برای سریع‌تر کردن tcpdump ساخته شد. به جای کپی کردن هر بسته به userspace برای فیلتر کردن، BPF یک ماشین مجازی کوچک درون کرنل اجرا می‌کرد تا بسته‌ها را همانجا فیلتر کند. این ابزار از ابتدا محدود طراحی شده بود.

در سال ۲۰۱۴، Alexei Starovoitov و Daniel Borkmann نسخه extended BPF را در Linux 3.18 معرفی کردند. مجموعه دستورالعمل‌ها برای معماری‌های ۶۴ بیتی بازطراحی شد، تعداد رجیسترها افزایش یافت و — مهم‌تر از همه — نقاط اتصال (hook points) بسیار فراتر از فیلتر بسته گسترش یافتند. امروز می‌توانید برنامه‌های eBPF را به مسیرهای ingress و egress شبکه، tracepoint‌ها، kprobe‌ها (پروب‌های پویای توابع کرنل)، uprobe‌ها (پروب‌های توابع userspace) و نقاط ورود/خروج syscall متصل کنید. کرنل قابل برنامه‌ریزی شد.

مدل ایمنی همان چیزی است که این فناوری را در محیط production قابل استفاده می‌کند. یک برنامه eBPF را به زبان C محدودشده می‌نویسید، یا با استفاده از کتابخانه‌های Go یا Rust که eBPF bytecode تولید می‌کنند. پیش از اجرای برنامه، verifier کرنل هر مسیر اجرای ممکن را به‌صورت استاتیک تحلیل می‌کند: هیچ حلقه نامحدودی، هیچ دسترسی خارج از محدوده حافظه، هیچ محاسبه اشاره‌گر ناامنی. برنامه‌هایی که تأیید را رد کنند، کاملاً رد می‌شوند. برنامه‌هایی که تأیید شوند، به کد ماشین بومی JIT-compiled می‌شوند — بنابراین هیچ سربار interpreter در زمان اجرا وجود ندارد. نتیجه، کدی است که درون کرنل با سرعت نزدیک به بومی اجرا می‌شود، با تضمین‌های ایمنی که کرنل به‌صورت خودکار اعمال می‌کند.

XDP و انقلاب شبکه

چشمگیرترین قابلیت eBPF برای تیم‌های زیرساختی XDP — eXpress Data Path است. hook‌های XDP پیش از آن که stack شبکه کرنل بسته‌ای را پردازش کند اجرا می‌شوند. پیش از تخصیص sk_buff. پیش از جستجوی routing. پیش از هر چیزی. یک برنامه XDP می‌تواند یک بسته را در لایه درایور NIC با سرعتی بیش از ۱۰۰ میلیون بسته در ثانیه روی سخت‌افزار معمولی دراپ، redirect یا تغییر دهد.

برای دفاع در برابر DDoS، این همه چیز را تغییر می‌دهد. یک حمله حجمی که مسیر شبکه عادی کرنل را اشباع می‌کند — صف‌های socket را پر می‌کند، CPU را با interrupt handling تخلیه می‌کند — در لایه درایور دراپ می‌شود، پیش از اینکه هیچ‌کدام از آن سربارها رخ دهد. Cloudflare از برنامه‌های eBPF مبتنی بر XDP برای جذب حملات DDoS در مقیاس terabit استفاده می‌کند. بسته هرگز به stack نمی‌رسد. سرور سرپا می‌ماند.

Meta فراتر رفت. آن‌ها کل زیرساخت load balancing خود — که پیش از این بر پایه IPVS ساخته شده بود — را با Katran، یک load balancer متن‌باز eBPF/XDP جایگزین کردند. Katran روی هر سرور در data center‌های Meta اجرا می‌شود و ترافیک در مقیاس Facebook را بدون نیاز به appliance‌های اختصاصی load balancer مدیریت می‌کند. انعطاف‌پذیری eBPF یعنی آن‌ها می‌توانند منطق load balancing را با بارگذاری یک برنامه جدید به‌روزرسانی کنند، نه با ریبوت یا استقرار مجدد سخت‌افزار.

شبکه Kubernetes از طریق Cilium

مشکل شبکه Kubernetes دشوار است. هر pod به یک IP نیاز دارد. Podها باید در سراسر nodeها با هم ارتباط برقرار کنند. network policy‌ها باید اعمال شوند. load balancing سرویس‌ها باید انجام شود. پاسخ سنتی iptables بود — یک موتور قانون که مقیاس‌پذیر نیست. با چند هزار قانون، جستجوی iptables O(n) می‌شود و مصرف CPU به‌وضوح افزایش می‌یابد. با ده‌ها هزار pod، کاملاً از کار می‌افتد.

Cilium iptables را کاملاً با eBPF جایگزین می‌کند. routing بین pod‌ها، load balancing سرویس‌ها و اعمال network policy همگی در برنامه‌های eBPF متصل به رابط‌های شبکه اتفاق می‌افتند. جستجوها از طریق eBPF hash map به‌صورت O(1) انجام می‌شوند. اعمال policy در مسیر سریع کرنل رخ می‌دهد. Cilium همچنین HTTP، gRPC و Kafka را در Layer 7 درک می‌کند — زیرا برنامه‌های eBPF می‌توانند محتوای بسته را بررسی کنند، نه فقط header‌ها را.

میزان پذیرش گویاست. AWS EKS، Google GKE و Azure AKS همگی Cilium را به‌عنوان CNI پیش‌فرض یا توصیه‌شده ارائه می‌دهند. cluster‌های Kubernetes با صدها node و هزاران pod از eBPF برای هر تصمیم بسته استفاده می‌کنند، و گلوگاه iptables از بین رفته است.

Observability بدون Instrumentation

ابزارهای سنتی APM نیاز به تغییر کد دارند: کتابخانه‌ای اضافه کنید، توابع را wrap کنید، مجدداً deploy کنید. observability مبتنی بر eBPF هیچ‌کدام از این‌ها را نمی‌خواهد. یک kprobe یا uprobe را به هر تابع کرنل یا userspace متصل می‌کنید و داده جمع‌آوری می‌کنید — latency، آرگومان‌ها، مقادیر بازگشتی، stack trace‌ها — بدون اینکه application را تغییر دهید.

Netflix از bpftrace در محیط production دقیقاً برای همین استفاده می‌کند. bpftrace یک زبان scripting سطح‌بالا برای eBPF است، قابل مقایسه با آنچه DTrace روی Solaris بود. یک one-liner می‌تواند هر disk I/O بیشتر از 1ms را روی یک host در production ردیابی کند، یا latency‌های اتصال TCP را در یک histogram نمایش دهد، یا پیدا کند کدام پروسه‌ها بیشترین context switch را ایجاد می‌کنند — همه این‌ها با سربار تک‌رقمی بر حسب درصد، نه هزینه ۱۰ تا ۳۰ درصدی profiling سنتی.

Pixie این را برای Kubernetes یک گام فراتر می‌برد و با استفاده از eBPF هر سرویس در یک cluster را به‌صورت خودکار instrumentation می‌کند تا داده‌های request/response، توزیع latency و نرخ خطا را بدون هیچ پیکربندی per-service ضبط کند. بدون sidecar. بدون SDK integration. observability در لایه کرنل تعبیه شده است.

اعمال امنیت در سطح کرنل

seccomp-BPF سال‌هاست که syscall‌ها را در container‌های Linux فیلتر می‌کند — همان چیزی است که Docker، Chrome و Firefox برای محدود کردن system call‌هایی که یک پروسه sandboxed می‌تواند انجام دهد استفاده می‌کنند. این سر باریک امنیت eBPF است.

سر گسترده‌تر، اعمال امنیت در زمان اجرا (runtime) است. Falco از eBPF برای نظارت بر هر syscall در یک cluster Kubernetes استفاده می‌کند و رفتار مشکوک را هشدار می‌دهد — container‌ای که یک shell راه‌اندازی می‌کند، پروسه‌ای که روی /etc می‌نویسد، اتصال شبکه به یک IP غیرمنتظره. Tetragon، از پروژه Cilium، یک گام فراتر می‌رود: نه‌تنها می‌تواند نقض policy را در زمان واقعی تشخیص دهد بلکه می‌تواند آن را با کشتن پروسه متخلف پیش از تکمیل syscall اعمال کند. منطق policy از طریق eBPF در کرنل اجرا می‌شود. هیچ پنجره‌ای بین تشخیص و پاسخ وجود ندارد.

قابلیت حمل: CO-RE و BTF

یکی از شکایات باقی‌مانده درباره eBPF وابستگی به نسخه خاص کرنل بود. یک برنامه eBPF که در برابر header‌های کرنل 5.15 کامپایل شده ممکن است روی 6.1 کار نکند اگر ساختار struct‌ها تغییر کرده باشد. CO-RE — Compile Once, Run Everywhere — این مشکل را حل می‌کند. با BTF (BPF Type Format)، کرنل اطلاعات نوع داخلی خود را در زمان اجرا در معرض دید قرار می‌دهد. eBPF loader از BTF برای relocate کردن دسترسی‌های field در زمان بارگذاری استفاده می‌کند و برنامه کامپایل‌شده را با هر کرنلی که در واقع در حال اجراست سازگار می‌کند. اکنون یک باینری eBPF واحد می‌تواند روی یک ناوگان کاملاً مختلط از نظر نسخه کرنل بدون نیاز به کامپایل مجدد اجرا شود.

آنچه در پیش است

Microsoft به‌طور فعال در حال port کردن eBPF به Windows از طریق پروژه ebpf-for-windows است. فروشندگان SmartNIC در حال افزودن hardware offload برای برنامه‌های eBPF هستند، به‌طوری که فیلتر XDP می‌تواند روی خود NIC اجرا شود و CPU‌های host را کاملاً آزاد کند. runtime‌های eBPF در user-space در حال بلوغ هستند و extensibility به سبک eBPF با sandbox خارج از کرنل را ممکن می‌سازند.

الگوی زیربنایی یکسان است: یک مکانیزم extensibility قابل برنامه‌ریزی با تضمین‌های قوی ایمنی، برای هر چیزی که باید با سرعت production تکامل یابد، از کد استاتیک کرنل بهتر عمل می‌کند. eBPF تنها شبکه و observability در Linux را بهبود نداد — بلکه مدلی را که رفتار کرنل از طریق آن گسترش می‌یابد تغییر داد. تیم‌های زیرساختی که این را زودتر درک کردند، سریع‌تر، ایمن‌تر و در مقیاس بالاتری نسبت به کسانی که هنوز قوانین iptables و kernel module می‌نویسند در حرکتند.

eBPF: چگونه Linux یک کرنل امن، سریع و قابل برنامه‌ریزی به دست آورد