SHENZHEN, CHINA – Media OutReach – Konferensi Internasional Visi Komputer tahunan (CVPR) telah berakhir di New Orleans. Tahun ini, OPPO telah berhasil memilih tujuh makalah yang dikirimkan untuk konferensi, peringkat teratas di antara produsen teknologi. Pada saat yang sama, OPPO juga masuk dalam delapan dari acara kompetisi yang paling banyak ditonton di konferensi tersebut, membawa pulang tiga hadiah tempat pertama, satu tempat kedua, dan empat tempat ketiga.

Dengan kematangan bertahap dan skala pembelajaran mendalam, teknologi kecerdasan buatan telah beralih dari kecerdasan persepsi menjadi kecerdasan kognitif”. Selain ‘melihat’ atau ‘mendengar’, AI secara bertahap mulai memiliki kemampuan berpikir seperti manusia. Fusi multimodal, teknologi kecerdasan visual 3D, pembelajaran mesin otomatis, dll. menjadi pusat penelitian utama di bidang kecerdasan buatan. OPPO telah mencapai penyertaan makalah di bidang-bidang di atas, dan telah membuat terobosan inovatif di bidang akademik utama AI.

“Pada tahun 2012, jaringan saraf dalam yang dirancang untuk tugas pengenalan gambar menyuntikkan kembali energi ke dalam penelitian dan penerapan kecerdasan buatan. Sejak itu, teknologi kecerdasan buatan (AI) telah mengantarkan perkembangan pesat selama 10 Tahun. Di OPPO, kami terus mempromosikan AI untuk menyelesaikan persepsi kompleks dan perilaku kognitif seperti manusia. Misalnya, pembelajaran berkelanjutan dari data masif yang tidak berlabel dan transfer ke tugas spesifik hilir, menyelesaikan rekonstruksi 3D dari beberapa terbatas informasi perspektif; kemampuan kognitif tingkat tinggi, seperti pemahaman dan penciptaan keindahan, dan mengembangkan AI dengan kemampuan perilaku otonom, seperti prediksi perilaku dalam skenario mengemudi otonom. Saya senang melihat bahwa tujuh makalah kami telah dipilih untuk konferensi tahun ini. Berangkat dari kesuksesan ini, kami akan terus mengeksplorasi fundamental dan teknologi AI mutakhir, serta aplikasi komersial yang memungkinkan kami menghadirkan manfaat AI kepada lebih banyak orang,” terang Guo Yandong, Kepala Ilmuwan OPPO Intelligent Perception, dalam keterangannya, Kamis (23/6/2022).

Tujuh makalah yang diterima oleh CVPR 2022 menunjukkan kemajuan OPPO dalam menciptakan AI yang manusiawi

Pada CVPR 2022 ini, OPPO memiliki total 7 makalah terpilih, yang mencakup interaksi informasi multimodal, rekonstruksi tubuh manusia 3D, evaluasi estetika gambar yang dipersonalisasi, distilasi pengetahuan, dan bidang penelitian lainnya.

Teknologi lintas modal dipandang sebagai kunci untuk ‘memanusiakan’ kecerdasan buatan. Data modal yang berbeda memiliki karakteristik yang berbeda. Informasi teks sering kali menampilkan tingkat keumuman yang tinggi, sedangkan informasi gambar visual mengandung sejumlah besar detail kontekstual tertentu. Ini adalah tantangan besar untuk membangun interaksi yang efektif untuk data multimodal.

Peneliti OPPO mengusulkan kerangka kerja CRIS baru berdasarkan model CLIP, yang memungkinkan AI untuk memahami data modalitas gambar dan teks dengan cara yang lebih halus. Bahkan jika deskripsi teks input berisi banyak informasi, kerangka kerja dapat secara akurat fokus pada wilayah gambar yang sesuai, menunjukkan kemampuan yang kuat dari pencocokan lintas-modal berbutir halus.

Saat ini, salah satu perbedaan terpenting antara kecerdasan manusia dan kecerdasan buatan adalah pengenalan dan pemahaman informasi multimodal. Bagi manusia, kita sering dapat memahami kata-kata dan gambar pada saat yang sama dan menghubungkannya secara efektif. Namun, AI sebagian besar tetap dalam tahap identifikasi, dan sulit untuk secara akurat menyesuaikan informasi dari modalitas yang berbeda.

Metode inovatif yang diusulkan oleh OPPO kali ini dapat membantu kecerdasan buatan melangkah lebih jauh dalam pemahaman multimodal. Di masa depan, dengan perkembangan teknologi terkait yang berkelanjutan, kecerdasan buatan benar-benar dapat mengenali dunia nyata melalui berbagai informasi seperti bahasa, pendengaran, dan penglihatan, seperti yang dijelaskan dalam fiksi ilmiah.

CRIS: CLIP-Driven Referring Image Segmentation

Demikian pula, di bidang rekonstruksi tubuh manusia 3D yang baru-baru ini populer, OPPO Research Institute telah mencapai pekerjaan pertama di industri yang secara otomatis membuat avatar digital untuk tubuh manusia yang berpakaian longgar dengan meningkatkan metode pemodelan karakter dinamis inovatif NeRF. Hanya dengan menganalisis video RGB yang ditangkap oleh kamera, metode pemodelan ini dapat secara akurat mengembalikan detail dinamis karakter pada 1:1, bahkan termasuk logo kecil atau detail tekstur pakaian.

Pemodelan dan restorasi pakaian selalu menjadi salah satu bidang yang paling menantang di industri, karena deformasi bahan pakaian sangat kompleks ketika postur tubuh manusia berubah, yang menyulitkan AI untuk memecahkan deformasi bagian seperti rok . Langkah ini dapat secara efektif menurunkan ambang batas rekonstruksi tubuh manusia 3D, dan memberikan dasar teknis yang baik untuk belanja pas virtual online, kebugaran AI, dan bahkan implementasi nyata dunia virtual VR/AR.

Bidang Cahaya Lokal Terstruktur untuk Pemodelan Avatar Manusia

Dengan kematangan bertahap kemampuan pengenalan gambar AI, bagaimana membuat AI memiliki kemampuan estetika gambar telah menjadi masalah baru. Kemampuan estetika AI sering kali terkait erat dengan data yang digunakan untuk pelatihan dan preferensi annotator, sementara estetika orang sering kali beragam, dan penggunaan evaluasi estetika berbasis data besar untuk melayani pengguna yang berbeda dapat mengarahkan orang ke Estetika diskriminasi, menghasilkan pengalaman pengguna yang buruk. Oleh karena itu, melalui data dan model yang lebih disempurnakan, evaluasi estetika yang dipersonalisasi yang secara akurat menangkap perbedaan estetika dari pengguna yang berbeda muncul seiring waktu.

Bekerja sama dengan Leida Li, seorang profesor dari Universitas Xidian, OPPO Research Institute menghadirkan solusi untuk masalah ini, yaitu model Personalized Image Aesthetics Assessment (PIAA) yang inovatif. Model ini adalah yang pertama mengoptimalkan penilaian estetika AI dengan menggabungkan preferensi subjektif pengguna dengan nilai estetika yang lebih umum. Algoritme dapat melakukan evaluasi gambar yang dipersonalisasi berdasarkan preferensi yang dipelajari dengan mempelajari profil pengguna. Di masa mendatang, model tersebut akan digunakan untuk menciptakan pengalaman yang dipersonalisasi bagi pengguna, tidak hanya terbatas pada kurasi album foto, tetapi juga memberikan rekomendasi tentang cara mengambil foto terbaik dan konten mana yang mungkin disukai pengguna.

Penilaian Estetika Gambar yang Dipersonalisasi dengan Atribut yang Kaya

OPPO juga telah memilih untuk menjadikan kumpulan data evaluasi model PIAA sebagai sumber terbuka bagi pengembang, dengan sejumlah lembaga penelitian dan universitas telah menyatakan minatnya untuk menggunakan data tersebut guna memajukan upaya mereka sendiri dalam penilaian estetika AI yang dipersonalisasi.

Selain itu, teknologi rekonstruksi bidang semantik 3D multi-tampilan yang diusulkan oleh OPPO dapat secara akurat menganalisis struktur bidang 3D pemandangan, dan memprediksi anotasi semantik dari tanah, desktop, dinding, dan bidang lainnya, dan efeknya jauh lebih baik daripada arsitektur rekonstruksi tampilan tunggal arus utama. INS-Conv (INcremental Sparse Convolution) yang diusulkan oleh Universitas Tsinghua dapat mencapai semantik titik cloud 3D online yang lebih cepat dan akurat dan inferensi segmentasi instan. Teknologi ini dapat secara efektif dapat mengurangi daya komputasi yang diperlukan untuk melakukan pengenalan lingkungan, yang memungkinkan teknologi tersebut lebih mudah diadopsi dalam aplikasi seperti mengemudi otomatis dan VR.

OPPO Memenangkan runner-up di NAS Challenge dengan AI ‘lightweight’

Bersamaan dengan presentasi dan tinjauan penelitian terbaru dalam visi komputer dan teknologi pengenalan pola, CVPR 2022 juga menghadapi sejumlah tantangan teknis, dengan OPPO menempati urutan ketiga dan di atas dalam delapan tantangan. Ini termasuk tantangan pencarian arsitektur saraf (NAS), SoccerNet, SoccerNet Replay Grounding, lokalisasi temporal ActivityNet, Tantangan Segmentasi Objek Video Skala Besar ke-4, Tantangan ACDC 2022 tentang segmentasi semantik dalam kondisi visual yang merugikan, dan WAD Argoverse2 Motion Forecasting.

Dari fotografi ponsel hingga mengemudi secara otonom, model pembelajaran mendalam memasuki lebih banyak industri. Namun, pembelajaran mendalam sangat bergantung pada data besar dan daya komputasi yang besar, dan biaya pembelajaran yang tinggi, yang juga membawa tantangan bagi penerapan komersial teknologi AI mutakhir.

Teknologi pencarian arsitektur jaringan saraf (NAS) dapat secara otomatis menemukan arsitektur jaringan saraf yang optimal, mengurangi ketergantungan pada pengalaman buatan dan pengetahuan latar belakang, dan memungkinkan AI mencapai otonom. Dalam kompetisi NAS, peneliti OPPO melatih supernetwork dari 45.000 jaringan sub neural untuk mewarisi parameter supernetwork dengan mengoptimalkan Model Parameter Forgetting dan Unfair Gradient Descent Problem, mencapai tingkat konsistensi yang tinggi antara kinerja subnetwork dan peringkat kinerja, peringkat kedua di antara semua peserta.

Pengembangan teknologi NAS memungkinkan peneliti untuk melatih hanya jaringan super besar, dan kemudian membangun prediktor dengan biaya rendah dengan mewarisi parameter jaringan super, sehingga mencapai pembelajaran mandiri arsitektur jaringan, sehingga efisien memperoleh model pembelajaran mendalam yang lebih baik dari yang dirancang oleh para ahli. Teknologi ini dapat diterapkan pada sebagian besar algoritma kecerdasan buatan saat ini, dan dapat membantu penerapan teknologi AI pada perangkat seluler, memungkinkan pengguna untuk merasakan manfaat dari penerapan teknologi AI yang cepat.

Selain sukses dalam tantangan NAS, OPPO juga menempati posisi pertama dalam tantangan SoccerNet Replay Grounding dan tempat ketiga dalam tantangan SoccerNet Action Spotting, menyusul kemenangan kedua di kedua kategori di CVPR tahun lalu.

OPPO menghadirkan manfaat AI kepada lebih banyak orang, lebih cepat

Di bawah bimbingan misi merek ‘Inspiration Ahead’, OPPO juga bekerja sama dengan mitra industri untuk terus mempromosikan teknologi kecerdasan buatan (AI) dari laboratorium ke kehidupan. Pada bulan Desember 2021, OPPO merilis NPU khusus gambar pertama yang dikembangkan sendiri, MariSilicon X dengan daya komputasi yang kuat, rasio efisiensi energi, dan kecepatan komputasi, yang dapat membuat kecepatan berjalan algoritme AI mencapai tingkat yang belum pernah terjadi sebelumnya, dan memecahkan masalah jangka panjang. kesulitan istilah ponsel bagi pengguna.

NPU menawarkan kinerja komputasi yang kuat dan efisiensi energi yang tinggi untuk memungkinkan algoritme AI yang kompleks dijalankan pada kecepatan yang belum pernah terjadi sebelumnya pada perangkat seluler, memberikan kualitas video yang superior melalui video malam tingkat lanjut dan algoritme pemrosesan gambar lainnya.

Teknologi AI OPPO juga telah digunakan untuk mengembangkan produk dan fitur seperti generator AR spasial waktu nyata CybeReal, OPPO Air Glass, Omoji, dan banyak lagi. Melalui teknologi ini, OPPO bertujuan untuk menciptakan dunia digital yang lebih hidup yang menggabungkan virtual dan realitas untuk menciptakan pengalaman baru bagi pengguna.